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本 书 着 重 十 对 Linux 系统 最 新 版 本 《2.4.0) 内 核 源 代码 进行 情景 描述 和 情景 分 析 。 

什么 是 情景 描述 ? 什么 是 情景 分 析 ? 

不 妨 以 英语 的 教学 为 例 。 大 家 部 知道 , 有 ` 种 很 有 效 的 方法 是 通过 “情景 会 话 ” 学 习 英 语 。 例 如 ， 
去 剧院 问 路 要 说 些 什 么 ， 去 图 书馆 借 书 要 说 些 什 么 ， 去 父 馆 吃 饭 辜 上 了 熟人 又 说 些 什 么 ， 等 等 。 每 … 
个 这 样 的 “情景 ”都 是 个 常见 或 常用 的 会 话 过 程 。 以 这 样 的 -- 些 情景 为 线索 ， 洛 者 这 些 线索 讲解 “这 
总 被 动 语 态 “~“ 那 是 习惯 用 法 ”就 容易 引起 学 习 人 的 兴趣 从 而 印象 深刻 ， 并 且 每 学 了 这 样 一 个 情景 就 
能 够 实际 运用 。 允 外， 由 于 来 自 现 实生 活 的 情景 在 语法 、 语 义 等 方面 都 不 是 单一 的 ， 在 学 习 一 个 情景 
的 时 候 道 常 都 会 涉及 该 语言 种 种 不 同 的 方面 ， 通 过 一 系列 精心 安排 的 情景 会 话 的 学 习 ， 就 能 对 英语 逐 
步 地 建立 起 比较 全 面 的 认识 。 事 实 上 ， 就 英 诸 的 学 习 和 而 言 ， 纯 粹 的 系统 化 学 习 方 法 几乎 是 不 坝 实 的 。 
事实 上 ,很 少 有 人 通过 读 字 典 来 学 单词 ， 笛 吏 是 结合 课文 来 学 ， 每 篇 课文 实际 上 也 是 一 个 情景 。 当 然 ， 
系统 化 的 学 习 还 是 此 的 ， 学 了 情景 对 话 以 后 还 要 再 系统 地 学 习 语 法 。 但 是 无 串 奋 认 的 是 ， 从 情景 对 话 
入 手 学 习 英 诸 比 从 诸 法 入 手 要 有 效 得 多 。 相 信 读 者 会 有 这 方面 的 体会 和 经 历 。 

现在 来 看 对 Linux 内 核 的 学 习 。 如 果 以 若 十 经 过 精心 安排 的 情景 为 线索 ， 例 如 ， 打 开 一 个 文件 的 
全 过 程 ， 执 行 一 个 可 执行 程序 的 全 过 程 ， 从 一 个 进程 发 送 一 个 报 文 到 另 一 个 进程 的 过 程 等 等 ， 结 合 
核 源 代码 途 个 加 以 讲解 ， 放 且 在 讲解 过 程 中 有 针对 性 地 介绍 所 涉及 的 数据 结构 和 算法 ， 读 者 就 能 得 到 
对 整个 内 核 的 生动 而 深刻 的 理解 。 本 书 的 宗旨 之 一 就 个 引 导读 者 走 过 许 多 这 样 的 “情景 ”"”， 从 而 建 江 
起 对 Linux 内 核 的 全 面 的 认识 。 人 至 村 情景 的 安排 ， 仍 然 按照 操作 系统 的 诛 理 分 成 龙 干 章 ， 例 如 存储 管 
理 、 进 程 管理 、 文 件 系统 等 等 。 在 得 … 间 中， 除了 必要 的 叙述 以 外 ， 都 挑选 了 若干 重要 的 情景 ， 结 合 
源 代码 逐个 加 以 讲解 。 

本 书 所 用 的 源 代 码 ， 刚 开始 编写 初稿 时 取 自 当时 最 新 的 Linux 内 核 2.3.38 版 ， 后 来 沪 经 2.3.98 利 
2.4.0 测试 版 , 最 后 依据 2.4.0 目 式 版 重新 修改 定稿 。 污 者 可 以 在 相关 的 网 站 上 自行 下 载 该 版 内 核 的 全 部 
源 代 码 。 可 以 肯定 ， 当 读者 看 到 本 书 时 ， 其 全 本 书 付 印 时 ， 最 新 的 版 本 已 不 青 是 2.4.0 了 。 但 是 不 管 怎 
样 我 们 总 得 要 锁定 “个 版 本 ， 这 就 是 2.4.0. 

一 般 情况 下 ， 分 析 抬 作 系统 源 代 伺 的 专著 或 教材 习惯 上 部 是 这 样 安排 的 ， 以 主要 数据 结构 的 定义 
为 核心 ， 以 数据 结构 之 问 的 联系 为 线索 ， 内 容 则 以 对 文件 、 模 块 和 函数 的 功能 描述 为 主 ， 辅 以 阁 干 了 
数 中 的 代 但 片断 作为 实例 ， 以 达到 介绍 、 分 析 各 种 特定 桃 制 的 目的 。 这 种 思路 和 安排 基本 上 类 似 于 先 
讲 语法 规则 后 举 一 些 例 名 的 外 语 教学 方法 , 它 比较 适合 于 只 要 求 对 内 核 和 它 的 原理 有 粗略 了 解 的 读者 ， 
但 对 需要 深入 理解 内 核 或 实际 从 事 这 方面 工作 的 读者 就 未 必 合 适 。 其 实 ， 这 种 安排 对 于 初学 者 也 未 必 


在 最 好 的 。 不错， 要 埋 解 “个 操作 系统 的 内 在 机 制 及 其 实现 机 理 ， 当 然 需 要 了 解 二 要 数据 结构 的 给 成 ， 
了 解数 据 结构 之 问 的 联系 ， 了 解 整 个 内 核 代 介 的 模块 划分 、 文 件 划 分 和 功能 分 解 ， 了 解 主要 函数 对 有 
关 数 据 结 多 操 作 的 大 敏 交 辑 流程 。 问 题 在 于， 怎样 才能 使 六 者 和 学 生 达 到 这 些 要 求 。 根 据 我 们 多 年 米 
的 切身 体会 ， 我 们 决定 从 员 体 、 鲜 活 的 源 代 侍 入 手 作 情 晤 分析， 在 分 析 过 程 中 逐步 引入 相关 的 数据 结 
网 和 互相 问 的 联系 ， 介 绍 具体 困 数 的 逻辑 流程 太 其 物理 背景 性 全 代码 作者 的 其 些 锅 超 技巧 ， 让 读音 和 
作者 一 起 宛 成 必要 的 抽象 过 程 ， 通 过 读者 的 思索 ， 最 后 达 刘 深入 而 全 面 的 理解 。 

对 十 从 事 系统 设计 或 实现 的 读者 ， 源 代 个 的 阅读 和 型 解 是 一 项 重 费 的 基本 功 。 写 小 说 的 人 大 多 足 
读 了 许多 名 着 和 文学 评论 以 后 ， 而 不 是 读 了 “小 说 构 论 ”以 后 才学 到 写作 技巧 ， 进 而 写 出 受 读者 喜爱 
的 作曲 。 写 程序 的 人 又 向 尝 不 是 如 此 。 本 书 的 日 的 之 一 就 是 为 读者 提供 一 些 类似 才 文学 评论 的 材料 。 
” 方 而 ， 源 代码 的 阅读 和 理解 也 是 必要 的 。 在 某 种 意义 上 ， 源 代码 本 身 氏 是 最 准确 的 说 明 书 也 是 最 
权威 的 教科 书 ， 央 为 出 它 所 构成 的 系统 切切 实 实在 运行 。 我 们 白 己 就 有 过 这 样 的 经 历 : 学 了 一 些 原 理 
和 抽象 的 流程 就 月 以 为 贱 了 ， 可 是 拿 源 代码 一 看 却 怎 么 也 对 不 上 号 。 于 是 下 雇 心 钴 进去 ， 化 了 九 牛 二 
RAAT. Linux 内 核 源 代码 还 为 计算 机 行业 的 工作 人 员 树 立 了 一 个 参照 物 。 我 们 在 工作 中 常常 看 
到 , 人 们 (包括 我 们 自己 ) 在 磁 到 问题 时 往往 会 先 很 想 ; 这 企 Linux (以 前 是 Unix) 里面 是 怎样 实现 的 ? 
或 者 在 Linux WEEP REALL? HEE “下 有 关 的 源 代码 ， 便 有 了 主张 。 有 时 其 至 语 企 源 代码 中 找 几 
个 文件 加 以 裁 荀 、 修 改 ， 问 题 很 快 就 解决 了 (但 须 遵 宁 GPL 中 的 有 关 规 定 )。 诚 然 ，Linux 内 核 源 代码 
的 阅读 和 理解 是 个 艰苦 的 过 程 ， 最 好 能 有 些 指 导 ， 有 些 帮 助 ， 而 这 止 丰 我 们 写作 本 书 的 日 的 。 

希望 读者 在 每 读 完 一 章 后 能 做 屿 个 小 结 。 一 个 是 关于 数据 结构 组 成 和 数据 结构 之 问 联 系 的 小 结 ， 
男 一 个 是 关 十 执行 过 程 以 及 遇 数 调用 关系 的 小 结 。 读 者 为 了 完成 这 两 个 小 结 ， 可 能 不 得 不 岂 过 头 去 再 
读 一 过 其 至 儿 吉 前 面 的 内 容 。 从 内 容 的 选 定 和 编排 的 角度 来 说 ， 最 理想 的 当然 是 严格 遵循 “ 先 说 明 后 
引用 ”的 原则 ， 像 平面 儿 何 那 样 建立 起 一 个 演绎 体系 。 可 是 ， 对 于 “个 实际 的 系统 ， 特 别 是 对 于 它 的 
源 代 码 ， 这 种 完全 线性 的 叙述 和 认识 过 各 是 不 坝 实 的 。 实际 的 认识 过 称 是 蝶 旋 式 的 ， 这 也 决定 了 常常 
需要 区 复读 几 迪 才能 理解 。 所 以 ， 对 于 一 个 操作 系统 的 源 代码 ， 读 到 后 面 肯 返 回 前 面 ， 肯 读 介 后 面 义 
返回 前 面 ， 这 几乎 是 必然 的 过 程 。 真 有 决心 深入 了 解 Linux 内 核 的 读者 应 该 有 这 个 患 想 淮 备 。 我 们 相 
佑 ， 读 者 和 在 读 完 企 书 以后， 如 采 闭 日 绸 想 ， 一 定 会 有 一 种 在 一 个 新 到 的 城市 小 由 向 对 陪 同 走 街 冲 巷 ， 
到 过 了 大 号 的 重要 时 点 ， 最 后 到 了 某 个 高 楼 之 顶 的 旋转 餐厅 鸟 路 整个 磊 市 时 常会 有 的 下 种 心情 。 

川 于 篇 幅 的 点 网， 企 蔬 分 上 下 两 员 。 上 册 包 括 预备 知识 、 存 储 管理 、 中 断 和 系统 调用 、 进 程 和 进 
程 调度 、 文 件 系 统 以 及 传统 的 Unix 进程 问 通讯 ， 共 六 章 。 下 册 则 分 基于 socket 的 进 积 间 通讯、 设备 铬 
动 、 多 处 理 器 SMP 系统 结构 以 及 系统 引导 和 初始 化 ,其 四 章 。 上 下 两 册 不 可 分 割 ， 是 一 个 有 机 的 整体 。 

本 书 的 题材 决定 了 读者 主要 是 中 、 禹 级 的 计算 机 专业 人 员 ， 以 及 大 学 有 关 去 业 的 高 年 级 学 生 和 全 
宪 牛 。 佣 是 ， 我 们 在 写作 中 也 尽 虽 照 兢 到 了 非 计算 机 专业 的 学 生 和 饭 学 者 〈 因 此 程度 高 的 读者 有 时 候 
HFS ASU THOR). Git T. DOE - 些 操 作 系 统 和 计算 机 系统 结构 方面 的 基 
础 知识 ， 并 粒 通 C 诸 言 ， 就 可 以 阅读 本 书 。 
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SUAE e T ARE, CARO AIA EI ES Ae, AC BLEUS BD TR. 
我 们 可 以 负责 地 说 ， 本 书 付 印 前 在 文字 中 已 经 没有 我 们 知道 而 没有 改 下 的 错误 ， 更 没有 政 意 误导 读者 
的 内 容 。 但 是 ， 我 们 深 知 错误 一 定 是 有 的 ， 我 们 欢迎 讨论 ， 欢 迎 批评 。 

20 年 前， 本 书 的 两 位 作者 从 不 同 单位 调 入 浙江 大 学 计算 机 系 ， 共 事 期 问 曾 共同 承担 过 廊 干 计算 机 
应 川 项 日 的 开发 、 研 究 。 后 来 第 … 作 者 去 了 美国 ， 日 前 在 美 定居 ， 继 续 从 事 计算 机 专业 的 芽 作 ; 第 
作者 已 从 学 校 退休 ， 日 前 受聘 在 杭州 恒生 电疗 股 份 有 限 公司 任职 。 出 于 难 态 的 友情 和 其 他 些 难 以 制 
舍 的 情结 (包括 对 Unix 和 Linux 的 共同 爱好 ), 两 年 前 通过 越 洋 电 话 商 定 要 合作 写 几 本 有 关 Linux HE, 
此 和 启 在 读者 手 上 的 就 是 其 中 的 第 一 本 ， 其 余 的 就 柴 看 条 件 是 省 允许 了 。 

从 成 书 到 出 版 ， 曾 得 人 到 了 陈 大 中 、 曾 抗 生 、 金 通 涪 、 命 瑞 钊 儿 位 教授 和 其 他 许多 国内 骨 友 的 鼓励 
和 文 持 ， 作 者 感谢 他 们 。 特 别 要 提 刘 的 是 ， 恩 师 何 志 钓 教授 在 过 去 和 坝 在 者 给 了 作者 许多 的 关心 和 帮 
助 ， 念 作者 终生 难点 ， 本 书 的 出 版 在 某 种 意义 上 也 是 对 恩师 的 一 次 汇报 ， 同 时 表示 由 衷 的 感谢 。 

作者 还 要 感谢 恒生 电子 股份 有 限 公司 黄 大 成 总 裁 、 彭 政 纲 人 昔 事 长 以 及 其 他 领导 人 对 作者 ， 特 别 是 
第 二 作者 开展 Linux 人 饶 究 的 支持 。 他 们 为 本 书 第 二 作者 提供 了 很 好 的 工作 条 件 , 使 其 在 工作 之 余 继 Unix 
之 后 还 能 再 从 事 Linux 技术 的 钱 究 。 作 为 全 国 闭 名 软件 企业 的 决策 者 ， 他 们 对 软件 核心 技术 的 敏锐 眼 
光 以 及 采 骨 最 新 技术 为 我 国 金融 证 券 行业 开发 全 新 的 大 型 应 几 软 件 的 战略 决策 ， 令 人 钦佩 。 感 谢 他 们 ， 
祝愿 他 们 瞩 得 更 人 的 成 功 。 

最 后 ， 还 要 感谢 谢 徽 、 上 十 红 女 、 章 西 、 李 清 葵 几 位 小 姐 ， 她 们 在 承担 公司 繁重 上 作 的 问 时 利用 炎 
余 时 间 为 本 书 文稿 的 录入 和 整理 付出 了 估量 的 辛勤 劳动 。 

本 书 的 出 版 ， 像 任何 其 他 技术 专著 样 ， 除 了 错误 之 外 总 还 会 有 许多 不 尺 人 意 的 地 方 ， 次 迎 国 内 
外 的 专家 和 本 书 读者 给 我 们 指 山 ， 以 便 改进 。 
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1.1 Linux A 4% fay 7 


在 计算 机 技术 的 发 展 史 上 ，Unix RRA REP EORR. SAY Unix 曾 免 费 供 关 国 
及 一 些 西 方 国家 的 大 学 和 科研 机 构 使 用 ， 并 且 提 供 源 代码 。 这 一 方面 为 高 校 和 科研 机 构 普 及 使 用 计算 
机 提供 了 条 件 ， 另 一 方 而 ， 也 是 更 重要 的 ， 为 计算 机 软件 的 核心 技术 “操作 系统 ”的 教学 和 实验 提供 
了 条 件 。 特 别 足 Unix 内 核 第 6 版 的 源 代 码 ， 在 相当 长 的 一 段 时 期 内 是 大 学 计算 机 系 高 年 级 学 后 和 研究 
生 使 用 的 教材 ， 甚 全 可 以 说 ， 美 国 当时 整整 一 代 的 计算 机 专业 人 员 才 是 读 着 Unix 的 源 代码 成 长 的 。 反 
过 来 ， 这 也 促进 了 Unix 的 普及 和 发 展 ， 并 且 在 当时 形成 了 一 个 Unix PE. SKE, (EAH 
利 发 展 ， 也 可 以 看 到 Unix 起 着 重要 的 作用 。Unix 两 大 主流 之 一 的 BSD 就 是 在 加 州 大 学 伯克利 分 校 开 
AB). DK. Unix 成 了 商品 ， 其 源 代 码 也 受到 了 版 权 的 保护 ， 再 说 也 日 益 复 杂 和 庞大 了 ， 而 第 6 版 则 
又 慢 慢 显得 陈旧 了 ， 便 逐渐 不 再 用 Unix 内 核 的 源 代码 作为 教材 了 《但 是 自 到 现在 还 有 在 用 的 )。 

在 这 种 情况 下 ， 出 于 教学 的 需要 ， 集 兰 的 著名 教授 Andrew S. Tanenbaum 编写 了 一 个 小 型 的 “类 
Unix” HERA Minix， 在 PC 机 上 运行 ， 其 源 代 信 在 20 Ted 80 年 代 后 期 和 90 年 代 前 期 曾 被 广泛 采 
用 。 但 是 ，Minix 虽说 是 “类 Unix”, 其实 离 Unix 相当 远 。 首 先 ，Minix 是 个 所 请 “ 微 内 核 ” 与 Unix 
内 核 属 十 不 同 的 设计 , 功能 上 更 是 不 可 同日 而 语 。 再 说 Unix 也 不 仅仅 是 内 核 , 还 包括 了 其 “外 充 ”Shell 
AIFS TARY “SCARE”. 如 果 内 核 提 供 的 文 持 不 完整 ， 就 不 能 与 这 些 成 分 结合 起 来 形成 Unix 环 





境 。 这 样 ，Minix 虽然 不 失 为 - 个 不 错 的 教学 工具 ， 却 缺乏 实用 价值 。 看 到 Minix 的 这 个 缺点 ， 当 时 的 
-个 芬兰 学 生 Linus Torvalds 就 晴 生 了 一 个 念头 ， 节 组 织 一 些 人 ， 以 Minix 为 起 点 ， 基 本 上 按照 Unix 


的 设计 ， 并 日 博 采 各 种 版 本 之 长 ， 让 PC 机 上 实现 ， 开 发 出 一 个 真正 可 以 实用 的 Unix 内 核 。 这 样 ， 公 
REA RH CAR) Unix 系统 ， 义 有 系统 的 源 代 人 色 ， 且 不 存在 版 权 问题 。 可 是 ，Tanenbaum 教授 
的 旦 光 却 完全 用 在 教学 上 ， 因 此 并 不 认为 这 是 一 个 好 诗意， 没有 采纳 这 个 建议 。 

EAE “WAP BOM”, MENSA, GAA, Linus Torvalds 就 自己 动手 于 
了 起 来 。 由 于 所 实现 的 基本 上 是 Unix, Linus Torvalds 就 把 它 称 为 Linux。 那 时 候 互联 网 虽然 还 不 像 现 在 
这 么 普及 ， 伺 是 在 大 学 和 公司 中 已 经 用 得 很 多 了 。Linus Torvalds 在 基本 完成 了 Linux 内 核 的 第 一 个 版 
本 以 后 就 把 它 放 在 了 互联 网 上 ， 一 来 是 把 自己 写 的 代 公 公庄 十 众 ， 二 来 是 邀请 有 兴趣 的 人 也 来 参与 。 
他 的 这 种 做 法 很 快 便 引 起 了 热 旨 的 皮 应 ， 并 且 与 天 国 “ 自 由 软件 基金 会 ”FSF 的 主张 正好 不 谋 而 合 。 

EX 


Linux 内 核 源 代码 情景 分 析 EA 


当时 FSF 已 经 有 计划 要 开发 :个 类 Unix (但 义 不 是 Unix, PARAH GNU, XÈ “Gnu is Not Unix” 的 
缩写 ) 的 操作 系统 和 应 用 环境 ， 出 Linux 的 出 现 正 是 适 得 其 时 ， 适 得 其 所 。 于 是 ， 由 Linus Torvalds 证 
持 的 Linux 内 核 的 开发 、 改 进 与 维护 ， 就 成 了 FSF 的 让 要 项 具 之 一 。 同 时 ，FSF 的 共 他 项 目 ， 如 GNU 
的 C 编译 gcc、 程 序 调试 工具 gdb， 还 有 各 种 Shell 和 实用 程序 ， 乃 至 Web 服务 器 Apatche、 浏 览 
Mozilla( 实 际 上 就 是 Netscape) 等 等 , 则 正好 与 之 配套 成 龙 。 人 们 普遍 认为 掉 由 软件 的 开发 是 软件 锁 域 中 
的 一 个 奇迹 。 这 么 多 志 床 者 参与 ， 只 是 通过 互联 网 维持 松散 的 组 织 ， 居 然 能 有 条 不 训 地 互相 配合 ， 开 
发 出 高 质量 的 而 莫 又 是 难度 较 大 的 系统 软件 ， 实 在 令 人 赞叹 。 

ABA, Linux 与 它 的 前 里 Minix 的 区 别 何在 呢 ? 简单 地 说 , Minix 是 个 “ 微 内 核 ” 而 Linux 起 个 “ 宏 
A”: Minix 是 个 类 Unix 的 教学 用 模型 ， 而 Linux 基本 上 就 是 Unix. if AE Unix 的 延续 和 发 展 ， 甚 
全 是 各 种 Unix 版 本 与 变种 的 集大成 者 。 

大 家 知道 ， 传 统 意义 证 的 操作 系统 ， 其 内 核 应 共 备 多 个 方面 的 功能 或 成 分 ， 虐 包含 用 十 管 球 属 十 
应 用 层 的 “进程 ”的 成 分 ， 如 进程 管理 ， 也 包含 为 这 些 进程 提供 各 种 服务 的 成 分 ， 如 进程 间 通 信 、 设 
备 驱动 和 文件 系统 等 等 。 内 核 中 提供 各 种 服务 的 成 分 与 使 用 这 些 服务 的 进程 之 间 实 际 上 就 形成 -~ 种 典 
型 的 “ClienVyServer” 的 关系 。 其 实 ， 这 些 服务 提供 者 放 不 一 定 非 得 部 留 在 内 核 中 不 可 ， 他 们 本 车 也 可 
以 被 设计 并 实现 某 些 “服务 进程”， 其 中 必须 要 留 在 内 核 中 的 成 分 其 实 只 有 进程 间 通 信 。 如 果 把 这 些 服 
务 提 供 者 从 内 核 转 移 到 进程 的 层次 上 ， 那 么 内 核 本 身 的 结构 就 可 以 大 大 减 小 和 简化 。 山 各 个 服务 进程 ， 
既然 已 从 内 核 中 游离 出 来 ， 便 可 以 单独 地 设计 、 实 现 以 及 调试 ， 更 重要 的 是 可 以 按 实 际 的 需要 米 配 置 
和 启动 。 基 于 这 样 的 想法 ， 各 种 “ 微 肉 核 ”(Micro-Kernel) 便 应 运 而 生 。 特 别 是 对 于 … 些 专用 的 系统 ， 
主要 是 实时 系统 和 “嵌入 式 ” 系 统 (Embedded System)， 微 内 核 的 思想 就 很 有 吸引 力 。 究 其 原因 ， 主 
要 是 因为 通常 这 些 系统 都 不 带 磁盘 ， 整 个 系统 都 必须 放 人 在 EPROM 中 ， 常 常 受到 存储 空间 的 限制 ， 而 
所 需要 的 服务 义 比较 单一 和 简单 。 所 以 ， 几 乎 所 有 的 风 入 式 系 统 和 实时 系统 都 采用 微 内 核 ， 如 PSOS, 
VxWorks 等 。 当 然 ， 微 内 核 也 有 缺点 ， 将 这 些 服 务 的 提供 都 放 在 进程 层次 上 ， 再 通过 进程 问 通信 《〈 通 
常 是 报 文 传递 ) 提供 服务 ， 势 必 增 加 系统 的 运行 开销 ， 降 低 了 效率 。 

与 微 内 核 相 对 应 ， 传 统 的 内 核 结 构 头 称 为 “ 宏 内 核 ”(Macro-Kermel)， 或 称 为 “一 体 化 内 核 ” 

(Monolithic Kemel)。 通 用 式 的 系统 由 于 所 需 的 服务 面 广 而 量 大 ， 一 体 化 内 核 就 更 为 合适 。 作 为 一 种 
通用 式 系 统 ，Linux 采用 一 体 化 内 核 是 很 自然 的 事 。 

传统 的 Unix 内 核 是 “全 封闭 ”的 。 如 果 要 往 内 核 中 加 “个 设备 《〈 赠 加 一 种 服务 )， 早 期 一 役 的 做 
法 是 编 邱 这 个 设备 的 豫 动 程序 ， 并 变动 内 核 源 程序 中 的 其 些 数据 结构 (设备 表 )， 再 重新 编译 整个 内 核 ， 
并 重新 引导 整个 系统 。 这 样 做 当然 也 有 好 处 ， 如 系统 的 安全 性 更 能 得 到 保 让 ， 但 其 缺点 也 是 很 明显 的 ， 
那 就 是 太 僵化 了 。 人 在 这 样 的 情况 下 ， 当 某 一 个 公司 天 发 出 一 种 新 的 外 部 设备 时 《比方 说 ， 一 台 彩 色 扫 
描 仪 )， 它 就 不 可 能 随同 这 新 的 设备 提供 一 片 软盘 或 光 柑 给 用 户 ， 使 得 用 户 只 要 运行 一 下 “setup” 就 可 
以 把 这 设备 安装 上 了 ( 像 对 Dos/Windows 那样 )。 有 能 力 修改 Unix 内 核 的 设备 表 ， 并 重新 编译 内 核 的 用 
户 毕 竟 不 多 。 

在 Linux 里 ， 这 个 问题 就 解决 得 比较 好 。Linux 既 允 许 把 设备 驱动 程序 在 编译 时 静态 地 连接 在 内 核 
中 ， -如 传统 的 驱动 程序 邦 样 ， 也 允许 动态 地 华 运 行 时 安装 ， 称 为 “模块 ”还 允许 在 运行 状态 下 当 而 
要 用 到 某 ~- 模 块 时 由 系统 自动 安装 。 这 样 的 模块 仍然 在 内 核 中 运行 ， 身 不 是 像 在 微 内 核 中 那样 作为 单 
独 的 进程 运行 ， 所 以 其 运行 效率 还 是 得 到 保证 。 模 块 ， 也 就 是 动态 安装 的 设备 驱动 程序 的 实现 ( 详 见 设 
SUES), BRAM MG. Eth Linux 设备 驱动 堡 序 的 设计 、 实 现 、 调 试 以 及 发 布 都 人 大 地 简 
化 ， 甚 至 可 以 说 是 发 生 了 根本 性 的 变化 。 

Linux 最 初 是 在 Intel 80386“ 平 全 ”上 实现 的 ， 但 是 已 经 被 移植 到 各 种 主要 的 CPU RA E, Gi 
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Alpha、M68K、MIPS、SPARC、Power PC 5&5€ (Pentium, Pentium [I 5555 f T- i386 系列 )。 可 以 说 
Linux AK AES EKME AR. FIRE. EI ASE CPU E, Linux 内 核 还 支持 不 同 的 
系统 结构 ， 它 既 支持 常规 的 单 CPU 结构 ， 也 支持 多 CPU 结构 。 不 过 ， 本 书 将 专注 于 i1386 CPU, JH 
以 单 CPU 结构 为 主 ， 但 是 最 后 有 一 章 专门 讨论 多 CPU 结构 。 

在 安装 好 的 Linux 系统 中 , AAU TS BE T Jusr/src/linux, WRA GNU 网 站 下 载 的 Linux A 
的 tar 文件 ， 则 展开 以 后 在 一 个 叫 linux 的 子 日 录 中 。 以 后 本 书 中 谈 到 源 文件 的 路 径 时 ， 就 总 是 从 linux 
这 个 节点 开始 。Linux 源 代 码 的 组 成 ， 大 体 如 下 所 示 。 





COPYING X FSF 公共 许可 让 制度 GPL 的 具体 说 明 
README Linux 内 核 安装 和 使 用 的 简要 说 明 
Makefile S KJ Linux 内 核 可 执行 代码 的 make 文件 
Documentation AX Linux 内 核 的 文档 
——— arch arch 是 architecture 一 词 的 缩写 ， 内 核 中 与 其 体 CPU 和 系统 结构 机 


关 的 代码 分 别 放 在 下 一 层 的 子 昌 录 中 ， 而 相关 的 .文件 则 分 别 放任 
inciude/asm 目录 之 下 
Alpha—— i DEC 开发 的 64 位 CPU 


i386 --— 包括 X86 系列 中 自 80386 以 后 的 所 有 32 位 CPU ， 了 包括 
80486, Petium Pentium 了 工 ， 等 等 ， 也 包括 AMDK6 ^5 3f 


容 系 列 
m68k—— 出 Motorola 玫 发 的 68000 系列 
mips 一 一 RISCCPU 芯片 














spare ——— RISC CPU BH, ERAT Sun 上 作 站 等 机 型 中 
$390 —— IBM 后 产 的 一 种 大 型 计算 机 
ia64 一 一 Intel 的 IA-64 结构 64 位 CPU 
MA: 在 每 个 CPU 的 子 目 录 中 ， 又 进一步 分 解 为 boot，mm，kernel 等 子 目 录 ， 
分 别 包 含 与 系统 引导 、 内 存 管理 、 系 统 调 用 的 进入 和 返回 、 中 断 处 理 以 
及 其 他 内 核 中 依赖 于 CPU 和 系统 结构 的 底层 代码 。 这 些 代码 有 些 是 汇 
编 代 码 ， 但 主要 还 是 c 代码 


linux 


drivers 设备 驱动 程序 ， 包括 各 种 块 设备 和 字符 设备 的 驱动 程序 

fs 文件 系统 ， 每 信子 日 录 分 别 对 应 ”个 特定 的 文件 系统 ， 还 有 一 些 共 
司 的 源 程序 则 用 十 “虚拟 文件 系统 ” vts 

include 包含 了 所 有 的 .文件 。 如 arch SP RE, 在 include 中 也 是 为 各 种 CPU 
都 允 设 一 个 子 目 录 ， 谭 通用 的 了 目录 asm 则 根据 系统 的 配 兽 而 “符号 连 
接 ” 到 具体 CPU 的 专用 了 目录， 如 asm i386. asm m68k 等 。 除 此 之 外 ， 
还 有 通用 的 子 日 录 linux, net 等 


init Linux 内 核 的 main( ) 及 其 初始 化 过 程 ， 包 括 : main.c, version.c 等 文 

ipc Linux 内 核 的 进程 问 通信 ， 包 括 : util.c, sem.c, shm.c, msg.c 等 交 件 

kernel 进程 管理 和 测度， 包括: sched,c, fork.c, exit.c, signal.c, sys.c, time.c, 
resource.c, dma.c, softirg.c, itimer.c 等 文件 

lib x80 A) LR TET FR, dup HB HER RS Sh EG 

mm A feet, METE, 包括 : swap.c, swapfile.c, page io.c, page. alloc.c. 
swap_state.c, Vmscan.c. kmalloc.c, vmalloc.c, memory.c, mmap.c 等 文件 

net 包含 了 各 种 林 辣 网 卡 利 网 络 规程 的 驱动 程序 


scripts 用 于 系统 配置 的 命令 文件 


Linux 内 核 源 代 伺 情 景 分 析 〈([. 册 ) 

值得 一 提 的 是 ，Linux 的 源 代码 看 似 庞 人 人 ， 其 实 对 于 每 一 个 具体 的 内 核 而 音 并 不 是 所 有 的 . c M. h 
文件 都 会 用 到 ,而 是 在 编译 (包括 连接 ) 时 根据 系统 的 皮 置 有 选择 地 使 用 。 例 如， 晶 然 源 代码 中 包含 了 用 
来 支持 各 种 不 同 CPU 的 代码 ， 但 编 详 以 后 每 一 个 具体 的 内 核 都 只 是 针对 一 种 特定 CPU 的 。 再 如 ， 人 在 
nett 子 目录 下 包含 了 各 种 网 卡 的 驱动 程序 ， 但 实际 上 通常 具 会 用 到 - :种 网 卡 ， 而 及 各 种 网 卡 的 驱动 程序 
实际 上 大 同 小 异 。 

在 结束 本 节 之 前 ， 还 要 介绍 -下 有 有关 Linux 内 核 版 本 的 一 些 规定 。 

通常 ， 在 说 到 Linux 时 ， 是 指 它 的 内 核 加 上 运行 在 内 核 之 上 的 各 种 管理 程序 和 应 用 程序 。 严 格 地 
说 ， 内 核 只 是 操作 系统 的 一 部 分 ， 即 其 核心 部 分 。 但 是 ， 人 们 往往 把 Linux A Rte Linux, Arb 
在 讲 到 Linux 时 有 了 时 候 起 指 整 个 操作 系统 ， 有 时 候 则 是 指 其 内 核 ， 要 根据 上 下 文 加 以 区 分 。 在 本 书 中 ， 
如 无 特别 说 明 ， 则 Linux 通常 是 指 其 内 核 。 

Linux 内 核 的 版 本 在 发 行 上 有 自己 的 规则 ， 吕 以 从 其 版 本 号 加 以 识别 。 版 本 写 的 格式 为 “x.yy.zz”。 
其 中 x 介 于 0 到 9 之 间 ， 而 yy、zz 则 介 于 0 到 99 之 间 。 通 常数 字 愈 高 便 说 明 版 本 愈 新 。 一 些 版 本 号 
后 面 有 时 会 见 到 pNN 的 字样 ，NN 是 介 于 0 到 20 之 间 的 数字 。 它 代表 对 基 一 版 的 内 核 “ 打 补丁 ”或 修 
订 的 次 数 。 如 0.99p15， 代 表 这 是 对 版 本 0.99 的 内 核 的 第 15 次 修订 。 

由 十 Linux 源 代码 的 开放 性 ， 公 众 随时 都 可 以 从 网 上 下 载 最 新 的 版 本 ， 包 括 还 在 开发 中 、 尚 未 稳 
定 、 因 侧 还 不 能 发 行 的 版 本 ， 因 此 ， 需 要 有 一 套 编 号 的 方案 ， 使 用 户 看 到 个 具体 的 版 本 号 就 可 以 知 
道 是 属 十 “发 行 版 ”还 是 “开发 版 ?>， 所 以 Linux 内 核 的 版 本 编号 起 有 规则 的 。 在 版 本 号 x.yy.zz ls x 
的 不 同 号 码 标志 着 内 核 在 设计 上 或 实现 上 的 重大 改变 ，yy “方面 表示 版 本 的 变迁 ， 一 方面 标志 省 版 本 
的 种 类 ， 即 “发 行 版 ”或 “开发 版 ”如果 yy 为 个 数 便 表 示 是 一 个 相对 稳定 、 已 经 发 行 的 版 本 ， 芳 为 
奇数 则 表示 还 在 开发 中 ， 日 前 还 不 太 稳定 、 或 者 在 运行 中 可 能 出 现 比较 大 的 问题 的 版 本 。 开 发 中 的 版 
本 一 旦 通过 测试 以 及 试 运行 ， 证 明 已 经 稳定 下 来 ， 就 可 能 会 发 布 一 个 yy 的 值 为 偶数 的 发 行 版 。 之 后 ， 
开发 者 们 又 将 创建 下 - 个 新 的 开发 版 本 。 但 是 有 时 候 也 会 在 历经 了 几 个 开发 版 以 后 才 发 布 一 个 发 行 版 。 
EF zz， 则 代表 着 在 内 核 增加 的 内 容 不 是 很 多 、 改 动 不 是 很 人 时 的 变迁 ， 只 能 算是 同一 个 版 本 。 例 如， 
版 本 由 2.0.34 升级 到 2.0.35 只 意味 着 版 本 2.0.34 中 的 一 些小 缺陷 被 修复 , 或 者 代 公 有 了 一 些小 的 改变 。 
“发 行 版 ”和 “开发 版 ”的 zz 是 独立 编写 的 ， 因 此 并 没有 固定 的 对 应 关系 。 例 如 ， 当 开发 版 2.3 的 版 
AB SIA BY 2.3.99 时 ， 相 应 的 发 行 版 还 只 是 2.2.18。 

Linux 内 核 的 0.0.2 版 在 1991 年 首次 公开 发 行 ，2.2 版 在 1999 年 1 月 发 行 。Linux 内 核 的 改进 是 相 
当 频 繁 的 ， 几 乎 每 个 月 都 在 变 。 本 书 最 初 采用 的 是 2.3.28 版 ， 最 后 成 书 付 印 时 则 以 正式 发 行 的 2.4.0 版 
为 依据 。 

Linux 的 内 核 时 本 上 只 有 一 种 米 源 ， 那 就 是 路 Linus 主持 开发 利 维护 的 内 核 版 本 。 但 是 有 很 多 公司 
ERIT Linux 操作 系统 不 同 的 发 行 版 “distribution)， 如 Red Hat, Caldera 等 等 。 虽 然 不 同 的 发 行 版 本 
中 所 采用 的 内 核 在 版 本 上 有 所 不 同 ， 但 其 来 源 基 本 一 化。 各 发 行 版 的 不 同 之 处 一 般 表 现在 安装 程序 、 
安装 界面 、 软 件 包 的 多 少 、 软 件 包 的 安装 和 管理 方 代 等 方面 ， 在 特 冻 和 情况 下 也 有 对 内 核 代 码 稍 作 修改 
的 〈 如 汉化 )。 不 同 的 发 行 版 由 木 同 的 发 行商 提供 服务 。 不 同 的 发 行商 对 自己 所 发 行 版 本 的 定位 也 有 不 
同 ， 各 厂商 所 能 提供 的 告 后 服务 、 技 术 云 持 也 各 不 相同 。 由 此 可 网， 原则 上 全 世界 只 有 一 个 Linux， 所 
谓 “ 某 某 Linux” REC RM RTA SIT A. nih A Linux 内 核 的 版 本 与 发 行商 中 已 
的 版 本 (如 “Red Hat 6.0” iid, PUN, Caldera 2.2 版 的 内 核 是 2.2.5 版 。 

对 于 大 多 数 几 户 ， 由 发 行商 提供 的 这 些 发 行 版 起 着 十 分 重要 的 作用 。 让 用 户 自 行 昵 署 和 生成 束 个 
系统 是 相当 困难 的 ， 因 为 于 样 用 户 不 但 要 间 己 下 载 内 核 源 程序 ， 自 己 山 译 安装 ， 述 要 从 不 同 的 FTP 站 
点 下 载 各 种 自由 软件 洪 加 钊 自己 的 系统 中 ， 还 要 为 系统 加 入 各 种 有 用 的 工具 ， 等 等 。 而 所 有 这 些 工 作 
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都 是 很 费时 费力 的 事情 。Linux 的 发 行 | 商 正 是 看 到 了 这 一 点 ， 替 用 户 做 了 这 些 工 作 , 在 内 核 之 上 集成 
了 大 基 的 应 用 软件 。 并 有 卫 ， 为 了 安装 软件 ， 发 行 厂 沿 同时 还 提供 了 用 于 软件 安装 的 工具 性 软件 ， 以 利 
于 用 户 安 装 管理 。 出 于 组 织 新 的 发 行 版 时 并 没有 个 统 -- 的 标准 ， 所 以 不 同 厂 滑 的 发 行 版 各 有 特点 也 
RANE. 

Linux 内 核 的 终极 的 来 源 昌 然 只 有 一 个 , 但 是 可 以 为 其 改进 和 发 展 作出 贡献 的 志愿 者 人 数 却 并 无 限 
制 。 同 时 ， 考 虑 到 一 些 特 殊 的 应 用 ， 一 些 开 发 商 或 机 构 往 往 对 内 核 加 以 修改 和 补充 ， 形 成 一 些 针 对 特 
殊 环 境 或 要 求 的 变种 。 例如, 针对“ 髓 入 式 ” 系 统 的 要 求 ， 有 人 就 开发 出 Embedded Linux; HIA “hii 
实时 ”要 求 的 系统 ， 有 人 就 开发 了 RT-Linux; 针对 于 持 式 计算 机 的 要 求 ， 有 人 就 开发 出 了 Baby Linux; 
等 等 。 当 然 ， 中 文 Linux 也 是 其 中 的 ~ 类。 每 当 有 新 的 Linux 内 核 版 本 发 布 时 ， 这 些 变 种 版 本 通常 也 
很 快 就 会 推出 相应 的 新 版 本 。 根 据 FSF 对 自由 软件 版 权 的 规定 (GPL), XXE AE PARA HEP UC 
HDPE A HAS 

许多 人 以 为 ， 既 然 Linux 是 免费 的 公开 软件 ， 那 就 无 所 谓 版 权 的 问题 了 。 其 实 不 然 。Linux 以 及 
Linux 内 核 源 代码 ， 是 有 版 权 保 护 的 ， 只 不 过 这 版 权 归 公众 (或 者 说 全 人 类 ) 所 有 ， 由 日 由 软件 基金 会 
FSF 管理 。FSF 为 所 有 的 GNU 软件 制定 了 个 公 几 许可 证 制度 ， 称 为 GPL (General Public License), 
也 叫 Copyleft， 这 是 与 通常 所 讲 的 版 权 即 Copyright 截然 不 同 的 制度 。Copyright 即 遂 常 意义 下 的 版 权 ， 
保护 作者 对 其 作品 及 其 衔 牛 品 的 独占 权 ， 而 Copyleft 则 允许 用 广 对 作品 进行 复制 、 修 改 ， 但 要 求 几 户 
承担 GPL 规定 的 一 些 义 务 。 按 GPL 规定 ， 人 允许 任何 人 免费 地 使 用 GNU 软件 ， 并 日 可 以 用 GNU 软件 
的 源 代码 重 构 串 执行 代码 。 进 一 步 ，GPL 述 人 允许 任何 人 免费 地 取得 GNU PER RURE, JF AL 
以 发 布 其 至 出 售 ， 但 必须 要 符合 GPL 的 某 些 条 款 。 简 而 言 之 ， 这 些 条 款 规定 GNU 软件 以 及 在 GNU 软 
件 的 基础 上 加 以 修改 而 成 的 软件 ， 和 在 发 布 《 或 转让 、 出 售 ) 时 必须 要 中 明 该 软件 出 日 GNU (或 者 源 白 
GNU)， 并 上 月 必须 要 保证 让 接收 者 能 够 共 学 源 代 码 ， 能 从 源 代 码 重 构 可 执行 代码 。 换 育 之 ， 如 果 -… 个 软 
件 是 在 GNU 源 代码 的 基础 上 加 以 修改 、 扩 充 而 来 的 , 那么 这 个 软件 的 源 代 码 就 也 必须 对 使 用 背 公 开 ( 注 
意 上 产品 的 出 售 与 源 代 和 码 的 公开 并 不 一 定 相 韦 盾 )。 通 过 这 样 的 途径 ， 自 由 软件 的 阵容 就 会 像 滚 雪 款 “ 样 
越 滚 越 大 。 不 过 ， 如 果 - 一 个 软件 只 是 通过 某 个 GNU 软件 的 用 户 界面 CAPD 使 用 该 软件 ， 则 不 受 GPL 
条 款 的 约束 或 限制 。 总 之 ，GPL 的 主要 日 标 是 : 使 白 由 软件 及 其 衍生 产品 继续 保持 开放 状态 ,从 整体 上 
促进 软件 的 共享 和 重复 使 用 。 有 只 体 到 Linux 的 内 核 米 说 ， 如 果 你 对 内 核 源 代码 的 某 些 部 分 作 了 修改 ， 
或 者 在 你 的 程序 中 引用 了 Linux 内 核 中 的 某 些 段 洛 ， 你 就 必须 加 以 申明 并 且 会 开 你 的 源 代 码 。 但 是 ， 
如 果 你 开发 了 一 个 用 户 程序 ， 只 是 通 过 系统 调用 的 性 人 击 使 用 内 核 ， 则 你 月 己 拥 有 完全 的 知识 产权 ， 不 
受 GPL 条 款 的 限制 。 

应 该 说 ，FSF 的 构思 是 很 巧妙 也 是 很 合理 的 ， 其 日 的 也 是 很 高 沿 的 。 

说 到 高 尚 ， 此 处 顺便 多 说 几 句 。 美 国 曾 经 出 过 两 本 很 有 些 影响 的 书 ， 一 本 Hy Undocumented DOS, 
B BU Undocumented Windows, FAAS 1535338 41 A. DOS/Windows 系统 程序 员 的 必 备 工具 书 。 在 这 两 本 
PH, Z] (Andrew Schulman, David Maxey 以 及 Matt Pietrek 等 ) 一 一 询 举 了 经 过 他 们 辛勤 努力 才 
破译 和 总 结 出 来 的 DOSAWindows API (应 几 程 序 设计 界面 ) 实际 上 提供 了 但 却 没 有 列 入 Microsoft 技术 
资料 的 许多 有 用 《出 且 重 此 )》 的 功能 。 作 者 们 认为 ，Microsoft 没有 将 这 些 功 能 收入 其 技术 资料 的 原因 
是 无 法 用 朴 忽 或 遗漏 加 以 解释 的 ， 山 只 能 是 故意 疝 用 户 隐 瞒 。Microsoft BERE Sel E RAIA, FRI 

是 一 个 应 用 程序 的 并 发 商 ， 通 过 向 其 他 的 应 用 程序 开发 商 隐 有 瞒 一 些 操 作 系统 界面 上 的 技术 关键 ， 就 
使 那些 开发 阅 无 法 与 Microsoft 公平 竞争 ， 从 而 使 Microsoft 可 以 通过 对 关键 技术 的 垄断 达到 对 DOS/ 
Windows 应 用 软件 市 场 的 花 断 。 作 者 们 储 书 中 指责 Microsoft 这 样 做 不 仅 有 道德 上 的 问题 ， 也 有 法 律 上 
的 问题 。 起 否 涉及 法 律 问 题 姑且 不 论 ， 书 中 所 州 的 功能 确实 都 是 存在 的 ， 吕 以 通过 实验 证 实 ， 也 确实 
sS 
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没有 号 入 Microsoft 向 客户 提供 的 技术 资料 。 

要 是 将 FSF 与 Microsoft 放 在 一 起 ， 则 二 者 恰好 成 为 鲜明 的 对 比 。 差 判 之 大 ， 读 者 不 难 做 出 自己 的 
结论 。 

GPL 的 正文 包含 在 一 个 时 COPYING 的 文件 中 。 人 在 通过 光 柑 安装 的 Linux 系统 中 ， 该 文件 的 路 径 
名 为 /usrscwlinux/COPYING。 而 在 下 载 的 Linux 内 核 tar 文件 中 ， 经 过 解压 后 该 文件 在 顶层 日 录 中 。 有 
兴趣 或 有 需 此 的 读者 可 以 〈 而 及 应 该 ) 仔 组 阅读 。 


1.2 Intel X86 CPU 系列 的 寻 址 方式 


Intel 可 以 说 是 资格 最 老 的 微 处 理 器 臣 片 制造 商 了 ， 沪 史上 的 第 个 微 处 理 器 芒 片 4004 就 是 Intel 
制造 的 。 所 谓 X86 系列 ， 是 指 Intel 从 16 位 徽 处 理 器 8086 开始 的 整个 CPU 世 片 系列 ， 系 列 中 的 每 种 
型 号 都 保持 与 以 前 的 各 种 型 号 兼容 ， 主 要 有 8086、8088、80186、80286、80386、80486 以 及 以 后 各 种 
型 号 的 Pentium 芯片 。 自 从 1BM 选择 8088 用 十 PC 个 人 计算 机 以 后 ，X86 系列 的 发 展 就 与 IBM PC & 
其 兼容 机 的 发 展 休 怀 相关 了 。 其 中 80186 并 不 广为人知 , BRS IBM 当初 决定 停止 在 PC 机 中 使 用 80186 
有 关 。 限 丁 篇 幅 ， 本 书 不 对 这 个 系列 的 系统 结构 作 全 面 的 介绍 ， 出 只 是 结合 Linux 内 核 的 存储 管理 对 
其 导 址 方式 作 - 些 简 要 的 说 明 。 

在 X86 系列 中 ，8086 和 8088 是 16 位 处 理 咒 ,而 从 80386 开始 为 32 位 处 理 器 ，80286 则 是 该 系 你 
从 8088 到 80386， 也 就 是 从 16 位 到 32 位 过 渡 叶 的 “个 中 间 步 野 。80286 嚼 然 仍 是 16 位 处 理 器 ， 介 是 
在 寻 址 方式 上 开始 了 从 “实地 址 模式 ”人 旬 “ 保 护 模式 ”的 过 流 。 

当 我 们 说 一 个 CPU 是 “16 位 ” 或 “32 位 ”时 ， 指 的 是 处 理 器 中 “算术 逻辑 单元 ”CALU) 的 宽度 。 
系统 总 线 中 的 数据 线 部 分 ， 称 为 “数据 总 线 ” 通常 与 ALU RAT RE CRA BIS). HbA “Aitik 
总 线 ” 的 宽度 呢 ?” 最 白 然 的 地 址 总 线 宽度 是 与 数据 总 线 一 致 。 这 是 因为 从 程序 设计 的 角度 来 说 ， 一 个 
地 址 ， 也 就 是 一 个 指针 ， 最 好 是 与 一 个 整数 的 长 度 一 致 。 但 是 ， 如 果 从 8 CPU 寻 址 能 力 的 角度 来 考 
虑 ， 则 这 实际 上 是 不 现实 的 ， 因 为 个 8 位 的 地 址 只 能 用 来 寻访 256 个 不 同 的 地 址 单元 ， 这 显然 太 小 
了 。 所 以 ， 一 般 8 位 CPU 的 地 址 总 线 都 是 16 位 的 。 这 也 造成 了 些 8 位 CPU 在 内 部 结构 上 的 一 些 不 
均匀 性 , 在 8 位 CPU 的 指令 系统 中 常常 会 发 现 一 些 实 际 上 是 16 位 的 操作 。 当 CPU 的 技术 从 8 位 发 展 
到 16 位 的 时 候 ， 水 来 地 址 总 线 的 宽度 是 可 以 跟 数 据 总 线 -多 了 ， 但 起 当时 人 人们 已 经 觉得 由 16 位 了 地址 
所 决定 的 地 址 空间 (64K) 还 是 太 小 ， AVIRA. DEB AM? 结合 当时 人 们 所 能 看 到 的 微型 机 的 应 
用 前 景 ， 以 及 存储 器 芯片 的 价格 ，Intel 决定 采用 1M， 也 就 是 说 64K 的 16 倍 ， 那 时 觉得 应 该 是 足够 了 。 
确实 ，1M 字 节 的 内 存 空间 在 当时 已 经 很 使 一 些 程序 员 激 动 不 已 了 ， 那 时 候 配 置 齐全 的 小 型 机 ， 甚 至 大 
型 机 也 只 不 过 是 4M 字 节 的 内 存 空间 。 在 计算 机 的 发 展 史 上 ， 几 乎 每 一 个 技术 决策 ， 往 往 很 快 就 被 事 
后 出 现 的 事实 证 明 是 估计 不 足 的 。 

既然 Intel 决定 了 在 其 16 位 CPU， 即 8086 中 采用 1M 字 节 的 内 存 地址 空间 ， 地 址 总 线 的 宽度 也 就 
相应 地 确定 了 ， 那 就 是 20 人 位。 这样， 个 问题 就 摆 在 了 Intel 的 设计 人 员 面 前 :虽然 地 址 总 线 的 宽度 
是 20 位, 但 CPU 中 ALU 的 宽度 却 只 有 16 位， 也 就 是 说 可 直接 加 以 运算 的 指针 的 长 度 是 16 位 的 。 如 
何 来 填补 这 个 空隙 呢 ? 可 能 的 解决 方案 当然 有 很 多 种 。 例 旭 ， 可 以 像 在 一 些 8 位 CPU 中 那样 ,增设 — 
些 20 位 的 指令 专用 寺 地 址 运算 和 操作 ， 但 是 那样 又 会 造成 CPU 内 部 结构 的 不 均匀 性 。 册 如， 当时 的 
PDP-11 小 型 机 也 是 16 位 的 ， 但 是 结合 其 MMU 内存 管 理 单 元 〉 可 以 将 16 位 的 地 址 映射 到 24 位 的 地 
址 空间 。 结 果 ，Intel 设计 了 一 种 在 当时 看 米 还 不 类 巧妙 的 方法 ， 即 分 段 的 方法 。 
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Intel Æ 8086 CPU 中 设置 了 四 个 “上 段 寄 存 器 ”CS、DS、SS 和 ES， 分 别 几 于 可 执行 代码 即 指令 、 
数据 、 堆 栈 和 其 他 。 得 个 段 寄存 器 都 是 16 位 的 ， 对 应 十 地 址 总 线路 的 高 16 位 。 每 条 “ 访 内 ”指令 中 
的 “内 部 地 址 ”都 起 16 位 的 ， 但 是 在 送 上 地 址 总 线 之 前 都 在 CPU 内 部 自动 地 与 基 个 段 寄 存 器 中 的 内 
容 相 加 ， 形 上 成 一 个 20 位 的 实际 上 地址。 这样， 就 实现 了 从 16 位 内 部 地 址 到 20 位 实际 地 址 的 转换 ， 或 者 
“上 映射 ”这 里 划 注 意 段 寄存 器 中 的 内 容 对 应 于 20 位 地 址 总 线 中 的 高 16 位 ， 所 以 在 相 加 时 实际 上 十 
内 部 地 址 中 的 高 12 WORE HY 16 位 相 加 ， 而 内 部 地 址 中 的 低 4 位 保留 不 变 。 这 个 方法 与 操作 
系统 理论 中 的 “ 段 式 内 存 管 理 ” 相 似 ， 但 并 不 完全 - 样 ， 主 要 丰 没 有 地 址 空间 的 保护 机 制 。 对 于 每 一 - 
个 山 段 寄存 器 的 内 容 确定 的 “基地 址 ”， 一 个 进 种 总 是 能 够 访问 从 此 开始 的 64K 字 节 的 连续 地 址 空间 ， 
而 无 法 加 以 限制 。 同 时 ， 可 以 用 米 改 变 段 寡 存 器 内 容 的 指令 也 不 是 什么 “特权 指令 ” 也 就 是 说 ， 通 过 
改变 段 寄 存 器 的 内 容 ，…' 个 进程 可 以 随心 所 欲 地 访问 内 存 中 的 任何 一 个 单元 ， 而 丝 侣 不 受到 限制 。 不 
能 对 一 个 进程 的 内 存 访 问 加 以 限制 , 也 就 谈 不 上 对 其 他 进程 以 及 系统 本 身 的 保护 。 与 此 相应 ， :个 CPU 
如 果 缺 乏 对 内 存 访问 的 限制 ， 或 者 说 保护 ， 就 谈 不 上 什么 内 存 管理 ， 也 就 谈 林 上 是 现代 意义 上 的 中 央 
处 理 器 。 由 十 8086 的 这 种 内 人 存 导 址 方式 缺乏 对 内 存 空间 的 保护 ， 所 以 为 了 区 别 十 后 来 出 现 的 “保护 模 
AU, 跌 称 为 “实地 址 模式 ”。 

显然 ， 在 实地 址 模式 上 是 无 法 建造 起 现代 意义 上 的 “操作 系统 ”的 。 

针对 8086 的 这 种 缺陷 , Intel 从 80286 开始 实现 其 “保护 模式 ”(Protected Mode, 但 是 早期 的 80286 
只 能 从 实地 址 模式 转 入 保护 模式 ， 却 不 能 从 保护 模式 转 回 实地 址 模式 )。 同时, 不 久 以 后 32 位 的 80386 
CPU 也 开发 成 功 了 。 人 这样， 从 8088/8086 到 80386 就 完成 了 一 次 从 比较 原始 的 16 位 CPU 到 现代 的 32 
位 CPU 的 飞跃 ， 而 80286 则 变 成 这 次 飞跃 的 一 个 中 间 步 又 。 从 80386 以 后 ，Intel 的 CPU 历经 80486、 
Pentium, Pentium I 宇 等 型 革 ， 鳃 然 在 速度 上 提高 了 好 几 个 量 级 ， 功 能 上 也 有 不 小 的 改进 ， 但 基本 上 属 
于 问 一 种 系统 结构 中 的 改进 与 加 强 ， 而 并 无 重大 的 质 的 改变 ， 所 以 统称 为 1386 结构 ， 或 i386 CPU. F 
面 我 们 将 以 80386 为 背景 ， 介 绍 1386 系列 的 保护 模式 。 

80386 是 个 32 位 CPU， 也 就 是 说 它 的 ALU 数据 总 线 是 32 位 的 。 我 们 在 前 面 说 过 ， 最 自然 的 地 址 
总 线 宽度 是 与 数据 总 线 一 性。 当地 址 总 线 的 宽度 达到 32 位 时 ， 其 寻 址 能 力 达到 了 4G(4 千 兆 )， 对 于 内 
存 来 说 似乎 是 是 够 了 。 所 以 ， 如 果 新 设计 一 个 32 位 CPU 的 话 ， 其 结构 应 该 是 可 以 做 到 很 简洁 、 很 自 
然 的 。 但 足 ，80386 却 无 法 做 到 这 -点 。 作 为 一 个 产品 系列 中 的 一 员 ，80386 必须 维持 那些 段 寄 存 器 ， 
还 必须 支持 实地 址 模式 ， 在 此 同时 又 要 能 文 持 保护 模具。 而 保护 模式 是 完全 另 搞 …… 套 ， 还 是 建立 在 段 
寄存 器 的 荐 侧 二 以 保持 风格 上 的 一 致 ， 放 有 卫 还 能 节约 CPU 的 内 部 资源 昵 ? 这 对 于 Intel 的 设计 人 员 无 
疑义 是 一 次 挑战 。 

Intel 选择 了 在 段 寄存 器 的 基础 上 构筑 保护 模式 的 构思 ， 并 且 保留 段 寄 存 器 为 16 位 (这样 才 可 以 利 
FUR ATAVUS Ec ai Fah), (AEE BS TAT ER APE SE FS AGS. A TERIER, HEH ABE 
器 来 确定 一 个 基地 址 是 不 够 的 ， 全 少 还 得 要 有 :个 地 址 段 的 长 度 ， 放 且 还 需要 -- 些 其 他 的 信息 ， 如 访 
问 权 限 之 类 。 所 以 ， 这 申 需 此 的 是 一 个 数据 结构 ， 而 并 非 ， 个 单纯 的 基地 进 。 对 此 ，lntel 设计 人 员 的 
基本 思路 是 ， 和 信保 护 模式 下 改变 段 寄存 器 的 功能 ， 使 其 从 个 单纯 的 基地 址 (变相 的 基地 址 〉 变 成 指 
向 这 样 个 数据 结构 的 指针 。 这 样 ， 当 一 条 访 内 存 指令 发 出 “个 内 存 地 址 时 ，CPU 就 可 以 这 样 来 归纳 
出 实际 上 应 该 放 上 数据 总 线 的 地 址 : 

(1) 根据 指令 的 性 质 来 确定 应 该 使 用 哪 一 个 段 寄存 器 ， 例 如 转移 指令 中 的 地 址 在 代码 段 ， 而 取 数 

指令 中 的 地 址 在 数据 段 。 这 一 点 与 实地 址 模式 相同 。 

(2) 根据 段 寄 存 器 的 内 容 ， 找 到 相应 的 “地 址 段 描述 结构 ”。 

(3) 从 地 址 段 描述 结构 中 得 到 基地 址 。 
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(4) 将 指令 中 发 出 的 地 址 作为 位 移 ， 与 段 描述 结构 中 规定 的 段 长 度 相 比 ， 看 看 是 否 越 界 。 

(5) 根据 指令 的 性 质 和 段 描 述 符 中 的 访问 权限 来 确定 是 含 越权 。 

(6) 将 指令 中 发 出 的 地 址 作为 位 移 ， 与 基地 相 加 而 得 出 实际 的 “ 物 埋 地 址 ” 

虽然 段 描述 结构 存储 在 内 存 中 ,在 实际 使 用 时 却 将 其 装载 入 CPU 中 的 一 组 “影子 ”结构 ， 而 CPU 
在 运行 时 则 使 用 其 在 CPU 中 的 “影子 ”从 “保护 ”的 角度 考虑 ， 在 由 (指令 给 出 的 内 部 地 址 (或 
者 说 “逻辑 地 址 ”) 转换 成 物理 地 址 的 过 程 中 ， 必 须要 在 某 个 环节 上 对 访问 权限 进行 比 对 ， 以 防止 不 具 
备 特 权 的 用 户 程序 通过 玩弄 某 些 诡 计 《 例 如 修改 段 寄 存 器 的 内 容 ， 修 改 段 描述 结构 的 内 容 等 )， 得 以 非 
法 访问 其 他 进程 的 空间 或 系统 空间 。 

明白 了 这 个 思路 ，80386 的 段 式 内 存 管理 机 制 就 比较 地 容易 理解 了 (还 是 很 复杂 )。 下 和 面 就 是 此 机 
制 的 实际 实现 。 

首先 ,在 80386 CPU 中 增设 了 两 个 寄存 器 :一 个 是 全 局 性 的 段 描述 表 寄 存 器 GDTR global descriptor 
table register)， 另 一 个 是 局 部 性 的 段 描述 表 寡 存 器 LDTR(ocal descriptor table register)， 分 别 可 以 用 来 
指向 存储 在 内 存 中 的 一 个 段 描述 结构 数组 ， 或 者 称 为 段 描述 表 。 由 于 这 两 个 寄存 器 是 新 增设 的 ， 不 存 
在 与 原 有 的 指令 是 否 兼 容 的 问题 ， 访 问 这 两 个 寄存 器 的 专用 指令 便 设 计 成 “特权 指令 ”。 

在 此 基础 上 ， 段 寄存 器 的 入 13 Bp CK 3 位 男 作 他 咱 》 用 作 访 问 段 描述 表 中 具体 描述 结构 的 下 标 
(index)， 如 图 1.1 ron. 


表示 特权 级 别 ， 
00= 最 高 级 ，11= 最 低级 






TI=0 时 使 用 GDTR 
= 1 时 使 用 LDTR 


从 8192 个 全 局 或 局 部 描述 
表 项 中 选择 一 个 描述 符 


图 1.1 上 段 寄存 器 定义 


GDTR 或 LDTR 中 的 段 描 述 表 指针 和 和 上段 寄存 器 中 给 出 的 下 标 结合 在 一 起 ， 才 决定 了 有 具体 的 段 描述 
表 项 在 内 存 中 的 什么 地 方 ， 也 可 以 理解 成 ， 将 段 寄存 器 内 容 的 低 3 位 屏蔽 掉 以 后 与 GDTR 或 LDTR 中 
的 茜 地 址 相 加 得 到 描述 表 项 的 起 始 地 址 。 因 此 就 无 法 通过 修改 描述 表 项 的 内 容 米 玩弄 诡计 ， 从 而 起 到 
保护 的 作用 。 每 个 段 描 述 表 项 的 大 小 是 8 个 字 节 ， 每 个 描述 表 项 含有 有 段 的 基地 址 和 有 段 的 大 小 ， 再 加 上 
其 他 一 些 信息 ， 其 结构 如 图 1.2 所 示 。 

结构 中 的 B31~-B24 和 B23—B16 分 别 为 基地 址 的 bitl6~bit23 和 bit24~-bit31。 而 L19—L16 和 
L15~-L0 则 为 段 长 度 (imib 的 bit0— bit15 和 bit16~bit19。 其 中 DPE 是 个 2 位 的 位 段 ， 而 type 是 一 个 4 
位 的 位 段 。 它 们 所 在 的 整个 字 节 分 解 如 图 1.3 Pa 
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B31—B24 L19—L16 





B15—B0 


l Li5—L0 


图 1.2 8 字 节 段 描述 表 项 的 定义 





| TYPE | 


A=0 本 段 未 被 访问 ; -1 已 被 访问 


E=0， 数 据 段 
ED=0， 向 上 伸展 《数据 段 》 
ED=1， 向 下 伸展 《堆栈 段 ) 
W=0， 不 能 被 写 入 

zl], WHA 


， 代 码 段 
C daran 
C=1， 遵 循 特 权 级 
=0， 不 可 读 
R=1， 可 读 


S=0， 系 统 描述 项 
S=1， 代 码 或 数据 段 描述 项 


DPL-00—01. ABUSE 


P-0. HATE X 
P=1， 段 包含 有 效 基 地 址 和 界限 





1.3 RARR TYPE 字 节 的 定义 


我 们 也 可 以 用 一 段 “ 伪 代 公 ”来 说 明 整 个 段 描 述 结构 : 
typedef struct { 
unsigned int base24 31 : 8; /* 基地 址 的 最 高 8 位 #/ 


unsigned int g: 1; /* granularity, RAAK AA, OGAEACE T. 14k 4KB */ 
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unsigned int db: l; /* defalut operation size 存 取 方 式 0=16 位 ，1=32 位 */ 


unsigned int unused : 1; /* 固定 设置 成 0 */ 
unsigned int avl : 1; /* avalable， 可 供 系 统 软件 使 用 */ 
unsigned int seg limit 16 19 : 4; /* 段 长 度 的 最 高 4 位 */ 
unsigned int p: l; /* segment present, Jg 0 时 表示 该 段 的 内 容 不 在 内 存 中 */ 
unsigned int dpl : 2; /* Descriptor privilege level, WHARA RAR */ 
unsigned int s : 1; /* 描述 项 类 型 ”1 表示 系统 ，0 表示 代码 或 数据 */ 
unsigned int type : 4; /* BESSER, |G KEK Spes EA */ 
unsigned int base 0 23 : 24; /* 基地 址 的 低 24 位 */ 
unsigned int seg limit 0 15 : 16 /* 自发 度 的 低 16 位 */ 

) 段 描述 项 ; 


以 这 里 的 位 段 type 为 例 ,“: 4” 表 示 其 宽度 为 4 位。 整个 数据 结构 的 大 小 为 64 位 ， 即 8 AFT. 

读者 一 定 会 问 : 为 什么 把 段 描 述 项 定义 成 这 样 一 种 奇怪 的 结构 ? 例如 ， 为 什么 基地 址 的 高 8 位 和 
低 24 位 不 连 在 -- 起 ? 最 自然 也 最 合理 的 解释 就 是 ， 开 始 时 Intel 的 意图 是 24 位 地 址 空间 ， 后 来 又 改 成 
32 位 地 址 室 间 。 这 也 可 以 从 段 长 度 字段 也 是 拆 成 两 节 得 到 印证 : 当 g 标志 位 为 1 时 ,长 度 的 单位 为 4KB， 
而 段 长 度 字 段 的 低 16 位 的 容量 是 64K， 所 以 一 个 段 的 最 大 可 能 长 度 为 64 多 X4K=256M， 而 这 正 是 24 
位 地 址 字 间 的 大 小 。 所 以 ， 可 以 看 出 ，Intel 起 先 意欲 使 用 24 位 地 址 空间 ， 不 和 久 又 认识 到 应 该 用 32 位 ， 
但 是 80286 已经 发 售 出 去 了 ， 于 是 就 只 好 修 修补 补 。 当 时 的 Intel 确实 给 人 一 种 “小 脚 女 人 走路 ”的 感 
JAL o 

每 当 一 个 段 寄 存 器 的 内 容 改 变 时 (通过 MOV、POP 等 指令 或 发 生 中 断 等 事件 )，CPU 就 把 出 这 段 
寄存 器 的 新 内 容 所 决定 的 段 描 述 项 装 入 CPU 内 部 的 一 个 “影子 ”描述 项 。 这样，CPU 中 有 几 个 段 寄存 
器 就 有 几 个 影子 描述 项 ， 所 以 也 可 以 看 作 是 对 段 寄存 器 的 扩充 。 扩 充 后 的 段 寄 存 器 分 成 两 部 分 ， 一 部 
分 是 可 见 的 《对 程序 而 言 )， 还 与 原先 的 段 寄存 器 一 样 ， 另 -部 分 是 不 可 见 的 ， 就 是 用 来 存放 影子 描述 
项 的 空间 ， 这 一 部 分 是 专 供 CPU 内 部 使 用 的 。 

在 80386 的 段 式 内 存 管理 的 基础 上 ， 如 果 把 每 个 段 寄 存 器 都 指向 同一 个 描述 项 ， 而 在 该 描述 项 中 
则 将 基地 址 设 成 0， 并 将 段 长 度 设 成 最 大 ， 这 样 便 形 成 一 个 从 0 开始 覆盖 整个 32 位 地 址 空间 的 -个 整 
段 。 由 于 基地 址 为 0， 此 时 的 物理 地 址 与 逻辑 地 址 相同 ，CPU 放 人 到 地 址 总 线 上 去 的 地 址 就 是 在 指令 中 
给 出 的 地 址 。 这样 的 地 址 有 曾 于 由 “ 段 寄 存 器 / 位 移 量 ”构成 的 “层次 式 ” 地 三， 所 以 Intel 称 其 为 “ 平 
面 (Flat》 地 址 。Linux 内 核 的 源 代码 (更 确切 地 应 该 说 是 gcc) 采用 平面 地 址 。 这 里 甘 指 出 ， 平 面 地 
址 的 使 用 并 不 意味 着 绕 过 了 段 描述 表 、 段 寄存 器 这 -整套 段 式 内 存 管 理 的 机 制 ， 而 只 是 段 式 内 存 管理 
的 一 种 使 用 特例 。 

关于 80386 的 段 式 内 存 管 理 就 先 介 绍 这 些 ， 以 后 随 着 代码 分 析 的 进展 视 需 要 再 加 以 补充 。 读 者 想 
要 了 解 完整 的 细节 可 以 参阅 Intel 的 有 关 技 术 资 料 。 

利用 80386 对 段 式 内 存 管理 的 硬件 支持 ， 可 以 实现 段 式 虚 存 管 理 。 如 前 所 述 ， 当 一 个 段 寄存 器 的 
内 容 改 变 时 ，CPU 要 根据 新 的 段 寄存 器 内 容 以 及 GDTR È LDTR 的 内 容 找 到 相应 的 段 描述 项 并 将 其 装 
入 CPU 中 。 在 此 过 程 中 ，CPU 会 检查 该 描述 项 中 的 p 标志 位 (表示 “present*)， 如 果 p 慰 志 位 为 0， 
就 表示 该 描述 项 所 指向 的 那 “: 段 内 容 不 在 内 存 中 《也 就 是 说 ， 在 磁盘 上 的 某 个 地 方 )， 此 时 CPU 会 产 
后 一 次 异常 《exception， 类 似 于 中 断 )， 星 相应 的 服务 程序 便 可 以 从 磁 贷 交换 区 将 这 段 的 内 容 读 入 内 
存 中 的 某 个 地 方 ， 并 据 此 设置 描述 项 中 的 基地 址 ， 再 将 p 标志 位 设置 成 ]。 相 应 地 ， 内 人 存 中 暂时 不 用 的 


.10. 
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存储 段 则 可 以 写 入 磁盘 ， 并 将 其 描述 项 中 p 标志 位 改 成 0。 

对 段 式 内 存 管 理 的 支持 只 是 1386 保护 模式 的 “个 组 成 部 分 .如果 没 有 系统 状态 和 用 户 状态 的 分 离 ， 
以 及 特权 指令 (内 允许 人 在 系统 状态 下 使 用 ) 的 没 立 ， 那么 尺 管 有 了 前 述 的 段 式 内 存 管理 ;也 还 不 能 起 到 保 
护 的 效果 。 前 面 已 经 提 到 过 特权 指令 的 设置 ， 如 用 来 装 入 和 存储 GDTR 和 LDTR 的 指令 LGDT/LLDT 
fll SGDT/SLDT 等 就 都 是 特权 指令 。 正 是 由 寺 这 些 指令 者 只 能 在 系统 状态 (也 就 是 在 操作 系统 的 内 核 中 ) 
使 用 ， 才 使 得 用 广 程序 个 但 个 能 改变 GDTR 和 LDTR 的 内 容 ， 还 因为 既 无 法 确 知 其 段 撕 述 表 仁 内 存 中 
的 位 置 ， 勾 光 法 访问 其 段 描述 表 所 在 的 空间 《只 能 在 系统 状态 下 才能 访问 )， 从 而 无 法 通过 修改 段 描述 
项 来 打破 系统 的 保护 机 制 。 那 么 ，80386 怎么 米 分 隔 系统 状态 和 用 户 状态 ， 并 且 提 供 在 两 种 状态 之 间 切 
换 的 机 制 呢 ? 

80386 并 不 只 是 像 一 般 CPU 通常 所 做 的 那样 ， 划 分 出 系统 状态 和 用 户 状 态 ， 而 是 划分 成 四 个 特权 
级 别 ， 其 中 0 级 为 最 高 ，3 级 为 最 低 。 每 :条 指令 也 都 有 其 适用 级 别 ， 如 前 述 的 LGDT， 就 只 有 在 0 
级 的 状态 下 才能 使 用 ， 而 “ 般 的 输入 / 输出 指令 CIN, OUT) 则 规定 为 0 级 或 1 级。 通常 ， 用 户 的 应 
州 程序 者 是 3 级 。 般 程 序 的 尖 前 运行 级 别 由 其 代 色 段 的 局 部 描述 项 〈 即 由 段 寄存 器 CS 所 指向 的 局 部 
段 描 述 项 ) 中 的 dpl ERRE (dpl 表示 “descriptor privilege level)。 当 然 ， 每 个 描述 项 中 的 dpl 字段 都 
是 在 0 级 状态 下 由 内 核 设 定 的 。 而 全 局 段 描述 的 dp 字段 ， 则 又 有 所 不 同 ， 它 是 表示 所 需 的 级 别 。 

前 面 讲 过 ，16 位 的 段 寄存 器 中 的 高 13 位 用 作 下 标 米 访问 段 描述 表 , 而 低 3 位 是 干什么 的 呢 ? 我 们 
还 是 通过 一 段 伪 代 码 来 说 明 : 


typedef struct 1 
unsigned ^ short seg idx : 13; /* 13 位 的 段 描述 项 下 标 */ 
unsigned ^ short ti : 1; /* 段 描述 家 指示 位 ，0 表 GDI, 1 表示 LDT */ 
unsignedshort rpl : 2; /* Requested Privilege Level ， 柴 求 的 优先 级 别 */ 
| 段 寄 存 器 ; 


当 段 寄存 器 CS 中 的 在 位 为 1 时， 不 示 费 使 用 全 局 段 描述 表 ， 为 0 时 ， 则 表示 要 使 用 局 部 段 描 述 
表 而 rpl 则 表示 所 要 求 的 权限 。 当 改变 个 段 寄存 器 的 内 容 时 ，CPU 会 加 以 检查 ， 以 确保 该 段 程序 的 
当前 执行 权限 和 上 段 寄 存 器 所 指定 要 求 的 权限 均 不 低 十 所 站 访问 的 那 一 段 内 存 的 权限 dpl。 

全 于 怎样 在 不 同 的 执行 权限 之 间 切 换 ， 我 们 将 在 进程 调度 、 系 统 调用 和 中 断 处 理 的 有 关 章 节 中 讨 
论 。 此 外 ， 除 了 全 局 段 描述 表 指 针 GDTR 和 局 部 段 描 述 表 指针 LOTR 两 个 寄存 器 外 ， 其 实 1386 CPU 
中 还 有 个 中 断 向 量 表 指 针 寄 存 器 IDTR 、 与 进程 《在 Intel 术语 中 称 为 “任务 ” Task) 有 关 的 寄存 器 TR 
以 太 描 述 任务 状态 的 “任务 状态 段 ”TSS 等 ， 这 些 都 将 在 其 他 章节 中 有 需要 时 再 加 以 介绍 。Intel 在 实 
Jl 3386 的 保护 模式 时 将 CPU 的 执行 状态 分 成 四 级 , 意图 是 为 满 是 更 为 复杂 的 操作 系统 和 运行 环境 的 需 
要 。 有 些 操作 系统 ， 如 OS/2 中 ， 也 确实 用 了 。 但 是 很 多 人 都 怀疑 是 否 真 有 必要 搞 得 那么 复杂 ,事实 上 ， 
几乎 所 有 广泛 使 用 的 CPU 都 没有 这 么 复杂 。 而 且 ， 在 80386 上 :实现 的 各 种 Unix 版 本 ， 包 括 Linux, #6 
只 用 了 两 个 级 别 ， 即 0 级 和 3 级， 作为 系统 状态 和 用 广 状 态 。 本 书 在 以 后 的 讨论 中 将 沿用 Unix 的 传统 
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学 过 操作 系统 原理 的 读者 都 知道 ， 内 存 管理 有 两 种 ，- -种 是 段 式 管理 ， 田 一 种 是 页 式 管理 ， 而 页 
式 管理 更 为 先进 。 从 80 年 代 中 期 开始 ， 页 式 内 存 管理 进入 了 各 种 操作 系统 以 Unix AE) 的 内 核 ， 
一 时 成 为 操作 系统 领域 的 一 个 热点 。 

Intel 从 80286 开始 实现 其 “保护 模式 ” 也 即 段 式 内 存 管理 。 但 是 很 快 就 发 现 ， 光 有 段 式 内 存 管理 
而 没有 页 式 内 存 管理 是 不 够 的 , 那样 会 使 它 的 X86 系列 逐渐 大 去 竞争 力 以 及 作为 主流 CPU 产品 的 地 位 。 
因此 ， 在 不 久 以 后 的 80386 中 就 实现 了 对 页 式 内 存 管理 的 支持 。 也 就 是 说 ，80386 除了 完成 并 完善 从 
80286 开始 的 段 式 内 存 管理 的 同时 还 实现 了 页 式 内 存 管理 。 

前 面 讲 过 ，80386 的 段 式 内 存 管理 机 制 ， 是 将 指令 中 结合 段 寄存 器 使 用 的 32 位 逻辑 地 址 映射 〈 转 
换 ) 成 同样 是 32 位 的 物理 地 址 。 之 所 以 称 为 “物理 地 址 ?>， 是 因为 这 是 真正 放 到 地 址 总 线 上 去 ， 并 用 
以 寻访 物理 上 存在 着 的 具体 内 存单 元 的 地 址 。 但 是 ， 段 式 存储 管理 机 制 的 灵活 性 和 效率 都 比较 差 。 一 
方面 “ 段 ” 是 可 变 长 度 的， 这 就 给 盘 区 交换 操作 带 来 了 不 便 : 另 一 方面 ， 如 果 为 了 增加 灵活 性 而 将 一 
个 进程 的 空间 划分 成 很 多 小 段 时 ， 就 势必 要 求 在 程序 中 频繁 地 改变 段 寄 存 器 的 内 容 。 同 时 ， 如 果 将 段 
分 小 ， 虽 然 一 个 段 描述 表 中 可 以 容纳 8192 个 描述 项 (因为 有 13 位 下 标 )， 也 未 必 就 能 保证 足够 使 用 。 
所 以 ， 比 较 好 的 办 法 还 是 采用 页 式 存 储 管 理 。 本 来 ， 页 式 存 储 管理 并 不 需要 建立 在 段 式 存储 管理 的 基 
础 之 Kk， 这 是 两 种 不 同 的 机 制 。 可 起 ， 在 80386 中 ， 保 护 模式 的 实现 是 与 段 式 存储 密 不 可 分 的 。 例 如 ， 
CPU 的 当前 执行 权限 就 是 在 有 关 的 代码 段 描述 项 中 规定 的 。 谈 过 Unix 早期 版 本 的 读者 不 妨 将 此 与 
PDP-11 中 的 情况 作 一 对 比 。 在 PDP-11 中 CPU 的 当前 执行 权限 存放 在 一 个 独立 的 寄存 内 PSW 中 ， 而 
与 任何 其 他 的 数据 结构 没有 关系 。 因 此 ， 在 80386 中 ， 既 然 决 定 利 用 部 分 已 经 存在 的 资源 ， 而 不 是 完 
全 另 起 炉 姓 ， 那 就 无 法 绕 过 段 式 在 管 来 实现 页 式 存 管 。 也 就 是 说 ，80386 的 系统 结构 决定 了 它 的 页 式 存 
管 只 能 建立 在 段 式 存 管 的 基础 上 。 这 也 意味 着 ， 页 式 存 管 的 作用 是 在 由 段 式 存 管 所 映射 而 成 的 地 址 上 
再 加 上 一 层 地 址 映射 。 由 于 此 时 由 段 式 存 管 映射 而 成 的 地 址 不 再 是 “物理 地 址 ”了 ，Intel 就 称 之 为 “ 线 
性 地 三 ”。 于 是 ， 段 式 存 管 先 将 逻辑 地 址 映射 成 线性 地 址 ， 然 后 再 由 页 式 存 管 将 线性 地 址 映射 成 物理 地 
bh; 或 者 ， 当 不 使 用 页 式 存 管 时 ， 就 将 线性 地 址 直接 用 作物 理 地址。 

80386 把 线性 地 址 空间 划分 成 4K 字 节 的 页 面 ,每 个 页 面 可 以 被 映射 至 物理 存储 空间 中 任意 CER AK 
字 节 大 小 的 区 间 〈 边 界 必 须 与 AK 字 节 对 齐 )。 在 段 式 存 管 中 ， 连 续 的 邮 辑 地 址 经 过 映射 后 在 线性 地 址 
空间 还 是 连续 的 。 但 是 在 页 式 存 管 中 ， 连 续 的 线性 地 址 经 过 映射 后 在 物理 空间 却 椒 一 定 连续 〈 其 灵活 
性 也 正在 于 此 )。 这 里 值得 指出 的 是 ， 虽 然 页 式 存 管 是 建立 在 段 式 存 管 的 基础 上 上 ， 但 一 旦 启用 了 页 式 在 
答 ， 所 有 的 线性 地 址 都 归 经 过 页 式 台 射 ， 连 GDTR 与 LDTR 中 给 出 的 段 描述 表 起 始 地 址 也 不 例外 。 

由 于 页 虑 存 管 的 引入 ， 对 32 位 的 线性 地 址 有 了 新 的 解释 (以 前 就 是 物理 地 址 ); 


typeded struct { 
unsigned int — dir:10; /* 用 作 页 面 表 上 日 录 中 的 卜 标 ， 该 目录 项 指向 一 个 页 面 表 */ 
unsigned int page:10; /* 用 作 具 体 页 面 表 中 的 下 标 ， 该 表 项 指向 一 个 物理 页 而 */ 
unsigned int offset:12; /* 在 4K 字 节 物 理 页 而 内 的 偏 移 量 */ 

} 线性 地 址 ; 
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这 个 结构 可 以 用 图 1.4 形象 地 表示 。 


31 22 21 12 11 0 





1.4 线性 地 址 的 格式 


可 以 看 出 ,在 页 面目 求 中 共有 2/* = 1024 个 目录 项 ,每 个 日 录 项 指向 一 个 页 面 表 , 而 在 每 个 负面 表 
中 又 共有 1024 个 页 面 描述 项 。 类 似 于 GDTR 和 LDTR， 又 增加 了 一 个 新 的 寄存 器 CR3 作为 指向 当前 
页 而 日 录 的 指针 。 这 样 ， 从 线性 地 址 到 物理 地 址 的 映射 过 程 为 : 

G) 从 CR3 取得 页 面 月 录 的 基地 址 。 

(2) 以 线性 地 址 中 的 dir 位 段 为 下 标 ， 在 目录 中 取得 相应 页 而 表 的 基地 址 。 

(3) 以 线性 地 址 中 的 page 位 段 为 下 标 ， 在 所 得 到 的 页 面 表 中 取得 相应 的 页 面 描述 项 。 

(4) 将 页 面 撒 述 项 中 给 出 的 页 面 基地 址 与 线性 地 址 中 的 offset 位 段 相 加 得 到 物理 地 址 。 

(5) 上 人 多 映 射 过 程 可 用 网 1.5 和 直观 地 表示 。 


内 存 页 而 





1.5 页 式 映射 示意 图 


那么 ,为 什么 横 使 用 山 个 层次 ， 先 找到 日 录 项 ， 再 找到 页 | 机 描述 项 ， 而 个 是 像 让 使 用 段 寄 存 器 时 那 


位 ， 因 此 页 面 表 的 大 小 就 将 是 1KX1K=1M ARH. HIF ES UII ANZ AK 字 节 ， 总 的 空间 大 小 仍 
A AKXIM=4G, FERPA 32 位 地 址 室 间 的 大小。 但是， 实际 上 很 难 想像 有 一 个 进程 会 需要 用 到 4G 的 
全 部 空间 ， 所 以 大 部 分 表 项 势必 是 空 着 的 。 可是， 在 一 个 数组 中 ， 即 使 是 空 痊 不 用 的 表 项 也 占用 空间 ， 
这 样 就 造成 了 浪费 。 而 各 分 成 两 层 ， 则 页 表 可 以 视 需 要 而 设置 ， 如 果 日 录 中 某 项 为 空 ， 就 个 必 设 立 相 
应 的 页 表 ， 从 而 省 下 了 存储 空间 。 当 然 , 在 最 坏 的 情况 下， 如 果 一 个 进程 摧 的 要 几 到 全 部 4G IP 
间 ， 那 就 不 仪 不 能 节省 ， 反 而 此 多 消耗 - 个 日 录 擅 占用 的 空间 ， 但 那 概 浴 基本 | 是 0。 另 外 ， 一 个 页 面 
的 大 小 是 AK 字 节 ， 而 每 一 个 页 面 表 项 或 日 录 表 项 的 大 小 是 4 个 字 节 。1024 个 表 项 正好 也 是 AK FW, 
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恰好 可 以 放 在 一 个 页 面 中 。 而 若 多 于 1024 项 就 要 使 日 录 或 页 而 表 跨 页 面 存放 了 。 也 正 为 此 ,在 64 位 
的 Alpha CPU 中 页 面 的 大 小 是 8K 字 节 ， 因 为 目录 表 项 和 页 面 表 项 的 大 小 都 变 成 了 8 个 字 节 。 

如 前 所 述 ， 目 薄 项 中 含有 指向 个 负面 表 的 指针 ， 而 页 徊 家 项 中 则 含有 指向 个 页 面 起 始 地 址 的 
指针 。 由 于 页 面 表 和 和 页面 的 起 始 地 址 都 总 是 在 AK 字 节 的 边界 上 ， 这 些 指针 的 低 12 位 都 永远 是 0。 这 
样 ， 在 目录 项 和 页 表 项 中 部 只 要 有 有 20 位 用 十 指针 就 够 了 ， 市 余下 的 12 位 则 可 以 用 于 控制 或 其 他 的 目 
Mo Pe, ARMADA: 


typedef struct { 
unsigned int ptba : 20; /* 页 表 基 地 址 的 高 20 位 */ 
unsigned int avail : 3; /* 供 系 统 程序 员 使 用 */ 


unsigned int g: l; /* global, ZAER E */ 
unsigned int ps: l; /* Wi A. 0X 4k T */ 
unsigned int reserved : 1; /* (RPA, 永远 是 0 */ 
unsigned int a: l; /* accessed， 已 被 访问 过 */ 


1 / 关闭 《不 使 用 〉 缓冲 存储 器 */ 
unsigned int pwt : 1 /* Write'`Through， 用 于 缓冲 存储 器 */ 
unsigned int us: l; 人 为 0 时 表示 系统 (或 超级 ) 权限 ， 为 1 时 表示 用 户 权限 */ 
unsigned int rw: l /* 内 读 或 可 写 */ 
unsigned int p: l; /* 为 0 时 表示 相应 的 页 面 不 在 内 存 中 */ 
} 目录 项 ; 


unsigned int pcd : 


E LR EDUC I E 1.6 表示 。 
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图 1.6 页 目录 项 示意 图 


页 表 项 的 结构 基本 上 与 此 相同 ， 但 没有 “页 面 大 小 ”位 ps， 所 以 第 8 位 保留 不 用 ,但 第 7 位 (在 
日 录 项 中 保留 不 用 ) 则 为 D (Dirty〉 标 志 ， 表 示 该 页 面 山 经 被 写 过 ， 所 以 山 经 “ 脏 ” 了 。 当 页 面 表 项 
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或 里 录 项 中 的 最 低位 p 为 0 时， 表示 相应 的 页 面 或 页 面 表 不 在 内 存 ， 根 据 其 他 一 些 有 关 寄 存 器 的 设置 ， 
CPU 可 以 产生 一 个 “页 面 错 ”(Page Fault) 异常 《也 称 为 缺 页 中 断 ， 但 异常 和 中 断 其实 是 有 区 别 的 )。 
这 样 ， 内 核 中 的 有 关 蜡 常服 务 程 序 就 可 以 从 伐 益 上 的 页 面 交 换 区 将 相应 的 页 面 读 入 内 存 ， 并 且 相应 地 
设置 表 项 中 的 基地 址 ， 并 将 p 位 设置 成 1。 相 反 ， 也 可 以 将 内 存 中 暂 不 使 用 的 页 面 写 入 磁盘 的 交换 区 ， 
然后 将 相应 页 面 表 项 的 p 位 设置 为 0。 这 样 ， 就 可 以 实现 页 式 虚 存 了 。 当 p 位 为 0 时 ， 表 项 的 其 余 各 位 
均 无 意义 ， 所 以 可 被 用 来 临时 存储 其 他 信息 ， 如 被 换 出 的 页 面 在 位 抢 上 的 位 置 等 等 。 

当 目录 项 中 的 ps (page size) 位 为 0 时， 包含 在 由 该 目录 项 所 指 的 页 面 表 中 所 有 抽 面 的 大 小 都 是 
4K 字 节 ， 这 也 是 目前 在 Linux 内 核 中 所 采用 的 页 面 大 小 。 但 是 ， 从 Pentium 处 理 器 开始 ，Intel 引入 了 
PSE 页 面 大 小 扩充 机 制 。 当 ps 位 为 1 时 ， 页 面 的 大 小 就 成 了 4M 字 节 ， 而 页 面 表 就 不 再 使 用 了 。 这 时 
候 ， 线 性 地 址 中 的 低 22 位 就 全 部 用 作 在 AM 字 节 页 面 中 的 位 移 。 这 样 ， 总 的 寻 址 能 力 还 是 没有 改变 ， 
即 1024Xx4M=4G， 但 是 映射 的 过 程 减少 了 一 个 层次 。 随 着 内 存 容量 种 磁盘 容量 的 日 益 增加 ， 磁 盘 访问 
速度 的 显著 提高 ， 以 及 对 图 像 处 理 要 求 的 日 益 增 加 ，4M 字 节 的 页 面 大 小 有 可 能 会 成 为 主流 。 在 这 CU 
E, Intel 倒 还 是 有 远见 的 。 

最 后 ，i386 CPU 中 还 有 个 寄存 器 CR0， 其 最 高 位 PG 是 页 式 映射 机 制 的 总 开关 。 当 PG 位 被 设置 
成 1 时 ，CPU 就 开启 了 页 式 存 储 管理 的 映射 机 制 。 

从 Pentium Pro 开始 ，Intel 又 作 了 扩充 。 这 一 次 扩充 的 是 物理 地 址 的 宽度 。Intel 在 另 一 个 控制 寄存 
器 CR4 中 又 增加 了 一 位 PAE (表示 Physical Address Extension)， 当 PAE 位 设置 成 上 时 ,地 址 总 线 的 宽 
度 就 变 成 了 36 位 (又 增加 了 4 位 )。 与 此 相应 ， 页 式 存储 管理 的 映射 机 制 也 自然 地 有 所 改变 。 不 过 大 
多 数 用 户 都 还 不 需要 使 用 36 位 (64G) 物 理 地 址 空间 ， 所 以 这 里 从 略 ， 有 兴趣 的 读者 可 以 参阅 Intel 的 有 
关 技 术 资 料 或 专著 。 此 外 ，Intel 已 经 推出 了 64 位 的 IA-64 系统 结构 ，Linux 内 核 也 已 经 支持 IA-64 R 
统 结构 。 事 实 上 ，Linux 原来 就 已 经 在 Alpha CPU 上 支持 64 位 地 址 。 除 存储 管理 外 ，80386 还 有 很 强 
的 高 速 缓冲 存储 和 流水 线 功 能 。 但 是 对 于 软件 、 对 于 操作 系统 的 内 核 来 说 ， 那 竺 很 大 程 虚 上 是 透明 的 ， 
所 以 本 书 将 仅 在 有 必要 时 才 加 以 简单 的 说 明 ， 而 不 在 此 详 述 了 。 
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Linux 内 核 的 主体 是 以 GNU 的 C iE rA S I, GNU 为 此 提供 了 编译 工具 geco GNU Xf C 语言 本 
号 (在 ANSIC 基础 上 ) 作 了 不 少 扩 充 ， 可 能 是 读者 尚未 抑 到 过 的 。 另 方面 ， 由 十 是 内 核 代 码 ， 往 往 
会 用 到 -- 些 在 应 用 程序 设计 中 不 常见 的 语言 成 分 或 编程 技巧 ， 也 许 使 读者 感到 陌生 。 本 书 并 非 介 绍 
GNUC 语言 的 专著 ， 也 非 技 术 手册 ， 所 以 不 在 这 里 一 一 列举 和 详细 讨论 这 些 扩充 和 技巧 。 再 说 ， 离 开 
具体 的 情景 和 和 上下文， 罗列 一 大 堆 规 则 ， 对 于 读者 恐怕 也 没有 多 大 帮助 。 所 以 ， 我 们 在 这 里 只 对 可 能 
会 影响 读者 阅读 Linux 内 核 源 程 序 ， 或 使 读者 感到 困惑 的 一 些 扩 双 和 技巧 先 作 一 些 简 单 的 介绍 。 以 后 ， 
随 着 其 体 的 情景 和 代 僻 的 展 和 天， 在 需要 时 还 会 结合 实际 加 以 补充 。 

首先 ，gcc 从 C++ 语言 中 吸收 了 “inline" 和 “const?。 其 实 ，GNU 的 C 和 C++ 是 合 为 一 体 的 ，gcc 
既是 C 编译 又 是 C++ 编译 ， 所 以 从 C++ 中 吸收 一 些 东 上 册 到 CC 中 是 很 自然 的 。 从 功能 上 说 ，inline 函数 
的 使 用 与 #define Hie MAM, (HBA ANKE. WEZE. WEH inline 函数 也 有 利 寺 程 序 调试 。 
如 果 编 译 时 不 加 优化 ， 则 这 些 inline 函数 就 是 普通 的、 独立 的 函数 ， 更 便于 调试 。 调 试 好 了 以 后 ， 再 
采用 优化 重新 编辑 一 次 ， 这 些 inline 函数 就 像 宏 操 作 一 样 融 入 了 引用 处 的 代 公 中 ， 有 利于 提高 运行 效 
XE. EYF inline 函数 的 大 量 使 用 ， 相 当 -- 部 分 的 代码 从 .c 文件 移入 了 .h 文件 中 。 
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还 有 , 为 了 支持 64 位 的 CPU 结构 (Alpha 就 是 64 RERI), gec 增加 了 -种 新 的 基本 数据 类 型 “long 
long int*”， 该 类 型 在 内 核 代码 中 常常 用 到 。 

许多 C 语言 都 支持 一 些 “ 属 性 描述 符 ”(attribute )， 如 “aligned”、”packed" 等 等 ，gcc 也 支持 不 少 
这 样 的 描述 符 。 这 些 描述 符 的 使 用 等 于 是 在 C 语言 中 增加 了 : 些 新 的 保留 字 。 可 是 ， 在 原来 的 C 语言 
CoN ANSI C) 中 这 些 词 并 非 保留 字 ， 这 样 就 有 可 能 产生 -- 些 冲突 。 例 如 ，gec 支持 保留 字 inline, ALE 
HF “inline” RIFRAF (E C++ 中 是 保留 字 )》， 所 以 在 老 的 代码 中 可 能 已 经 有 一 变量 名 为 inline， 这 
样 就 产生 了 冲突 。 为 了 解决 这 个 问题 ，gcc 允许 在 作为 保留 字 使 用 的 “inline”" 前 、 后 都 加 上 “__” A 
而 “__inline __” 等 价 于 保留 字 “inline”"。 同 样 的 道理 ，“__asm__" 等 价 于 “asm”*。 这 就 是 我 们 存 代 码 
中 有 时候 看 到 “asm”*， 而 有 时 候 义 看 到 “__asm__” 的 原因 。 

gcc BH PRES “attribute”, 用 来 作 属性 描述 。 如 : 

struct foo{ 
char a; 


int x[z] attribute ^ ((packed)): 


) 

这 里 属性 描述 *packed" 表 示 在 字符 a 与 整 型 数组 x 之 间 不 应 为 了 与 32 位 长 整数 边界 对 齐 而 窗 下 空 
洞 。 这 样 ,“packed” 就 不 会 与 变量 名 发 生 冲 突 了 。 

由 于 在 Linux 的 内 核 中 使 用 了 gcc 对 C 的 扩充 , 很 白 然 地 Linux 的 内 核 就 只 能 用 gcc 编译 。 不 仅 如 
此 ， 由 于 gcc il Linux 内 核 在 平行 地 发 展 ， 一 - 旦 在 Linux 内 核 中 使 用 了 gcc， 在 其 较 新 版 本 中 有 了 新 增 
加 新 扩充 ， 就 不 能 再 使 用 绞 老 版 本 的 gee 来 编译 。 也 就 是 说 ，Linux 内 核 的 各 种 版 本 有 着 对 gee 版 本 的 
依赖 关系 。 读 者 自然 会 问 :“ 这 样 ，Linux 内 核 的 可 移植 性 起 否 会 受到 损害 ? ”问答 是 :“ 是 的 ,但 这 是 
经 过 权衡 得 失利 给 以 后 作出 的 决定 。 ”首先 ， 在 可 移植 性 与 本 身 的 质量 之 间 ，GNU 选择 了 以 质量 为 优 
先 。 再说， 将 gcc 移植 (其 实 是 扩充 ) 到 新 的 CPU 上 应 非 难 事 。 回 顾 -下 Unix 的 历史 。 最 初 的 Unix 是 
以 汇编 和 B 语言 书写 的 ， 正 是 因为 Unix 的 需要 才 有 了 C 语言 。 所 以 ，C 语言 可 说 是 Unix HEED. 
Unix 要 发 展 ，C 语音 当然 也 此 发 展 。 对 于 Unix 来 说 ，C 语音 不 过 是 上 有 上 内， 而 工具 当然 要 服从 目的 本 身 
的 需 费 。 其 次 ， 可 移植 性 问题 看 似 重 大 ， 其 实 并 不 太 严 重 。 如 前 所 述 ， 晶 前 的 Linux 内 核 源 代码 已 经 
支持 几乎 所 有 重要 的 、 常 用 的 CPU，gce 支持 的 CPU BUR XE Y. MA, gcc 还 支持 对 各 种 CPU 的 交叉 
编译 。 

如 前 所 述 ，Linux 内 核 的 代码 中 使 用 了 大 量 inline 函数 。 不 过 ， 这 并 未 消除 对 宏 操 作 的 使 用 ， 内 核 
中 仍 有 许多 宏 操 作 定义 。 人 们 常常 会 对 内 核 代码 中 一 些 宏 操 作 的 定义 方式 感到 迷惑 不 解 ， 有 必要 在 这 
EE … 些 解释 。 先 看 一 个 实例 ， 取 自 fs/proc/kcore.c。 


163 #define DUMP WRITE(addr,nr) do { memcpy (bufp, addr, nr): bufp += nr; } while(0) 


读者 想必 知道 ，do-while 循环 是 先 执行 后 判断 循环 条 件 。 所 以 ， 这 个 定义 意味 着 每 当 引 用 这 个 宏 
操作 时 会 执行 循环 体 一 次 ， 而 且 只 执行 一 次 。 可 是 ， 为 什么 要 这 样 通过 一 个 do-while 循环 来 定义 呢 ? 
这 似乎 有 点 怪 。 我 们 不 妨 看 看 其 他 几 种 可 能 。 首 先 ， 能 不 能 定义 成 如 下 式样 ? 


163 #define DUMP WRITE(addr,nr) memcpy(bufp, addr, nr); bufp += nr; 


不 行 。 如 果 有 一 段 程序 在 个 评语 名 中 引用 这 个 宏 操作 就 会 出 问题 ， 让 我 们 通过 - -个 假想 的 例子 
来 说 明 : 


16. 
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if (addr) 

DUMP WRITE (addr, nr) ; 
else 

do somcthing else( ); 


ZAREE IA BAR E Be EF : 


if (addr) 

memcpy (bufp, addr, nr); bufp += nr; 
else 

do something else( ); 


编 详 这 段 代码 时 gcc 会 失败 ， 并 报告 语法 出 错 。 因 为 gee 认为 让 语句 在 memepy( ) 以 后 就 结束 了 ， 
然后 却 义 碰 到 一 个 else。 如 果 把 DUMP_WRITE( ) 和 do something else( ) 换 一 下 位 置 ， 编 译 倒是 可 以 通 
过 ， 问 题 却 更 严重 了 ， 因 为 不 管 条 件 满足 与 否 bufp t= nr 都 会 得 到 执行 。 

读者 马上 会 想 钊 此 在 定义 中 加 上 花 括 号 ， 成 为 这 样 : 


163 #define DUMP WRITE(addr,nr) {memepy (bufp, addr, nr); bufp += nr:} 
nik, EMM BRA Pia, WA TURPE BU. 


if (addr) 

{memcpy (bufp, addr, nr); bufp += nr;}; 
else 

do_something else( ); 


RE, gcc Ak! else 前 面 的 “;” 时 就 认为 过 语句 已 经 结束 ， 因 向 后面 的 else 不 在 让 诸多 中 。 相 
比 之 下 ， 采 用 do-while 的 定义 在 任何 情况 下 部 没有 问题 。 

了 解 了 这 一 点 之 后 ,再 来 看 对 “ 空 操作 ”的 定义 。 山 于 Linx 内 核 的 代码 要 性 虚 到 各 种 不 同 的 CPU 
和 不 同 的 系统 配置 ， 所 以 常常 需 旨 在 : 定 的 条 件 下 把 某 些 宏 操作 定义 为 空 操作 。 例 如 在 
include/asm-i386/system.h 中 的 prepare_to_switch( ): 


14 #define prepare to switch( ) do { } while(0) 


内 核 在 调度 “个 进程 运行 ， 进 行 切换 之 际 ， 在 有 些 CPU 上 和 需要 调用 prepare, to. switch( ) 作 些 准备 ， 
而 在 另 一 些 CPU 上 就 不 需要 ， 所 以 要 把 它 定义 为 空 操作 。 

读者 在 学 习 数 据 结构 时 “ 定 学 过 队列 ( 指 双 链 队列 ) 操 作 。 内 核 中 大 量 地 使 用 着 队列 和 队列 操作 ， 
这 又 不 是 专门 属 十 哪 一 个 方面 的 内 容 (如 进程 管理 、 文 件 系统 、 存 储 管理 等 等 )， 所 以 我 们 在 这 里 作 些 
介绍 。 

如 果 我 们 有 一 种 数据 结构 foo， 半 且 需 要 维持 一 个 这 种 数据 结构 的 双 链 队列 ， 最 简单 的 、 也 是 最 党 
. 用 的 办 法 就 是 在 这 个 数据 结构 的 类 型 定义 中 加 入 两 个 指针 ， 例 如 ， 


e 


typedef struct foo 


{ 
47 . 
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struct foo *prev; 
struct foo *next; 


然后 为 这 种 数据 结构 写 一 套用 于 各 种 队列 操作 的 子 程序 。 由 于 用 来 维持 队列 的 这 两 个 指针 的 类 型 
是 固定 的 (都 指向 foo 数据 结构 )， 这 些 子 程序 不 能 用 于 其 他 数据 结构 的 队列 操作 。 换 言 之 ， 需 要 维持 多 
少 种 数据 结构 的 队列 ， 就 得 有 多 少 套 的 队列 操作 子 程序 。 对 于 使 用 队列 较 少 的 应 用 程序 或 许 不 是 个 大 
问题 但 对 于 使 用 大 量 队列 的 内 核 就 成 问题 了 。 所 以 ，Linux 内 核 中 采用 了 一 套 通用 的 、 一 般 的 、 可 以 
用 到 各 种 不 同 数据 结构 的 队列 操作 。 为 此 ， 代 码 的 作者 们 把 指针 prev 和 next 从 具体 的 “宿主 ” 数据 
结构 中 抽象 出 来 成 为 一 种 数据 结构 list_head， 这 种 数据 结构 既 可 以 “寄宿 ”在 其 体 的 宿主 数据 结构 内 
部 ， 成 为 该 数据 结构 的 一 个 “连接 件 ” 也 可 以 独立 存在 而 成 为 -个 队列 的 头 。 这 个 数据 结构 的 定义 在 
include/linux/list.h 中 《实际 上 是 数据 结构 类 型 的 申明 ， 为 行文 方便 ， 本 书 采 取 人 不 邦 么 “学 究 ”， 或 者 说 
不 那么 严格 的 态度 。 对 “定义 ”和 和 “申明 ”还 有 对 “数据 结构 类 型 ”和 “数据 结构 ”乃至 “结构 ” 
这 些 词 也 常常 不 加 严格 区 分 。 当 然 ， 我 们 并 不 鼓励 读者 这 样 做 )。 


16 struct list head { 
17 struct list head *next, *prev; 
18 a 


这 里 我 们 把 结构 名 以 粗 体 字 排出 ， 目 的 仅 在 于 醒目 ， 并 没有 特别 的 含义 。 如 果 需 要 有 某 种 数据 结 
构 的 队列 , 就 在 这 种 结构 内 部 放 上 一 -个 list_head 数据 结构 ,以 用 于 内 存 负 和 面 管 理 的 page 数据 结构 为 例 ， 
其 定义 为 : (A include/linux/mm.h) 


134 typedef struct page { 


135 struct list head list; 
138 . struct page *next hash; 
141 struct list head lru; 


148 ) mem map t; 


ny OL, 在 page 数据 结构 中 寄宿 了 两 个 list_head 结构 , Bir DLA P DA FURR TEE BEEF, ATLA page 
结构 可 以 同时 存在 于 两 个 双 链 队列 中 。 些 外， 结构 中 偿 有 个 单 链 指 针 next_hash， 用 来 维持 一 个 单 链 的 
杂 凌 队列 ， 不 过 我 们 在 这 里 并 不 关心 。 

对 于 宿主 数据 结构 内 部 的 每 个 list_head 数据 结构 都 要 加 以 初始 化 ， 可 以 通过 一 个 宏 操 作 
INIT LIST HEAD 进行 : 


25 define INIT LIST HEAD(ptr) do { \ 
26 (ptr) next = (ptr); (ptr) prev = (ptr); \ 
27 ) while (0) 


参数 ptr 为 指向 需要 初始 化 的 list head 结构 。 可 见 初始 化 以 后 山 个 指针 都 指向 沪 list head 结构 自 
: 18. 
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B. 
要 将 一 个 page AIL “ASIR” list 链 入 (有 时 候 我 们 也 说 “ 挂 入 ”一 个 队列 时 ， 可 以 使 用 
list add( ), XXE ^T inline 函数 ， 共 代码 在 include/linux/list.h 中 : 


53 static | inline void list add(struct list head *new, struct list head *head) 


54 { 
55 list add(new, head, head->next): 
56 ) 


参数 new FH SEA FU BTE LAOR 456 FJ ALS list. bead 数据 结构 。 参 数 head 则 指向 链 入 点 ， 也 
是 个 list head 4549, ‘EATEN. Ep X EAI, ADE BSL dE] OE 
可 以 十 不 同类 型 的 宿主 结构 ) 内 部 。 这 个 inline 函数 调用 另 一 个 inline 函数 __list_add( RK ENIR: 


[list_add( ) > __ list add( )] 


29 /* 

30 * Insert a new entry between two known consecutive entries. 
3l * 

32 * This is only for internal list manipulation where we know 
33 * the prev/next entries already! 

34 */ 

35 static __inline__ void __list_add(struct list_head * new, 
36 struct list head * prev, 

37 struct list head * next) 

38 { 

39 next->prev = new; 

40 new->next = next; 

4] new-^prev - prev; 

42 prev-^next = new; 

43  ] 


Xt Fee Ae, A aR TAR EK, ATH ARAMA 8 mS 
大 于 与 列 出 其 调用 路 径 , 这 种 路 径 通 党 以 一 个 比 绞 重 要 或 常用 的 函数 为 起 点 ,例如 这 里 就 是 以 list_add( ) 
为 起 点 。 不 过 ， 读 者 要 注意 ， 对 同 “函数 的 不 同调 用 路 径 往往 有 和 上 很多， 我 们 列 出 的 只 站 在 其 体 的 情景 
或 讨论 中 的 路 径 。 例 如 ， 有 些 函 数 也 许 跳 过 list_add( ) 而 首 接 调用 __list_add( )， 而 形成 男 :条 不 同 的 路 
径 。 全 于 __list_add( ) 本 于 的 代码 ， 我 们 就 把 它 留 给 读者 了 。 

肯 来 看 从 队列 中 脱 链 的 操作 list_del( ): 


90 static __inline__ void list del (struct list head *entry) 


91 { 
92 . list del(entry-»prev, entry—>next) ; 
93  ] 


PE, lx Bon A ALS <A inline 函数 __list_del( ) 来 完成 操作 : 
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78 static inline | void | list del(struct list head * prev, 
79 struct list head * next) 

80 d 

81 next— prev = prev; 

82 prev—>next = next; 

83} 


注意 在 __list_del( ) 中 的 操作 对 象 是 队列 中 在 entry 之 前 和 之 后 的 两 个 list_head 结构 。 如 果 entry 足 
队列 中 的 最 后 一 项 ， 则 二 者 相同 ， 就 是 队列 的 头 ， 那 也 是 “个 list_head 结构 ， 不 过 不 在 任何 宿主 结构 
内 部 。 

读者 也 许 已 经 等 不 及 要 问 了 : 队列 操作 都 是 通过 list_head 进行 的 ， 但 是 那 不 过 是 个 连接 件 ， 如 果 
我 们 手 上 有 个 宿主 结构 ， 那 当然 就 知道 了 它 的 某 个 list_head 在 那里 ， 从 而 以 此 为 参数 调用 list_add( ) 
或 list_del( )， 可 是 ， 反 过 来 ， 当 我 们 顺 着 一 个 队列 取得 其 中 一 项 的 list head 结构 时 ， 义 怎样 找到 其 宿 
主 结构 呢 ? 在 dist head 结构 中 并 没有 指向 宿主 结构 的 指针 啊 。 毕 党 ， 我 们 真正 关心 的 是 宿主 结构 ， 而 
不 是 连接 件 。 

是 的 ， 这 是 个 问题 。 我 们 还 是 通过 一 个 实例 来 看 这 个 问题 是 怎样 解决 的 。 下 所 在 取 自 
mm/page_alloc.c 中 的 一 行 代码 : 


[rmqueue( )] 


188 page = memlist entry(curr, struct page, list); 


这 里 的 memlist_entry( 4 ^ list. head 指针 curr MB py HT EARE, He DU R Ind 
其 宿主 page 结构 的 指针 。 读者 可 能 会 对 memlist_entry( ) 的 实现 和 调用 感到 困惑 。 因为 其 调用 参数 page 
是 个 类 型 ， 而 不 是 其 体 的 数据 。 如 果 看 一 上 国 数 rmqueue( ) 的 整个 代码 ， 还 可 以 发 现在 那里 list 竟 是 无 
定义 的 。 

事实 |:， 在 同一 文件 中 将 memlist_entry 定义 成 list_entry， 所 以 实际 引用 的 是 list_entry( ): 


48 Hdefine memlist entry list entry 


而 list entry 的 定义 则 在 include/linux /list.h FP: 


135 [78 

136 * list entry - get the struct for this entry 

137 * @ptr: the &struct list head pointer. 

138 * @type: the type of the struct this is embedded in. 

139 * Gmember: the name of the list struct within the struct. 

140 */ 

141 "define list entry(ptr, type, member) V 

142 ((Lype 3) ((char *) (ptr)-(unsigned long) (&((type *)0)->member) )) 


将 前 面 的 188 行 与 此 对 照 ， 就 可 以 看 出 其 中 的 奥秘 : 经 过 C 预 处 理 的 文学 替换 ， 这 一 行 的 内 容 就 
成 为 : 
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page=((struct page*) ((char*) (curr)-(unsigned long) (&((struct page*)0)-> lisi))) ; 


这 里 的 curr 是 -个 page 结构 内 部 的 成 分 list 的 地 址 , 而 我 们 所 需要 的 却 赴 那个 page 结构 本 身 的 地 
址 ， 所 以 比 从 地 址 curr 减 去 一 个 位 移 量 ， 即 成 分 list 在 page 内 部 的 位 移 量 ， 才 能 达到 要 求 。 那 么 ， 这 
位 移 量 到 底 是 多 少 昵 ? &((struct page*)0)- >list 就 表示 当 结 构 page 正好 在 地 址 0 上 时 其 成 分 list 的 地 址 ， 
这 就 是 位 移 。 

同样 的 道理 ， 如 果 是 在 page 结构 的 Iru 队列 里 ， 则 传 下 米 的 member 为 lftu， 一 样 能 算出 宿主 结构 
的 地 址 。 

可 见 ， 这 一 套 抱 作 既 普遍 适用 ， 又 保持 了 较 高 的 效 举 。 但 是 ， 对 于 阅读 代码 的 人 却 有 个 缺点 ， 那 
就 是 光 从 代码 中 不 容易 看 出 一 个 list head 的 宿主 结 梅 是 什么 ， 而 以 前 只 要 看 一 下 指针 next 的 类 型 就 知 
ËT. 


1.5 Linux 内 核 源 代码 中 的 汇编 语言 代码 


任何 一 个 用 高 级 语言 编写 的 操作 系统 ， 其 内 核 源 代码 中 总 有 少 部 分 代码 是 用 汇编 语言 编写 的 。 读 
过 Unix Sys V 源 代码 的 读者 都 知道 ， 在 其 约 3 万 行 的 核心 代码 中 用 汇编 语言 编写 的 代码 约 2000 行 ， 分 
成 不 到 20 个 扩展 名 为 .s 和 .m 的 文件 ， 其 中 大 部 分 是 关于 中 新 与 异常 处 理 的 底层 程序 , 还 有 就 是 与 初始 
化 有 关 的 程序 以 及 “: 些 核心 代码 中 调用 的 公用 了 程序 。 

用 汇编 语言 编写 核心 代 公 中 的 部 分 代码 ， 大 体 上 是 出 于 如 下 几 个 方面 的 考虑 : 

© 操作 系统 内 核 中 的 底层 程序 直接 与 硬件 打交道 ， 需 要 用 到 一 些 专用 的 指令 ， 侧 这 些 指 令 在 C 
语言 中 并 无 对 应 的 语 吾 成 分 。 例 如 , 在 386 系统 结构 中 ， 对 外 设 的 输入 / 输出 指令 如 inb、outb 
等 均 无 对 应 的 C 语言 语句 。 因 此 ， 这 些 底层 的 操作 需要 用 汇编 语言 来 编写 。CPU 中 的 一 些 对 
寄存 器 的 操作 也 是 一 样 ， 例 如 ， 要 设置 一 个 段 寄 存 器 时 ， 也 只 好 用 汇编 语言 米 编写 。 

@ CPU 中 的 _ 些 特殊 指令 也 没有 对 应 的 C ATA, BCH, FPS. UES, Ere 
系统 结构 的 不 同 CPU 芯片 中 ， 特 别 是 新 开发 出 来 的 芯片 中 ， 往 往 会 增加 - 些 新 的 指令 ， 例 如 
Pentium. Pentium II 和 Pentium MMX， 痢 在 原来 的 基础 上 :扩充 了 新 的 指令 ,对 这 些 指 令 的 使 用 
也 得 用 汇编 诺言 。 

e ”内核 中 实现 某 些 操 作 的 过 程 、 程 序 段 或 蕊 数 ， 在 运行 时 会 非常 频繁 地 被 调用 ， 因 此 其 《时 间 )》 
效率 就 显得 很 重要 。 而 用 汇编 语言 编写 的 程序 ,在 算法 和 数据 结构 相同 的 条 件 下 ， 其 效率 通常 
要 比 用 高 级 语言 编写 的 高 。 在 此 类 程序 或 程序 段 中 , 往往 每 一 条 汇编 指令 的 使 用 都 需要 经 过 推 
敲 。 系 统 调用 的 进入 和 返 岂 就 是 一 个 典型 的 例子 。 系 统 调用 的 进出 是 非常 频繁 用 到 的 过 程 ， 等 
秒 钟 可 能 会 用 到 成 二 上 万 次 ， 其 时 间 效 率 可 谓 举 是 轻重 。 再说， 系统 调用 的 进出 过 程 还 罕 涉 到 
用 户 空间 和 系统 空间 之 间 的 来 回 切 换 ， 而 用 于 这 个 目的 的 “ 些 指令 在 C 语言 中 本 来 就 没有 对 
应 的 语言 成 分 ， 所 以 ， 系 统 调用 的 进入 和 返回 显然 必须 用 汇编 语言 来 编写 。 

e 在 某 些 特 殊 的 场合 , 一 段 程序 的 罕 间 效率 也 会 显得 正常 重 紫 。 操 作 系统 的 引导 种 序 就 是 一 个 例 
子 。 系 统 的 引导 程序 通常 一 定 要 能 容纳 在 磁 访 上 的 第 一 个 肩 区 中 。 这 时 候 ， 哪 怕 这 段 程序 的 大 
小 多 出 一 个 字 节 也 不 行 ， 所 以 就 只 能 以 汇编 语 志 编 写 。 

在 Linux 内 核 的 源 代码 中 ， 以 ? 编 语言 编写 的 程序 或 程序 段 ， 有 几 种 不 同 的 形式 。 

第 一 种 是 完全 的 汇编 代码 ， 这 样 的 代码 采用 .s TEA AI. SSCL, JE “ARR” IN: 
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编 代 码 ， 现 代 的 汇编 工具 也 吸收 了 C 语言 预 处 理 的 长 处 ， 也 在 汇编 之 前 加 上 了 一 趟 预 处 理 ， 而 预 处 理 
之 前 的 文件 则 以 .$ WER. EX CS) 文件 也 和 C 程序 一 样 ， 中 以 使 用 #include、##fdef 等 等 成 分 ， 而 
数据 结构 也 -- 样 可 以 在 .hn 文件 中 加 以 定义 。 

第 二 种 是 嵌入 在 C 程序 中 的 汇编 语言 片段 。 虽 然 禁 ANSI 的 C 语言 标准 中 并 没有 关于 汇编 片段 的 
规定 ， 事 实 上 各 种 实际 使 用 的 C 编译 中 部 作 了 这 方面 的 扩充 ， 而 GNU 的 C 编译 gcc 也 在 这 方面 作 了 
很 强 的 扩充 。 

此 外 ， 内 核 代 码 中 也 有 几 个 Intel 格式 的 汇编 语言 程序 ， 是 用 于 系统 引导 的 。 

由 于 本 书 专 注 于 Intel 1386 系统 结构 上 的 Linux 内 核 ， 下 面 我 们 只 介绍 GNU Xf 1386 汇编 语言 的 支 
持 。 
对 于 新 接触 Linux 内 核 源 代码 的 读者 ， 哪 怕 他 比较 熟悉 i386 汇编 语言 ， 在 理解 这 两 种 汇编 语 育 的 
程序 或 片段 时 珊 会 感 旬 困难 ， 有 的 甚 公会 望而却步 。 其 原因 是 : 在 内 核 “ 纯 ”汇编 代码 中 GNU 采用 了 
不 同 于 常用 386 汇编 语言 的 名 法， 而 在 符 入 C 程序 的 片段 中 ， 则 更 增加 了 一 些 指导 汇编 芋 具 如 何 分 配 
使 用 寄存 器 、 以 及 如 何 与 C 程序 中 定义 的 变量 相 结合 的 语言 成 分 。 这 些 成 分 使 得 嵌入 C 程序 中 的 汇编 
语言 片段 实际 上 变 成 了 一 种 介 乎 386 汇编 和 C 之 间 的 一 种 中 间 语 言 。 

所 以 ， 我 们 先 集中 地 介绍 一 下 在 内 核 中 这 两 种 情况 下 使 用 的 386 汇编 诗 言 ， 以 后 在 具体 的 情景 中 
涉及 具体 的 汇编 语言 代码 时 还 会 加 以 解释 。 


1.5.1 GNU 的 386 汇 编 语言 


在 Dos/Windows 领域 中 ，386 汇编 语言 都 采用 由 Intel 定义 的 诸多 GES) 格式 ， 这 也 是 几乎 在 所 
有 的 有 关 386 汇编 语言 程序 设计 的 教科 书 或 参考 书 中 所 使 用 的 格式 。 可 是 ,在 Unix 领域 中 ， 采 用 的 却 
是 由 AT&T 定义 的 格式 。 当 初 ， 当 AT&T 将 Unix 移植 到 80386 处 理 器 上 时 ， 根 据 Unix BA A LA 
惯 和 需要 而 定义 了 这 样 的 格式 。Unix 最 初 是 在 PDP-11 机 器 上 开发 的 ， 先 后 移植 到 VAX 和 68000 系列 
的 处 理 器 上 。 这 些 机 器 的 汇编 语言 在 风格 上、 从 而 在 格式 上 与 Intel 的 有 所 不 同 。 而 AT&T 定义 的 386 
汇编 语言 就 比较 接近 那些 汇编 语言 。 后 来 ， 在 Unixware 中 保留 了 这 种 格式 。GNU 主要 是 在 Unix 领域 
内 活动 的 (虽然 GNU Æ “GNU is Not Unix” 的 缩 气 )。 为 了 与 先前 的 各 种 Unix 版 本 与 工具 有 尽 可 能 好 
的 兼容 性 ， 由 GNU 开发 的 各 种 系统 工具 自然 地 继承 了 AT&T 的 386 汇编 语言 格式 ， 而 不 采用 Intel 的 
格式 。 
那么 ， 这 两 种 汇编 语言 之 间 的 差距 到 底 有 多 大 了 昵 ? 其 实 是 大 邮 小 异 。 可 是 有 时 候 小 异 也 是 很 重要 
的 ， 不 加 重视 就 会 造成 困扰 。 有 具体 讲 ， 主 要 有 下 面 这 么 一 些 差别 ; 
(1) 在 Intel 格式 中 大 多 使 用 大 写字 母 ， 而 在 AT&T 格式 中 都 使 用 小 写字 母 。 
(2) 在 AT&T 格 式 中 ， 寄 存 器 名 要 加 上 “%” 作 为 前 缕 ， 侧 在 Intel Fi Xo RAS ER 
(3) 在 AT&T 的 386 汇编 语言 中 ,指令 的 源 操作 数 与 日 标 操 作 数 的 顺序 与 在 Intel 的 386 汇编 语言 
中 正好 相反 。 在 Intel 格式 中 是 目标 在 前 , 源 在 后 ; 出 在 AT&T 格式 中 则 是 源 在 前 , 月 标 在 后 。 
例如 ， 将 寄存 器 eax 的 内 容 送 入 ebx， 在 Intel 格式 中 为 “MOVE EBX, EAX”, ifj TE AT&T 格 
式 中 为 “move %eax, %ebx”。 看 米 ，Intel 格式 的 设计 者 所 想 的 是 “EBX = EAX”, if) AT&T 
格式 的 设计 者 所 想 的 是 “9%eax -> %ebx”。 
(4) 在 AT&T 格式 中 ， 访 内 指令 的 操作 数 大 小 (宽度 ) 由 操作 码 和 名 称 的 最 后 一 个 字母 《也 就 是 操 
作 码 的 后 级》 来 决定 。 几 作 操 作 码 后 绎 的 字母 有 b 表示 8 位，)，w (表示 16 位 ) 和 1 (表示 
32 位 )。 而 在 Intel 格式 中 ， 则 古 在 表示 内 存单 元 的 操作 数 前 面 加 上 “BYTE PTR”, “WORD 
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PTR”, z “DWORD PTR” 来 表示 。 例 如 ， 将 FOO 所 指 内 存单 元 中 的 字 节 取 入 8 位 的 寄存 
器 AL， 在 两 种 格式 中 不 同 的 表示 如 下 : 
MOV AL, BYTE PTR FOO (Intel 格式》 
movb FOO, %al (AT&T 格式 》 
(5 在 AT&T 格式 中 ， 直 按 操作 数 要 加 上 “$” 作 为 前 级 ， 而 在 Intel 格式 中 则 不 带 前 级 。 所 以 ， 
Intel 格式 中 的 “PUSH 4”， 在 AT&T 格式 中 就 变 为 “pushl $4”. 
(6) 在 AT&T 格式 中 ， 绝 对 转移 或 调用 指令 jump/call 的 操作 数 〈 也 即 转移 或 调用 的 目标 地 址 )， 
要 加 上 “*” 作 为 前 绎 (读者 大 概 会 联想 到 C 语言 中 的 指针 吧 )， 而 在 Intel 格式 中 则 不 带 。 
(7) 远程 的 转移 指令 和 子 程序 调用 指令 的 操作 码 名 称 ， 在 AT&T HA “limp” A “ical”, fy 
在 Intel 格式 中 ， 则 为 “JMP FAR” 和 “CALL FAR”。 当 转移 和 调用 的 目标 为 直接 操作 数 时 ， 
两 种 不 同 的 表示 如 下 : 
CALL FAR SECTION: OFFSET (Intel 格式 ) 
JMP FAR SECTION:OFFSET (Intel 格式 ) 


Icall section, $ offset (AT&T 格式 ) 
ljmp $section, $ offset (AT&T 格式 ) 
与 之 相应 的 远程 返回 指令 ， 则 为 : 

RET FAR STACK ADJUST Intel 格式 ) 
lret $ stack adjust CAT&T 格式 ) 

(8) 间接 寻 址 的 一 般 格式 ， 两 者 区 别 如 下 : 
SECTION: [BASE+INDEX*SCALE+DISP] (Intel 格式 ) 
section: disp (base, index, scale) CAT&T 格式 ) 


注意 在 AT&T 格式 中 隐 含 了 所 进行 的 计算 。 例如 ， 当 SECTION 省 略 ，INDEX 和 SCALE 也 省 略 ， 
BASE 为 EBP， 而 DISP《〈 位 移 ) 为 4 时 ， 表 示 如 下 : 
[ebp—4] (Intel 格式 ) 
一 4 (%ebp) CAT&T 格式 ) 
在 AT&T 格式 的 括号 中 如 果 只 有 一 项 base， 就 可 以 省 略 训 号， 否则 不 能 省 略 ， 所 以 《%ebp) 相当 
+ (%ebp,,), HE-WA NF (%ebp, 0, 0). MON, = INDEX 为 EAX，SCALE 为 4 (32 位 )，DISP 
为 fo0o， 而 共 他 均 省 咯 ， 则 表示 为 : 
[foo--EAX*4] (Intel 格式 ) 
foo (, %EAX, 4) (AT&T 格式 ) 
这 种 寻 址 方式 常常 用 于 在 数据 结构 数组 中 访问 特定 元 素 内 的 一 个 字段 ，base 为 数组 的 起 始 地址， 
scale 为 每 个 数组 元 素 的 人 小 ，index 为 下 标 。 如 果 数 组 元 素 是 数据 结构 ， 则 disp 为 具体 字段 在 结构 中 
的 位 移 。 


15.2 RA C 代码 中 的 386 汇编 语言 程序 段 


当 需 要 在 C 语言 的 程序 中 嵌入 一 段 汇 编 语言 程序 段 时 ， 可 以 使 用 gcc 提供 的 “asm” 语 句 功 能 。 例 
QU, TF include/asnvio.h 中 有 这 么 一 行 : 


Hdefine __SLOWDOWN IO | asm | | volatile |. (*outb %al, $ 0x80”) 
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这 里 ， 暂 且 和 忽略 在 asm 和 volatile 前 后 的 两 个 “_ ”学 符 ， 这 也 丰 gcc 对 C 语言 的 -- 种 扩充 ， 后 
甸 我 们 还 要 讲 到 。 先 来 看 括号 里 面 加 上 了 引号 的 汇编 指令 。 这 是 一 条 8 位 输出 指令 ， 如 前 所 述 在 操作 
符 上 加 了 后 级 “b” 以 表示 这 是 8 位 的 ， 而 0x80 因为 是 常数 ， 即 所 谓 “ 直 接 操作 数 ” TDL Lie 
“$8”， 仙 寄存 器 名 纪 也 加 了 前 缀 “%”。 知 道 了 前 面 所 讲 AT&T 格式 与 Intel 格式 的 不 同 ， 这 就 是 一 条 
很 普通 的 汇编 指令 ， 很 容易 理解 。 

在 同一 个 asm 语 名 中 也 可 以 插入 多 行 汇编 程序 。 就 在 同一 个 文件 中 ， 在 不 同 的 条 件 下 ， 
. SLOW DOWN IO 又 有 不 同 的 定义 : 


#define __SLOW DOWN IO __asm | volatile | (^jmp 1f \nl:\tjmp 1f \n1:) 


这 就 不 那么 直观 了 。 这 里 ， : 共 插 入 了 三 行 汇编 语句 , “mn” 就 是 换行 符 ， 而 “\” 则 表示 TAB fj. 
所 以 ，gcc 将 之 翻译 成 下 面 的 格式 而 交 给 gas 去 汇编 : 


jmp 1f 
1: jmp if 


这 里 转移 指令 的 目标 1f 表示 往 前 〈f 表示 forward) 找到 第 一 个 标号 为 1 的 那 一 行 。 相 应 地 ， 如 果 
是 1b 就 表示 往 后 找 。 这 也 是 从 早期 的 Unix 汇编 代码 中 继承 下 来 的 ， 读 过 Unix 第 6 版 的 读 省 大概 都 还 
能 记得 。 所 以 ， 这 一 小 段 汇编 代码 的 用 意 就 在 丁 使 CPU 空 做 两 条 转移 指令 而 消耗 掉 一 些 时 间 。 既 然 是 
Eee 些 时 间 ， 而 不 是 要 节省 一 些 时 间 ， 那 么 为 什么 要 用 沪 : 编 语句 来 实现 ， 而 不 是 在 C 里 面 来 实 
现 昵 ? 原 内 在 于 很 要 对 此 有 比较 确切 的 控制 。 如 上 打 用 C 语句 来 消耗 些 时 间 的 话 ， 你 常常 不 能 确切 地 
知道 经 过 编译 以 后 ， 特 章 是 如 果 经 过 优化 的 话 ， 最 后 产生 的 汇编 代码 究竟 怎样 。 

如 果 读 者 觉得 这 毕竟 还 是 容易 理解 的 话 ， 那 么 下 面 这 一 段 CALA include/asm/atomic.h〉 就 困难 多 
T: 


29 static __inline__ void atomic add(int i, atomic t *v) 


30 1 

3l asm  . volatile _( 

32 LOCK "addl %1, %0” 

33 ;^-m" (v->counter) 

34 Sir" (i), "m" (v->counter)) ; 
35  ] 


一 般 而 言 ， 往 C 代码 中 插入 汇编 语言 的 代码 片断 要 比 “ 纯 粹 ”的 汇编 语言 代码 复杂 得 多 ， 因 为 这 
里 有 个 怎样 分 配 使 用 寄存 器 ， 怎 样 与 C 代码 中 的 变量 结合 的 问题 。 为 了 这 个 日 的 ， 必 须 对 所 用 的 半 编 
语言 作 更 多 的 扩充 ， 增 加 对 沪 - 编 工 其 的 指导 作用 。 其 结果 是 其 语法 实际 上 变 成 了 既 不 同 于 汇编 语言 ， 
也 不 同 于 C 语言 的 某 种 中 间 语 言 。 

Pil, Asta -下 插入 C 代码 中 的 汇编 成 分 的 般 格 式 ， 并 加 以 解释 。 以 后 ， 在 我 们 走 过 各 种 情 
景 时 磁 到 具体 的 代码 时 还 会 加 以 提示 。 

插入 C 代 色 中 的 一 个 汇编 语言 代 但 片断 可 以 分 成 四 部 分 ， 以 “: ”号 加 以 分 隔 ， 其 一 般 形 式 为 : 
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指令 部 : 输出 部 : 输入 部 : 损坏 部 


注意 不 要 把 这 些 “: ”号 跟 程 序 标号 中 所 用 的 (如 前 面 的 1 ) 混 淆 。 

第 一 部 分 就 是 汇编 诸多 本 身 ， 其 格式 与 在 汇编 诸 言 程序 中 使 用 的 基本 相同 ， 但 也 有 区 别 ， 不 同 之 
处 下 面 会 讲 到 。 这 一 部 分 可 以 称 为 “指令 部 ”是 必须 有 的 ， 而 其 他 各 部 分 则 可 视 共 体 的 情况 而 省 略 ， 
所 以 在 最 简单 的 情况 下 就 与 常规 的 汇编 诸 包 基本 相同 ， 旭 前面 的 岗 个 例 了 却 样 。 

当 将 汇编 诸 言 代码 片断 杠 入 到 CC 代码 中 时 ， 操 作 数 与 C 代码 中 的 变 旺 如 何 结合 显然 是 个 问题 。 在 
本 节 井 头 的 两 个 例子 中 ， 汇 编 指 令 者 没有 产 牛 与 C 程序 中 的 变量 结合 的 问题 ， 所 以 比较 简单 。 当 站 . 编 
指令 中 的 操作 数 需 要 与 C 程序 中 的 某 些 变量 结合 时 ， 情 况 就 复 杀 多 了 。 这 是 内 为 :程序 员 在 编写 坐 入 
的 并. 编 代 码 时 ， 按 照 程序 逻辑 的 要 求 很 清楚 应 该 选用 什么 指令 ， 但 是 却 碟 法 确切 地 知道 gee 在 嵌入 点 
的 前 后 会 把 哪个 寄存 器 分 配 用 村 哪 一 个 变量 ， 以 及 哪 一 个 或 哪儿 个 寄存 器 是 字 闲 着 的 。 和 而 及， 光 是 
被 动 地 知道 gcc 对 寄存 器 的 分 配 情况 也 还 是 不 够 ,还 得 有 个 丁 段 拒 使 用 寄存 器 的 要 求 告知 gee, RAK 
ECM ate ako. ASR, BUR gee 的 功能 非常 强 ， 那 么 通过 分 析 虞 入 的 沪 编 代码 也 应 该 能 够 归纳 
出 这 些 虎 求 ， 青 通过 优化 ， 最 后 也 能 达到 目的 。 但是， 即使 那样 ， 所 引入 的 不 确定 性 也 还 是 个 问题 ， 
更 何况 要 做 A 到 这 样 还 不 容易 。 针 对 这 个 问题 ，gcc RAS 种 折 中 的 办 法 : 程序 员 内 提供 共 体 的 指令 ， 
而 对 寄存 器 的 使 用 则 一 般 只 提供 一 个 “样板 ”和 一 些 约束 条 件 ， 而 把 到 底 如 们 与 变 虽 结合 的 问题 留 给 
gcc 和 gas 去 处 理 。 

feit BUTS. MIME AR, BGO. 961 等 等 ， 表示 需要 使 用 寄存 器 的 样板 操作 数 。 可 以 使 用 的 
此 类 操作 数 的 总 数 取 决 十 具体 CPU 中 通用 寄存 嵌 的 数量 。 这样， 指令 部 中 几 到 了 几 个 不 同 的 这 种 操作 
数 , 就 说 明 有 几 个 变量 需要 与 寄存 器 结合 ,由 gcc 和 gas 在 编译 和 汇编 时 根据 后 面 的 约束 条 件 自 行 必 通 
处 理 。 山 于 这 些 样板 操作 数 也 使 用 “ 免 ” 前 缀 ， 在 涉及 到 具体 的 寄存 器 时 就 此 在 寄存 嚣 名 前 面 加 上 是 
^ “%” TR ARRA. 

那么 ， 怎 样 表达 对 变量 结合 的 约束 条 件 呢 ? 这 就 是 其 余 儿 个 部 分 的 作用 。 紧 接 在 指令 部 后 面 的 是 
“输出 部 ” 用 以 规定 对 输出 变量 ， 即 日 标 操 作 数 如 何 结 合 的 约束 条 件 。 每 个 这 样 的 条 件 称 为 一 个 “ 约 
束 ”(constraint)。 必 要 时 答 出 部 中 可 以 有 多 个 约束 ， 蕊 相 以 地 号 分 隔 。 每 个 输出 约束 以 “=” 号 开头 ， 
然后 是 个 宁 母 表示 对 操作 数 类 型 的 说 明 ， 然 后 是 关于 变量 结合 的 约束 。 例 如 ， 在 上 面 的 例子 小 ， 输 
出 部 为 





: “=m” (v->counter) 

这 里 只 有 一 个 约束 ,“=m” 表 示 相 应 的 月 标 操 作 数 〈 指 令 部 中 的 %0) 是 个 内 存单 元 v->counter. AL 
是 与 箱 出 部 中 说 明 的 操作 数 相 结合 的 寄存 器 或 操作 数 本 身 ， 在 执行 嵌入 的 汇编 代 侍 以 后 均 不 保留 执行 
X OBÜBJEYTR, XA gcc 提供 了 调度 使 用 这 些 寄存 器 的 依据 。 

输出 部 后 面 是 “输入 部 ”。 输 入 约 来 的 格式 与 输 山 约束 相似 ， 但 不 带 “=” 写 。 在 前 而 例 了 中 的 输 
入 部 有 两 个 约束 。 第 一 个 为 “ir”(i)， 表 示 指 令 中 的 %1 可 以 是 个 在 寄存 内 中 的 “二 接 操作 数 ”(i 去 
示 immediate )， 并 且 该 操作 数 来 自 寺 C 代 但 由 的 变量 名 (这 里 是 调用 参数 )ii。 第 二 个 约束 为 
“m"(v->counter)， 意 义 与 输入 约 东 中 相同 。 如 果 -个 输入 约束 些 求 使 用 寄存 内 ， 则 在 预 处 理 时 gee 会 
为 之 分 配 “个 寄存 器 ， 并 门 动 括 入 必要 的 指令 将 操作 数 即 变量 的 什 装 入 该 寄存 器 。 与 输入 部 中 说 明 的 
操作 数 结合 的 容 存 器 战 操作 数 本 身 ， 企 执行 虞 入 的 瀛 . 编 代码 以 后 也 不 保留 执行 之 前 的 内 容 。 例 如 ， 这 
里 的 %1 要 求 使 用 寄存 器 ， 所 以 gcc 会 为 其 分 配 ， 个 寄存 器 ， 扩 | 卜 动 质 入 一 条 movl 指令 把 参数 i 的 数 
但 装 入 该 寄存 具 ， 可 是 这 个 窜 仔 左 原来 的 内 容 就 不 复 存 企 了 。 如 杂 这 个 寄存 器 本 来 环 是 空 半 的 ， 那 倒 
ABB. uA EPA SERE. med 个 ， 那 就 得 保证 在 使 岂 以 后 恢复 其 占有 
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的 内 容 。 此 时 gcc 会 自动 在 开头 处 插入 一 条 push 指令 ,将 该 寄存 器 原来 的 内 容 保存 在 堆栈 中 ， 而 在 结 
束 以 后 插入 一 条 popl 指令 ， 恢 复 寄 存 器 的 内 容 。 

在 有 些 操作 中 ， 除 用 于 输入 操作 数 和 输出 操作 数 的 寄存 器 以 外 ， 还 要 将 若 十 个 寄存 器 用 丁 计 算 或 
操作 的 中 间 结 果 。 这 样 ， 这 些 寄存 器 原 有 的 内 容 就 损坏 了 ， 所 以 要 在 损坏 部 对 操作 的 副作用 加 以 说 明 ， 
让 gcc 采取 相应 的 措施 。 不 过 ， 有 时 候 就 自 接 把 这 些 说 明 放 在 输出 部 了 ， 那 也 并 无 不 可 。 

操作 数 的 编号 从 输出 部 的 第 个 约束 (序号 为 0) 开始 ， 顺 序数 下 来 ， 每 个 约束 计数 一 次 。 在 指令 
部 中 引用 这 些 操 作 数 或 分 配 用 于 这 些 操作 数 的 寄存 器 时 ， 就 在 序号 前 面 加 上 一 -个 “%” 号 。 在 指令 部 
中 引用 -- 个 操作 数 时 总 是 把 它 当 成 一 个 32 位 的 “长 字 ”， 但 是 对 其 实施 的 操作 ， 则 根据 需要 也 可 以 是 
字 节 操作 或 字 (16 位 ) 操 作 。 对 操作 数 进 行 的 字 凶 操作 默认 为 对 其 最 低 季 节 的 操作 ， 字 操作 也 是 一 样 。 
不 过 ， 在 一 些 特殊 的 操作 中 ， 对 操作 数 进 行 字 节 操作 时 也 允许 明确 指出 是 对 哪 一 个 字 节 操作 ， 此 时 在 
多 与 序号 之 间 插 入 一 个 “b” 表 示 最 低 字 节 ， 托 入 个“h” 表 示 次 低 字 节 。 

表示 约束 条 件 的 字母 有 很 多 。 主 要 有 : 


“m”, “y” 和“o” 一 一 KasA fee; 

eur 一 一 表示 任何 寄存 器 ; 

Hg? 一 一 表示 寄存 器 eax, ebx, ecx, edx 之 一 ; 

«i" A “h” 一 一 表示 直接 拘 作 数 ; 

"E" 和 “EF” 一 一 dem RK 

eg 一 一 表示 “任意 ” 

“a”, “b”, “e”, fd" — 分 别 表 示 要 求 使 用 寄存 器 eax, ebx, ecd 或 edx: 
“gr, “p” 一 一 4n és BREA Gi £48 esi 或 edi; 

“g” 一 一 ACE XO 至 31)。 


此 外 ， 如 果 “个 操作 数 划 求 使 用 与 前 面 基 个 约束 中 所 此 求 的 是 同一 个 寄存 器 ， 都 就 把 与 那个 约束 
对 应 的 操作 数 编号 放 在 约束 条 件 中 。 在 损坏 部 常常 会 以 “memory” 为 约束 条 件 ， 表 示 操 作 完 成 后 内 存 
中 的 内 容 已 有 改变 ， 如 果 原 来 某 个 寄存 器 (也 许 在 本 次 操作 中 并 未 用 到 ) 的 内 容 来 自 内 存 ， 则 坝 在 可 能 已 
经 不 一 致 。 

还 要 注意 ， 当 输出 部 为 室 ， 即 没有 给 出 约束 时 ， 如 果 有 输入 约束 存在 ， 则 须 保 留 分 隔 标记 “: ”号 。 

[n1] ERAS ALT, 读者 现在 应 该 可 以 理解 这 段 代码 的 作用 是 将 参数 工 的 值 加 到 v->counter E. 代码 
中 的 关键 了 LOCK 表示 企 执行 addi 指令 时 要 把 系统 的 总 线 锁 住 ， 不 让 别 的 CPU《〈 如 果 系 统 中 有 不 止 C 
个 CPU 打扰。 读者 也 许 要 问 ， 将 两 个 数 相 加 是 很 简单 的 操作 ，C 语言 中 明明 有 相应 的 语言 成 分 ， 例 
Jil "v-»counter +=i; ”， 为 什么 要 用 汇编 呢 ? 原因 就 在 于 ， 这 里 紫 求 整个 操作 只 由 一 条 指令 完成 ， 并 且 
此 将 总 线 锁 件 ， 以 保证 操作 的 “原子 性 (atomic)”。 相 比 之 卜 ERR C 诸多 在 编译 之 后 刘 底 有 儿 条 指 
令 是 没有 保证 的 ， 也 无 法 要 求 在 计算 过 程 中 对 总 线 加 锁 。 

FRA BEER AILS RS, XAA É include/asm-i386/bitops.h « 


18 #ifdef CONFTG_SMP 
19 #define LOCK PREFIX “lock ; ^ 


20 Helse 

21 #define LOCK PREFIX ^^ 
22 #ondif 

23 


24 #define ADDR (*(volatile long *) addr) 
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25 

26 static inline void set bit(int nr, volatile void * addr) 
27 f 

28 | asm __volatile ( LOCK_PREFIX 

29 "btsl 981, «0^ 

30 “=m” (ADDR) 

31 :”Ir” inr) 

32 } 


这 里 的 指令 btsl 将 一 个 32 CREP TI AE REC RE 1. SR or 表示 该 位 的 位 置 。 现 在 读者 应 该 
不 感到 困难 ， 也 明 喇 为 什么 要 用 汇编 语言 的 原因 了 。 
再 来 看 一 个 复杂 - :点 的 例子 ， 取 日 include/asm-i386/string.h: 


199 statie inline void * _ memepy (void * to, const void * from, size t n) 
200 { 

201 int d0, dl, d2; 

202 |. asm | volatile _( 

203 “rep ; movsl\n\t” 

204 ^testb $2, %b4\n\t” 

205 "je if\n\t” 

206 “movsw\n” 

207 “1:\ttestb $1, %b4\n\t” 

208 "je 2f\n\t” 

209 “movsb\n” 

210 19s. 

2]1 : "-&c^ (d0), "-&D^ (d1), “=&S” (d2) 

212 :"O0^ (n/A), “gq” (n),71” (Gong) to), 2^ (Cong) from) 
213 : "memory ^); 

214 return (to); 

Dia =} 


读者 也 许 知道 memcpy( ) IX Ef | memepy( ) 就 是 内 核 中 对 memepy( ) 的 底层 实现 ， 用 来 复制 一 
块 内 存 室 间 的 内 容 ， 侧 忽略 其 数据 结构 。 这 是 使 用 非常 频繁 的 一 个 胃 数 ， 所 以 其 运行 效率 十 分 重要 。 

先 看 约束 条 件 委 量 与 寄存 器 的 结合 。 输 出 部 有 三 个 约束 ， 对 应 寺 操 作 数 %0 至 %2。 其 中 变量 dO 
为 操作 数 %0， 必 须 放 在 寄存 器 ecx 中 ， 诛 因 等 一 下 就 会 明白 。 同 样 ，d1 即 多 1 必须 放 在 寄存 器 edi P; 
d2 即 %2 必须 放 在 寄存 器 esi 中 。 再 看 输入 部 ， 这 里 有 四 个 约束 ， 对 应 于 操作 数 %3 伞 %6。 其 中 操作 数 
%3 与 操作 数 %0 使 用 同一 个 寄存 器 ， 所 以 也 必须 是 寄存 器 ecx， FFARR gee 自动 插入 必要 的 指令 ， 
事先 将 其 设置 成 4， 实际 上 是 将 复制 长 度 从 字 节 个 数 n 换算 成 长 字 个 数 /4。 全 十 n AR Bs MEK gee 
任意 分 配 个 寄存 器 存放 。 操 作 数 %5 与 %6， 即 参数 to 与 fom， 分 别 与 %1 各 %2 使 用 相同 的 寄存 器 ， 
所 以 也 必须 是 寄存 器 edi 和 esi. 

再 看 指令 部 ， 读 者 马上 就 能 看 到 这 里 似乎 只 用 了 多 4。 为 什么 圭 么 多 的 操作 数 似乎 帮 没 有 用 呢 ? ik 
IME SHA T o 

第 一 条 指令 是 “rep”， 表 示 下- -条 指令 movsl HERMIT, GER 一遍 就 把 寄存 器 ecx 中 的 内 容 减 
L ETRO WE. HA, RARER IT n/A 次 。 那 么 ，movsl 又 十 些 什么 呢 ? ‘EM esi 所 指 
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的 地 方 复制 一 个 长 字 到 edi 所 指 的 地 方 ， 并 使 esi Medi 分 别 加 4。 这 样 ， 当 代码 中 的 203 行 执行 完毕 ， 
到 达 204 行 时 ， 所 有 的 长 宁都 山 复 制 好 ， 最 多 具 剩 下 三 个 字 节 了 。 在 这 个 过 程 中 ， 实 际 上 使 用 了 ex. 
esi 以 及 edi ZAE A BIOO (同时 也 是 %3)、%2 (同时 也 是 %6》 以 及 %1 (同时 也 是 %5) 三 个 操作 
数 ， 这 些 都 隐 含 在 指令 中 ， 从 字面 上 看 不 出 来 。 同 时 ， 这 也 说 明了 为 什么 这 些 操 作 数 必须 存放 在 指定 
的 寄存 器 中 。 

接着 就 是 处 理 剩 下 的 三 个 字 节 了 , 先 通 过 testb 测试 操作 数 %4, 即 复制 长 度 n 的 最 低 字 节 中 的 bit2， 
如 果 这 一 位 为 1 就 说 明 还 有 至 少 岗 个 字 贡 ,所 以 通过 指令 movsw 复制 “个 短 字 (esi 和 edi 则 分 别 加 2)， 
否则 就 把 它 跳 过 。 再 通过 testb (注意 它 前 面 起 \t， 表 示 在 预 处 理 后 的 汇编 代码 中 插入 一 个 TAB 字符 ) 
测试 操作 数 %4 的 bitl, 如 果 这 一 位 为 1 就 说 明 还 剩 下 一 个 字 节 , 所 以 通过 指令 movsb 再 复制 一 个 字 节 ， 
否则 就 把 它 跳 过 。 到 达标 号 2 的 时 候 ， 执 行 就 结束 了 。 读 者 不 妨 自己 写 一 段 C 代码 来 实现 这 个 冰 数 ， 
编 详 以 后 用 objdump 看 它 的 实现 ， 并 与 此 作 一 比较 ， 相 信和 就 能 体会 到 为 什么 这 里 此 采用 并: 编 语 言 。 

作为 读者 的 复习 材料 ， 下 面 是 strnemp( ) 的 代码 ， 不 熟悉 1386 指令 的 读者 可 以 找 -- 本 Intel 的 指令 
手册 对 照 者 阅读 。 


127 static inline int strnomp(const char * cs, const char * ct, size_t count) 
128 | 

129 register int . res; 

130 int dO, dl, d2; 

131 . asm  . volatile ( 

132 “1:\tdecl %3\n\t” 

133 "js 2f\n\t” 

134 “lodsb\n\t” 

135 “scasb\n\t” 

136 “jne 3f\n\t” 

137 “testb %%al, %%al \n\t” 

138 " jne lb\n” 

139 “2:\txorl %%eax, %%eax\n\t” 

140 " jmp 4f\n” 

141 “3:\tsbbl %%eax, %%eax\n\t” 

142 "orb $1, %%al \n” 

143 “4.” 

144 :=a ( res), "-&S" (d0), “=D” (d1), "-&c" (d2) 
145 :1” (es),"2" (ct), "3" (count); 
146 return res; 

147 } 
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2.1 Linux 内 存 管理 的 基本 框架 


在 上 一 章 ， 我 们 介绍 了 i386 CPU， 包 括 Pentium， 在 硬件 层次 上 对 内 存 管 理 所 提 供 的 支持 。 内 存 
管理 最 终 的 实现 当然 要 山 软 件 完成 。 

我 们 在 前 而 谈 到 过 ，i386 CPU 路 的 页 式 存 管 的 基本 思路 足 : 通过 和 页面 月 录 和 页 面 表 分 两 个 层次 实 
现 从 线性 地 址 到 物理 地 址 的 映射 。 这 种 映射 模式 在 大 多 数 情 况 下 可 以 节省 页 面 表 所 占用 的 空间 。 因 为 
大 多 数 进程 不 会 用 到 整个 虚 存 空间 ， 在 虚 存 空间 中 通常 都 留 有 很 大 的 “空洞 ”。 采 用 两 层 的 方式 ， 只 要 
一 个 目录 项 所 对 应 的 邦 部 分 空间 是 个 空洞， 就 可 以 把 该 目录 项 设置 成 “ 空 ” 从 而 省 下 了 与 之 对 应 的 页 
tide (1024 个 页 面 描述 项 )。 当 地 由 的 宽度 为 32 位 时 ， 央 层 映射 机 制 比较 有 效 也 比较 合理 。 但 是 ， 当 
地 址 的 宽度 大 于 32 位 时 ， 两 层 映 射 就 显得 不 尽 合 埋 ， 个 够 有 效 了 。 

Linux 内 核 的 设计 要 考虑 到 在 各 种 不 同 CPU 上 的 实现 ， 还 要 考虑 到 在 64 位 CPU (W Alpha) 上 的 
实 坝 ， 所 以 不 能 仅仅 针对 i386 结构 来 设计 它 的 映射 机 制 , 而 要 以 … 种 假想 的 、 虚 拟 的 CPU 和 MMU( 内 
存 管理 单元 ) 为 基础 ， 设 计 出 “种 通用 的 模型 ， 再 把 它 分 别 沙 实 到 各 种 具体 的 CPU 上。 因此 ，Linux 内 
核 的 映射 机 制 设 计 成 三 许 ， 让 页 面 月 录 和 页 面 表 中 间 增 设 了 AHMAR”. AREP, AMHARE 
X PGD, 中 间 目 录 称 为 PMD, W RMP PT. PT 中 的 表 项 则 称 为 PTE, PTE 是 “Page Table Entry” 
的 缩写 。PGD、PMD 和 PT 三 者 均 为 数组 。 相 应 地 ， 在 逻辑 上 也 把 线性 地 址 从 高 位 到 低位 划分 成 4 个 
RE, SASF, REE SE PGD 中 的 下 标 、 中 间 月 录 PMD 中 的 下 标 、 页 而 表 中 的 下 标 以 太 
物理 页 面 内 的 位 移 。 这 样 ， 对 线性 地 址 的 映射 就 分 成 如 图 2.1 所 示 的 四 步 。 

具体 一 点 说 ， 对 于 CPU 发 出 的 线性 地 址 ， 虎 拟 的 Linux 内 存 管 理 单元 分 如 下 四 步 完 成 从 线性 地 址 
到 物理 地 址 的 映射 ; 

(1) 用 线性 地 址 中 最 高 的 那 一 个 位 自作 为 下 标 在 PGD 中 找到 相应 的 表 项 ， 该 表 项 指向 相应 的 中 

ja} Ae PMD. 

D 用 线性 地 址 中 的 第 二 个 位 段 作为 下 标 在 此 PMD 中 找到 相应 的 表 项 ， 该 表 项 指向 相应 页 而 表 。 

(3) 用 线性 地 址 中 的 第 三 个 位 段 作为 下 标 在 页 面 老 中 找到 相应 的 表 项 PTE， 该 表 项 中 存放 的 就 是 

指向 物理 页 面 的 指针 。 

(4) ”线性 地 址 中 的 最 后 位 段 为 物理 页 出 内 的 相对 位 移 量 ， 将 此 位 移 量 与 日 标 物理 页 面 的 起 始 地 址 
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相 加 便 得 到 相应 的 物理 地 址 。 


PGD PMD PT 
表 项 下 标 | 表 项 下 标 | 下 标 | 位 移 





PGD 
基地 址 


图 2.1 三 层 地 址 映射 示意 图 


但 是 ， 这 个 虚拟 的 映射 模型 必须 落实 到 具体 CPU 和 MMU 的 物理 映射 机 制 。 就 以 1386 来 说 ，CPU 
实际 上 不 是 按 二 层 而 是 按 两 层 的 模型 进行 地 此 映射 的 。 这 就 需 此 将 虚拟 的 三 层 映射 洛 实 到 具体 的 两 层 
BR, BEREH HHS PMD 层次 。 另 方面， 从 Pentium Pro 开始 ，Intel 引入 了 物理 地址 扩充 功能 PAE, 
允许 将 地 址 宽度 从 32 位 提高 人 到 36 位 ， 并 且 在 使 件 上 支持 : 层 映 射 模型 。 这 样 ， 在 Pentium Pro 及 以 后 
的 CPU E, HZ CPU 的 内 存 管理 设 四 成 PAE 模式 ， 就 能 使 虚 存 的 映射 变 成 一 层 模式 。 

那么 ， 有 具体 对 于 1386 结构 的 CPU, Linux 内 核 站 怎样 实现 这 种 映射 机 制 的 呢 ? 首先 让 我 们 来 看 
include/asm-i386/pgtable.h 中 的 一 段 定义 : 


106 dif CONFIG X86 PAE 
107 8 include <asm/pgtable-3level. h> 


108 #else 
109 & include <asm/pgtable-2level. h> 
110 Hendif 


根据 在 编译 Linux 内 核 之 前 的 系统 配置 (config) 过 程 中 的 选择 , 编译 的 时 候 会 把 月 录 include/asm 符 
号 连接 到 具体 CPU 专用 的 文件 月 录 。 对 于 i386 CPU， 该 日 录 被 符号 连接 到 inelude/asm-i386。 辐 时 ， 
住 配置 系统 时 还 有 一 个 选择 项 是 关 填 PAE 的 ， 如 果 所 用 的 CPU 是 Pentium Pro RUER, FARER 
Hi 36 位 地 址 ， 则 在 编译 时 选择 项 CONFIG X86 PAE 为 1， 否 则 为 0。 根 据 此 项 选择 ， 编 译 时 从 
pgtable-3levelh sÈ pgtable-2levelh 中 二 者 选 一 , 前 者 用 于 36 位 地 址 的 三 层 映 射 ,而 后 者 则 用 十 32 位 地 
址 的 二 层 映 射 。 这 里 ， 我 们 将 集中 讨论 32 位 地 址 的 二 层 上 映射。 在 型 清 了 32 位 地 址 的 二 层 映 射 以 后 ， 
读者 可 以 自行 阅读 有 关 36 位 地 址 的 一 层 映射 的 代码 。 

文件 pgtable-2level.h 中 定义 了 JR PGD 和 PMD 的 基本 结构 : 


04 /* 

05 * traditional i386 two-level paging structure: 
06 */ 

07 

08 #define PGDIR SHIFT 22 
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09 Hdefine PTRS PER PGD 1024 

10 

1} /* 

12 * the i386 is two-level, so we don't really have any 
13 * PMD directory physically. 

14 */ 

15 #define PMD SHIFT 22 

16 #define PTRS_PER_PMD 1 

17 

18 &define PTRS PER PTE 1024 


这 里 PGDIR_SHIFT 表示 线性 地 址 小 PGD PES ELE AZ ES 文件 中 将 其 定义 为 22, EHN bit22 
(第 23 位 )。 由 于 PGD 是 线性 地 址 中 最 高 的 位 段 ， 所 以 该 位 段 是 从 第 23 位 到 第 32 位 ， 一 共 是 10 位 。 
在 文件 pgtable.h 中 定义 了 另 一 个 常数 PGDIR, SIZE 为 : 


117  &define  PGDIR STZE (1UL<<PGDIR SHIFT) 


也 就 是 说 ，PGD 小 的 每 一 个 表 项 所 代表 的 空间 (并 不 是 PGD ALU ETD) op 1x27. m] 
时 ，pgtable-2levelh 中 又 定义 了 PTRS_PER_PGD， 也 就 是 每 个 PGD 表 中 指针 的 个 数 为 1024。 显 然 ， 
这 是 与 线性 地 址 中 PGD 位 段 的 长 度 (10 位 ) 相符 的 ， 因 为 2 "=1024。 这 两 个 常数 值 的 定义 完全 是 针对 
i386 CPU 及 其 MMU 的 ,因为 非 PAE 模式 的 1386 MMU 用 线性 地 址 中 的 最 高 10 位 作为 日 东 中 的 下 标 ， 
而 日 录 的 大 小 为 1024. 不 过 ,在 32 位 的 系统 中 每 个 指针 的 大 小 为 4 个 字 节 ,所 以 PGD 表 的 人 小 为 4KB。 

对 PMD 的 定义 就 很 有 意思 了 。PMD_SHIFT 也 定义 为 22， 与 PGD_SHIFT 相同 ， 表 示 PMD 位 段 
的 长 度 为 0, 一 个 PMD 表 项 所 代表 的 空间 与 PGD 老 项 所 代表 的 空间 是 一 样 大 的 。 而 PMD 表 中 指针 的 
个 数 PTRS. PER. PMD 则 定义 为 1， 表 示 每 个 PMD 表 中 只 有 一 个 表 项 。 同 样 ， 这 也 是 针对 1386 CPU 
及 其 MMU 而 定义 的 ， 因 为 要 将 Linux 328. E [0] — RHET Se i386 结构 物理 上 的 二 . 层 陕 射 ， 就 
要 从 线性 地 址 逻辑 上 的 4 个 虚拟 位 段 中 把 PMD 抽 去 ， 使 它 的 长 度 为 0， 所 以 逻辑 上 的 PMD AI Av) 
就 成 为 1 (2°=1). 

这 样 ， 上 述 的 4 步 映射 过 程 对 于 内 核 〈 软 件 ) 和 i386 MMU 就 成 为 : 

(1) ARA MMU 设置 好 映射 日 录 PGD, MMU 用 线性 地 址 中 最 高 的 那个 位 段 C10 位 ) 作为 下 
标 在 PGD || FRSA VFM. ROGER LTR SPIE] Ask PMD, (Fe be 
相应 的 页 面 表 ，MMU 并 不 知道 PMD 的 存在 。 

(2) PMD 只 起 逻辑 LAET, WARM LEE, 但 是 表 中 只 有 ARR, mH 
就 是 保持 原 但 个 变 ， 吉 在 一 转手 却 指向 页 面 表 了 。 

(3) 内 核 为 MMU i E T PURI oe, MMU 用 线 件 地 址 中 的 PT 位 段 作为 下 标 在 相应 页 面 妇 
中 找到 相应 的 项 PTE， 该 表 需 由 存放 的 就 是 指向 物理 页 面 的 指针 。 

(4) “线性 地 址 中 的 最 后 位 段 为 物理 页 面 内 的 相对 位 移 量 ，MMU 将 此 位 移 量 与 旦 标 物理 页 而 的 起 
始 地 址 相 加 便 得 到 相应 的 物 坦 地 址 。 

这 样 ， 逻 辑 上 的 三 层 映 射 对 于 i1386 CPU Al MMU 就 安 成 了 二 层 映 射 ， 把 中 间 月 录 PMD 这 一 层 跳 

过 了 ， 但 是 软件 的 结构 却 还 保持 着 二 层 映 射 的 框架 。 
具体 的 映射 因 空 间 的 性 质 让 异 ， 但 是 后 面 读 者 将 会 看 到 《〈 除 用 来 模拟 80286 的 VM86 模式 外 )， 其 
段 式 映 射 基 地 址 总 是 0， 所 以 线性 地 址 与 虚拟 地 址 总 是 “: 致 的 。 在 以 后 的 讨论 盾 ， 我 们 常常 对 二 者 不 加 
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区 分 。 

32 位 地 址 意味 着 AG 宁 节 的 虚 存 空间 ，Linux 内 核 将 这 4G 宁 节 的 空间 分 成 两 部 分 。 将 最 启 的 1G 
字 节 (从 虚 地 址 0xC0000000 全 0xFFFFFFFF), HF ARAL, 称 为 “系统 空间 ”而 将 较 低 的 3G 字 节 (从 
虚 地 址 0x0 至 0xBFFFFFFF)， 用 作 各 个 进程 的 “用 户 容 间 ”。 这 样 ， 理 沦 上 每 个 进程 可 以 使 用 的 用 户 裕 
间 都 是 3G 字 节 。 当 然 ， 实 际 的 空间 大 小 受到 物理 存储 器 〈 包 括 内 存 以 及 磁卡 交换 区 或 交换 文件 ) 大 小 
的 限制 。 虽然 各 个 进程 搬 有 其 自己 的 3G 字 节 用 户 空间 ， 系 统 室 间 却 由 所 有 的 进程 共享 。 每 当 一 个 进程 
通过 系统 调用 进入 了 内 核 ， 该 进程 就 在 共享 的 系统 空间 中 运行 ， 不 再 有 其 白山 的 独立 空间 。 从 具体 进 
程 的 角度 看 ， 则 每 个 进程 都 拥有 4G 字 节 的 虚 存 空间 ， 较 低 的 3G 字 节 为 日 己 的 用 卢 空间 ， 最 高 的 1G 
字 节 则 为 与 所 有 进程 以 及 内 核 共 享 的 系统 空间 ， 如 图 2.2 示 。 


虚拟 系统 空间 LGB 


进程 1 的 进程 2 的 进程 N 的 
虚拟 虚拟 虚拟 


用 户 空间 用 户 空间 用 户 空 间 


3GB 3GB 3GB 





图 2.2 进程 虚 存 空间 示意 图 
虽然 系统 空间 占据 了 每 个 虚 存 空间 中 最 高 的 1G 字 节 ， 在 物理 的 内 存 中 却 总 是 从 最 低 的 地 址 (0) 
开始 。 所 以 , 对 于 内 核 来 说 ,其 地 址 的 映射 是 很 简单 的 线性 映射 ， 0xC0000000 就 是 两 者 之 间 的 位 移 量 。 
因此 ， 在 代码 中 将 此 位 移 称 为 PAGE_OFFSET 而 定义 于 文件 page.h F: 


68 /* 

69 * This handles the memory map.. We could make this a config 
70 * option, but too many people screw it up, and too few need 
71 * it. 

72 * 

73 *À PAGE_OFTSET of 0xC0000000 means that the kernel has 
74 * a virtual address space of one gigabyte, which limits the 
75 * amount of physical memory you can use to about 990MB. 

76 * 

77 * If you want more physical memory than this then see the CONFIG HIGHMEM4G 
78 * and CONFIG HIGHMEM64G options in the kernel configuration. 
79 */ 

80 

81  #define PAGE OFFSET (0xC0000000) 

82 

113 

114 #define PAGE OFFSET ((unsigned long) PAGE OFFSET) 

115 define — pa(x) ((unsigned long) (x)-PAGE OFFSET) 
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$205 fts 
116 define | va(x) ((void *) ((unsigned long) (x)+PAGF_OFFSFT) ) 


也 就 是 说 : 对 于 系统 空间 而 言 ， 给 定 一 个 虚 地 址 x， 其 物理 地 址 是 从 x 中 减 去 PAGE OFFSET; 相 
应 地 ， 给 定 … 个 物理 地 址 x， 其 虚 地 址 是 x+ PAGE OFFSET. 
同时 ，PAGE_OFFSET 也 代表 着 用 户 空间 的 上 限 ， 所 以 常数 TASK_SIZE 就 是 通过 它 定义 的 


(processor.h ): 


258 /* 
259 * User space process size: 3GB (default). 
260 */ 


261 #define TASK SIZE (PAGE OFFSET) 


这 是 因为 在 谈论 一 个 用 户 进程 的 大 小 时 ， 并 不 包括 此 进程 在 系统 室 问 中 共享 的 资源 。 

当然 ，CPU 并 不 是 通过 这 时 所 说 的 计算 方法 进行 地 址 映射 的 ， pa( ) 只 是 为 内 核 代 码 中 当 需 要 知 
道 与 一 个 虚 地 三 对 应 的 物理 地 址 时 提供 方 合 。 例 如， 在 切换 进程 的 时 候 此 将 寄存 器 CR3 设置 成 指向 新 
进程 的 页 面 日 录 PGD， 而 该 日 录 的 起 始 地 址 在 内 核 代 码 中 是 虚 地 址 ， 但 CR3 所 需要 的 是 物 埋 地 址 ， 这 
时 候 就 要 用 到 _pa() 了 。 这 行 语句 企 文件 mmu_context.h P: 


43 /* Re-load page tables */ 
44 asm volatile(’movi %0, %%cr3”: :"r^ ( _pa(next—>pgd))): 


这 是 行 汇编 代码 ， 说 的 是 将 next -> pgd， 即 下 一 个 进程 的 页 面目 录 起 始 地 址 ， 通 过 ”pal ) 转 换 
成 物理 地 址 (存放 在 某 个 寄存 器 )， 然 后 用 mov 指令 将 其 写 入 寄存 器 CR3。 经 过 这 条 指令 以 后 ，CR3 
就 指向 新 进程 next 的 页 面目 录 表 PGD T. 

前 面 讲 过 ， 每 个 进程 的 局 部 段 描述 表 LDT 都 作为 一 个 独立 的 段 而 存在 ， 在 全 局 段 描述 表 GDT 中 
要 有 … 个 表 项 指向 这 个 段 的 起 始 地 址 ， 并 说 明 该 段 的 长 度 以 及 其 他 一 些 参数 。 除 此 之 外 ， 每 个 进程 还 
A 个 TSS 结构 《任务 状态 段 ) WAH. CRF TSS 以 后 还 会 加 以 讨论 } 所 以 ， 每 个 进程 都 要 在 全 
局 段 描述 表 GDT 中 占据 两 个 表 项 。 那 么 ，GDT 的 容量 有 多 大 呢 ? 上 段 寄存 器 中 用 作 GDT 表 下 标的 位 段 
RE 13 位 ， 所 以 GDT 中 可 以 有 8192 个 描述 项 。 除 一 些 系统 的 关 销 (例如 GDT 中 的 第 2 项 和 第 3 
项 分 别 用 于 内核 的 代码 段 和 数据 段 ， 第 4 项 和 第 5 项 永远 用 于 当前 进程 的 代码 段 和 数据 段 ， 第 1 项 水 
远 是 0， 等 等 ) 以 外 ， 尚 有 8180 个 表 项 可 供 使 用 ， 所 以 理论 上 系统 中 最 大 的 进程 数量 是 4090. 


2.2 ”地址 映射 的 全 过 程 


Linux 内 核 末 用 负 式 存储 管理 。 虚 拟 地 址 空间 划分 成 问 定 大 小 的 “页 面 ”"， 由 MMU 在 运行 时 将 虑 
拟 地 址 “映射 ”成 或 者 说 变换 成 ) 茶 个 物理 内 存 负 和 面 中 的 地 址 。 与 段 式 存储 管理 柑 比 ， 页 式 存 储 管 
理 有 很 多 好 处 。 首 先 ， 页 面 都 是 固定 大 小 的 ， 便 于 管理 。 赐 重要 的 是 ， 当 要 将 -部 分 物理 空间 的 内 容 
换 出 到 偿 盘 上 的 时 候 ， 在 段 式 存储 管理 中 此 将 整个 段 〈 通 常 都 很 人 ) 都 换 测 ， 而 在 页 式 存储 管理 中 则 
是 按 页 进行 ， 效 率 显然 要 高 得 多 。 页 式 存 储 管理 与 段 式 存 储 管理 所 时 求 的 使 件 支持 不 同 ， -种 CPU 既 
然 支持 页 式 存 储 管理 ， 就 无 需 再 支持 段 式 存储 管理 。 但 是 ， 我 们 让 前 面 讲 过 ，i386 的 情况 是 特殊 的 。 
由 于 1386 系列 的 历史 演变 过 程 ， 它 对 页 式 存 储 管理 的 支持 是 在 其 段 式 存储 管理 已 经 存在 了 相当 长 的 时 
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间 以 后 才 发 展 起 来 的 。 所 以 ， 不 管 程序 是 怎样 写 的 ，i386 CPU 一 律 对 程序 中 使 用 的 地 址 先进 行 段 式 映 
射 ， 然 后 才能 进行 页 式 映射 。 既 然 CPU 的 硬件 结构 是 这 样 ，Linux 内 核 也 只 好 服从 Intel 的 选择 。 这 样 
的 发 重 映射 其 实 是 毫 无 必 划 的 ， 也 使 映射 的 过 程 变 得 不 容易 理解 ， 以 全 有 人 还 得 出 了 Linux XH “ER 
页 式 ” 存 储 管理 技术 这 样 一 种 似是而非 的 结论 。 下 面 读 者 将 会 看 到 ，Linux 内 核 所 采取 的 办 法 是 使 段 式 
映射 的 过 程 实际 上 不 起 什么 作用 【〈 除 特殊 的 VM86 模式 外 ， 那 是 用 来 模拟 80286 的 )。 也 就 是 说 ,“ 你 
有 政策 ， 我 有 对 策 ”， 惹 不 起 就 躲 着 杰 。 本 节 将 通过 一 个 情景 ， 看 看 Linux 内 核 在 i1386 CPU 上 运行 时 
地 址 映射 的 全 过 程 。 这 里 要 指出 ， 这 个 过 程 仅 是 对 0386 处 理 器 而 言 的 。 对 于 其 他 的 处 理 器 ， 比 如 说 
M68K、Power PC 等 ， 就 根本 不 存在 段 式 映射 这 … 层 了 。 反 之 ， 不 管 是 什么 操作 系统 (例如 UNDO, 
只 要 是 在 386 上 实现 ， 就 必须 全 少 在 形式 上 此 先 经 过 段 式 映射 ， 然 后 才 可 以 实现 其 本 上 里 的 设计 。 
假定 我 们 号 了 这 么 一 个 程序 : 


#include <stdio. h> 
greeting( ) 


( 
printf("Hello, would!Wn^); 


greeting( ); 


读者 一 定 很 熟悉 。 这 个 程序 与 大 部 分 人 写 的 第 一 个 C 程序 只 有 一 点 不 同 ， 我 们 故意 让 main ) FH 
greeting( ) 玉 显示 或 打印 “Hello, would! ". 

经 过 编译 以 后 , 我 们 得 到 可 执行 代码 hello。 先 来 看 看 gee 和 ld (编译 和 连接 ) 执行 后 的 结果 。Linux 
有 一 个 实用 程序 objdump 是 非常 有 用 的 ， 可 以 用 来 反 汇编 一 段 二 进 制 代 码 。 通 过 命令 : 

% objdump -d hello 
可 以 得 到 我 们 所 关心 的 那 部 分 结果 ， 输 出 的 片断 〈 反 斗 - 编 的 结果 ) 为 : 


08048568 <greeting>: 

8048568 : 55 pushl %ebp 

8048569: 89 eb mov] %esp, %ebp 

804856b: 68 04 94 04 08 pushl $0x8049404 

8048570: e8 ff fe ff ff call 8048474 < init+0x84> 


8048575: 83 c4 04 add] $0x4, %esp 

8048578: c9 leave 

8048579: c3 ret 

804857a: 89 f6 movi %esi, esi 

0804857c <main>: 

804857c: 55 pushl %ebp 

80485 1d; 89 e5 mov! %esp, %ebp 

804857f: e8 e4 ff ff ff call 8048568 <greeting> 
8048584: c9 leave 

8048585: c3 ret 


34. 


8048586: 90 nop 
8048587: 90 nop 

从 上 列 结果 可 以 看 到 ，ld 给 greeting( ) 分 二 的 地 址 为 0x08048568. TE elf 格式 的 可 执行 代码 中 ，1d 
总 是 从 0x8000000 开始 安排 程序 的 “代码 段 ”， 对 每 个 程序 都 是 这 样 。 至 十 程序 在 执行 时 在 物理 内 存 中 
的 实际 位 置 则 就 要 由 内 核 在 为 其 建立 内 存 映 射 时 临时 作出 安排 ， 具 体 地 址 则 取决 十 当时 所 分 配 到 的 物 
理 内 存 页 面 。 

假定 该 程序 已 经 在 运行 ， 整 个 映射 机 制 都 已 经 建立 好 ， 并且 CPU 正在 执行 main( ) 中 的 “call 
08048568” 这 条 指令 ， 要 转移 到 虚拟 地 址 0x08048568 去 。 接 下 去 就 请 读者 耐 着 性 子 跟随 我 们 一 步 一 步 
地 走 过 这 个 地 址 的 映射 过 程 。 

首先 是 段 式 映射 阶段 。 由 十 地 址 0x08048568 是 一 个 程序 的 入 口 ， 和 更 重 划 的 是 在 执行 的 过 程 中 在 出 
CPU 中 的 “指令 计数 器 ”EIP 所 指向 的 ， 所 以 在 代码 段 中 。 因 此 ，i386 CPU 使 用 代 但 段 寄存 只 CS 的 
当前 值 来 作为 段 式 映射 的 “选择 码 ” 也 就 是 用 它 作为 在 段 描述 表 中 的 下 标 。 哪 一 个 段 描述 表 呢 ? 是 全 
局 段 描述 表 GDT 还 是 局 部 段 描述 表 LDT? 那 就 要 看 CS 中 的 内 容 了 。 先 重 温 一 下 保护 模式 卜 段 寄存 器 
的 格式 ， 见 图 2.3。 


Requested Privileg Level 





Table Indicator, 0=GDT,1=LDT 


图 2.3 上 段 寄 存 器 格式 定义 


也 就 是 说 ， 当 bit2 为 0 时 表示 用 GDT， 为 1 时 表示 用 LDT. Intel 的 设计 意图 是 内 核 用 GDT 而 各 
个 进程 部 用 其 自己 的 LDT。 最 低 两 位 RPL 为 所 要 求 的 特权 级 别 ， 共 分 4 级 ，0 为 最 高 。 

现在 ， 可 以 来 看 看 CS 的 内 容 了 。 内 核 在 建 一 个 进程 时 都 要 将 其 段 寄 存 器 设置 好 (在 进程 管理 一 - 
章 巾 缆 讲 到 这 个 问题 )， 有 关 代 码 在 include/asm-i386/processor.h FP: 


408 Hdefine start thread(regs, new eip, new esp) do { \ 
409 __asm (“movl %0,%%fs ; movl %0,%%gs": :"r^ (0): \ 
410 set fs(USER DS) ; \ 

411 regs->xds = | USER DS; \ 

412 regs->xes = . USER DS; \ 

413 regs-»xss = USER DS; X 

414 regs->xcs = . USER CS; \ 

415 regs Deip = new eip; \ 

416 regs >esp = new esp; \ 


417 } while (0) 


这 里 regs->xds 是 段 寄存 器 DS 的 映 象 ， 余 类 推 。 这 里 已 经 可 以 看 到 -个 有 趣 的 事 ， 就 是 除 CS 被 
设置 成 USER_CS 外 , 其 他 所 有 的 段 寄存 器 都 设置 成 USER_DS.。 这 里 特别 值得 注意 的 是 堆栈 寄存 器 SS, 
它 也 被 设 成 USER_DS。 就 是 说 ， 虽 然 Intel 的 意图 是 将 一 个 进程 的 映 和 象 分 成 代码 段 、 数 据 段 和 上 堆栈 段 ， 
Linux 内 核 却 并 不 买 这 个 账 。 在 Linux 内 核 中 堆栈 段 和 数据 段 是 不 分 的 。 
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再 来 看 看 USER_CS 和 USER_DS 到 底 是 什么 。 那 起 在 include/asm-i386/segment.h 中 定义 的 : 


#define | KERNEL CS 0x10 
#define __KERNEL_DS 0x18 


#define _ USER CS 0x23 
#define . USER DS Ox2B 


oo ~ 0 C a 


也 就 是 说 ，Linux 内 核 中 只 使 用 四 种 不 同 的 段 寄 存 器 数值 ， 两 种 用 于 内 核 本 身 ， 两 种 用 于 所 有 的 
进程 。 现 在 ， 我 们 将 这 四 种 数值 用 二 进 制 展开 并 与 段 寄存 器 的 格式 相对 照 : 








Index TI RPL 
. KERNEL CS 0x10 0000000000010/|0/]|0 0 
.. KERNEL pS 0x18 0000 0000 0001 1]0/|0 0 
__USER_CS 0x23 0000 0000 00:10 0|0/1 1 
.. USER DS 0x2B 00400 0000 0010 1|10|1 t 

一 对 照 就 清楚 了 ， 郝 就 是 ; 

.. KERNEL CS: index = 2, TI = 0, RPL = 0 
.. KERNEL DS: index = 3, TI = 0, RPL = 0 
__USER_ CS: index = 4, TI = 0, RPL = 3 
. USER DS: index - 5, TT = 0, RPL = 3 


首先 ，TI 都 是 0， 也 就 是 说 全 都 使 用 GDT。 这 就 与 Intel 的 设计 意图 不 一 致 了 。 实 际 上 ， 人 在 Linux 
内 核 中 基本 上 不 使 用 局 部 段 描 述 表 LDT. LOT 只 是 在 VM86 模式 中 运行 wine 以 及 其 他 在 Linux 上 模 
拟 运行 Windows 软件 或 DOS 软件 的 程序 中 才 使 用 。 

再 看 RPL， 只 用 了 0 和 3 两 级 ， 内 核 为 0 级 而 用 户 《〈 进 程 ) 为 3 级 。 

回 到 我 们 的 程序 中 。 我 们 的 程序 显然 不 属于 内 核 ， 所 以 在 进程 的 用 户 空间 中 运行 ， 内 核 在 调度 该 
进程 进入 运行 时 ， 把 CS 设置 成 USER_CS， 即 0x23。 所 以 ，CPU 以 4 为 下 标 ， 从 全 局 段 描述 表 GDT 
中 找 对 应 的 段 描 述 项 。 

初始 的 GDT 内 容 是 在 archyi386/kernel/head.S 中 定义 的 ， 其 主要 内 容 在 运行 中 并 不 改变 : 


444 /* 

445 * This contains typically 140 quadwords, depending on NR_CPUS. 

446 * 

447 * NOTE! Make sure the gdt descriptor in head.S matches this if you 

448 * change anything. 

449 */ 

450 ENTRY (gdt table) 

451 . quad 0x0000000000000000 /* NULL descriptor */ 

452 . quad 0x0000000000000000 /* not used */ 

453 . quad 0x00cf9a000000f fff /* 0x10 kernel 4GB code at 0x00000000 */ 
454 .quad 0x00cf92000000f TT £ /* 0x18 kernel 4GB data at 0x00000000 */ 
455 . quad OxO0cffa000000f Ff /* 0x23 user 4GB code at 0x00000000 */ 
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. quad OxOO0cff2000000ffff /* Ox2b user 4GB data at 0x00000000 */ 
.quad 0x0000000000000000  /* not used */ 
. quad 0x0000000000000000 /* not used */ 


GDT 中 的 第 … 项 《下 标 为 0) 是 不 几 的 ， 这 是 为 了 防止 在 加 电 后 段 寄存 器 木 经 初始 化 就 进入 保护 
模式 并 使 用 GDT， 这 也 是 Intel 的 规定 。 第 二 需 也 人 不用。 从 下 标 2 45 共 4 项 对 应 于 前 面 的 山 种 段 寄 存 
器 数值 。 为 便于 对 照 ， 下 和 面 舞 次 给 出 段 描述 项 的 格式 ， 同 时 ， 将 4 个 段 描述 项 的 内 容 按 二 进 制 展开 如 


F: 


K_CS: 0000 0000 1100 1111 1001 1010 0000 0000 0000 0000 0000 0000 1111 1111 1111 1111 
K_DS: 0000 0000 1100 1111 1001 0010 0000 0000 0000 0000 0000 0000 1111 1111 1111 1111 
K CS: 0000 0000 1100 1111 1111 1010 0000 0000 0000 0000 0000 0000 1111 1111 1111 1111 
K DS: 0000 0000 1100 1111 1111 0010 0000 0000 0000 0000 0000 0000 1111 1111 1111 1111 


Wes PUE 2.4 段 描 述 项 的 定义 仔细 对 照 ， 可 以 得 出 如 下 结论 : 
(1) 四 个 段 描 述 项 的 下 列 内 容 都 是 相同 的 。 


e 
e 
e 
e 
e 
从 


结 j 


£ 


因此 


<= 


B0-BI5. B16-B31 都 是 0 ”一 一 此 地 址 全 为 0; 
LO-LIS. L16- L19 都 是 1 一 一 段 的 上 限 全 是 Oxfffff; 
G 位 都 是 1 一 一 段 长 单位 均 为 4KB; 
D 位 都 是 1 一 一 对 四 个 段 的 访问 都 是 32 位 指令 ; 
P 位 都 是 1 一 一 四 个 段 部 在 内 存 。 
: 每 个 段 都 是 从 0 地 址 开始 的 整个 AGB 虚 存 空间 ， 虚 地 址 到 线性 地 址 的 映射 保持 俱 值 不 变 。 


， 讨论 或 理解 Linux 内 核 的 页 式 映射 时 , 可 以 是 接 将 线性 地 址 当 作 虚拟 地 址 ， AEE X. 


(2) 有 区 别 的 地 方 只 是 在 bit40— bit 46， 对 应 于 描述 项 中 的 type 以 及 S 标志 和 DPL 位 段 。 


对 KERNEL CS: DPL=0, Xs 0 级 ; S 位 为 1， 表示 代码 段 或 数据 段 ， type 为 1010, 
表示 代码 段 ， 可 读 ， 可 执行 ， 尚 未 受到 访问 。 

对 KERNEL DS: DPL=0, #7504; S 位 为 1， 表示 代码 段 或 数据 段 ，type 为 0010, 
RBH, WE, WS, MARAE IA. 

XjUSER CS: DPL=3， 表 示 3 级 : $ 位 为 1， 表示 代码 段 或 数据 段 ， type X 1010, Ra 
代码 段 ， 可 读 ， 可 执行 ， 尚 未 受到 访问 。 

对 USER DS: 即 下 标 为 5 时 ，DPL=3， 表 示 3 9; S 位 为 1， 表示 代码 段 或 数据 段 ; type 
为 0010， 表 示 数 据 段 ， 吕 读 ， 吕 写 ， 尚 未 受到 访问 。 


有 区 别 的 其 实 只 有 两 个 地 方 : 一 是 DPL， 内 核 为 最 高 的 0 级 ， 用 户 为 最 低 的 3 W% DAER 
类 型 ， 或 为 代码 ， 或 为 数据 。 这 两 项 都 是 CPU 在 映射 过 程 中 要 加 以 检查 核对 的 。 如 果 DPL 为 0 级 ， 
而 段 寄存 器 CS 中 的 DPL 为 3 级 ， 那 就 不 允许 了 ， 因 为 那 说 明 CPU 的 当前 运用 级 别 比 想 要 访问 的 区 段 
要 低 。 或 者 ， 如 采 段 描述 项 说 是 数据 段 ， 而 程序 中 通过 CS 来 访问 ， 那 也 不 允许 。 实 际 上 ， 这 里 所 作 的 
检查 比 对 在 页 式 映 射 的 过 程 中 还 要 进行 ， 所 以 既然 几 了 页 式 映射 ， 这 里 的 检查 比 对 就 是 多 余 的 。 要 不 
是 1386 CPU 中 的 MMU 要 作 这 样 的 检查 比 对 , 那 就 只 要 个 段 描 述 项 就 够 了 。 进 Ib, 要 个 是 1386 CPU 
中 的 MMU 规定 先 作 段 式 映 射 ， 然 后 才 可 以 作 页 式 映 射 ， 孝 就 根本 不 需 紫 段 描述 项 和 段 寄 存 器 了 。 所 
U, XE Linux 内 核 只 不 过 是 装模作样 地 糊弄 1386 CPU， 对 付 其 检查 比 对 而 已 。 

读者 也 许 会 问 : 如 此 说 来 ， 怀 有 恶意 的 程序 员 沁 不 是 可 以 通过 设置 寄存 器 CS 或 DS， 甚 至 连 这 也 
不 用 ， 就 可 以 打破 1386 的 段 式 保护 机 制 吗 ? FERS, (EARS, Linux 内 核 之 所 以 这 样 安排 ， 原 因 
在 于 它 采 用 的 是 页 式 存 储 管理 ， 这 时 只 不 过 是 在 对 付 本 米 号 嗓 无 必要 却 又 非得 如 此 的 例行公事 而 已 。 
真正 重要 的 是 页 式 映射 阶段 的 保护 机 制 。 
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5655 5251 4847 40 39 3231 16 15 87 0 


ui 
B31-B24 
55 52 
RE 





B23-B16 基地 址 B15-BO BRER L15-LO 





可 由 软件 使 用 ，CPU 忽略 该 位 

永远 为 0 

=1， 表 示 对 该 段 的 访问 为 32 位 指令 ，=0， 为 16 位 指令 
=1， 段 氏 以 4K 字 节 为 单位 =0， 以 字 节 为 单位 
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=1， 已 被 访问 过 


E-0. XER 
ED=0, mbi (HWB): ED=1, M FIE GÉIEBD 
Wz0, Tu uA; Wal, THA 


= 1， 代 码 段 
C=0， 忽 视 特权 级 别 ，C= 1， 依 照 特 权 级 别 
R= 0， 不 能 读 ; R= 1， 可 读 


= 0， 表 示 专 川 于 系统 管理 的 系统 段 ， 如 各 类 描述 表 ; 
= 1， 才 示 一 般 的 代码 段 或 数据 段 。 

特权 级 别 

= 1， 该 段 在 内 存 中 


2.4 段 描述 项 定义 


FALL, Linux 内 核 设 计 的 段 式 映 射 机 制 把 地 址 0x08048568 映射 到 了 其 自身 ， 现 在 作为 线性 地 址 出 
BLT. PRAHA T EARRA Ht. 

与 段 式 映 射 过 程 中 所 有 进程 全 都 共用 一 个 GDT RAF, MET RORBN T, SEP SERERE CB 
身 的 页 面目 录 PGD， 指 向 这 个 目录 的 指针 保持 在 每 个 进程 的 mm struct 数据 结构 中 。 每 当 调 度 一 个 进 
程 进入 运行 的 时 候 , 内 核 都 要 为 即将 运行 的 进程 设 兽 好 控制 寄存 器 CR3, 而 MMU 的 硬件 则 总 是 从 CR3 
中 取得 指向 当前 页 面目 录 的 指针 。 不 过 ，CPU 在 执行 程序 时 使 用 的 是 虚 存 地 址 ， 而 MMU 硬件 在 进行 
映射 时 所 用 的 则 是 物理 地 址 。 这 是 在 inline 函数 switch mm( ) 中 完成 的 ， 其 代码 见 
include/asm-i386/mmu_context.h。 但 是 我 们 在 此 关心 的 只 是 其 中 最 关键 的 一 行 : 


28 static inline void switch mm(struct mm struct *prev, 
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struct mm struct *next, struct task struct *tsk, unsigned cpu) 


E s 9 0 — 5$ 


” 


44 asm volatile("movl %0, %%cr3”: :^r^ (  pa(next—pgd))); 


P LZ 


我 们 以 前 曾 用 这 行 代码 说 明 __pa( ) 的 用 途 , 这 里 将 下 一 个 进程 的 页 面 日 录 POD 的 物理 地 址 装 入 寄 
存 器 免 %cr3， 也 即 CR3。 细 心 的 读者 可 能 会 问 : 这 样 ， 在 这 一 行 以 前 和 以 后 CR3 的 值 不 一 样 ， 也 就 是 
使 用 不 同 的 页 面目 录 ， 不 会 使 程序 的 执行 不 能 连续 了 吧 ? 答案 是 ， 这 是 在 内 核 中。 不 管 什 么 进程 ，…- 
旦 进入 内 核 就 进 了 系统 空间 ， 都 有 相同 的 页 面 映 射 ， 所 以 不 会 有 问题 。 

当 我 们 在 程序 中 要 转移 到 地 址 0X08048568 去 的 时 候 ， 进 程 正 在 运行 中 ， CR3 早已 设置 好 ， 指 向 
我 们 这 个 进程 的 页 面 月 录 了 。 先 将 线性 地 址 0X08048568 按 二 进 制 展开 : 


0000 1000 0000 0100 1000 0101 0110 1000 


对 照 线性 地 址 的 格式 , 可 见 最 高 10 位 为 二 进 制 的 0000100000, 也 就 是 十 进 制 的 32, 所 以 1386 CPU 
(确切 地 说 是 CPU TR MMU, FAD) 就 以 32 为 下 标 去 页 面目 录 中 找到 其 目录 项 。 这 个 目录 项 中 的 高 
20 位 指向 一 个 页 面 表 。CPU 在 这 20 位 后 边 添上 12 个 0 就 得 到 该 页 面 表 的 指针 。 以 前 我 们 讲 过 ， 繁 个 
页 面 表 占 一 个 页 面 ， 所 以 自然 就 是 AK 字 节 边界 对 齐 的 ， 其 起 始 地 址 的 低 12 位 一 定 是 0。 正 因为 如 此 ， 
才 可 以 把 32 位 日 录 项 中 的 低 20 位 挪 作 它 用 ， 其 中 的 最 低位 为 P 标志 位 ， 为 1 RAIA REA 
中 。 

找到 页 面 表 以 后 ，CPU 青 来 看 线性 地 址 中 的 中 间 10 位 。 线 性 地 址 0X08048568 的 第 二 个 10 位 为 
0001001000， 邮 十 进 制 的 72。 十 是 CPU 就 以 此 为 下 标 在 已 经 找到 的 页 表 中 找到 相应 的 表 项 。 与 目录 项 
相似 ， 当 页 面 表 项 的 P 标志 位 为 1 时 表示 所 映射 的 页 面 华 内 存 中 。32 位 的 页 面 表 需 中 的 高 20 位 指向 
一 个 物理 内 存 页 面 ， 在 后 边 添上 12 个 0 就 得 到 这 物理 内 存 页 和 面 的 起 始 地址 。 所 不 同 的 是 ， 这 一 次 指向 
的 不 再 是 一 个 中 间 结 构 ， 而 是 映射 的 日 标 页 而 了 。 在 其 起 始 地 址 上 加 上 线性 地 址 中 的 最 低 12 位 ， 就 得 
到 了 最 终 的 物理 内 存 地 三 。 这 时 这 个 线性 地 址 的 最 低 12 位 为 0x568。 所 以 ， 如 果 日 标 页 面 的 起 始 地 址 
为 0x740000 的 话 〈 有 具体 取决 于 内 核 中 的 动态 分 配 )， 那 么 greeting( ) 入 口 的 物理 地 址 就 是 0x740568, 
greeting ) 的 执行 代码 就 存储 在 这 里 。 

读者 可 能 已 经 注意 到 ， 在 页 面 映 射 的 过 程 中 ，i386 CPU 要 访问 内 存 下 次 。 第 次 是 负面 目录 ， 第 
一 次 是 页 面 表 ， 第 三 次 才 是 访问 真正 的 目标 。 所 以 虚 存 的 高 效 实现 有 赖 于 高 速 缓存 (cache) 的 实现 。 
有 了 高 速 缓存 ， 虽 然 在 第 一 次 用 到 具体 的 页 面目 录 和 页 面 表 时 要 到 内 存 中 去 读 取 ， 但 一 旦 装 入 了 高 速 
缓存 以 后 ，…- 般 都 可 以 在 高 速 缓存 中 找到 ， 而 不 需要 再 到 内 存 中 去 读 取 了 。 吃 一 方面 ， 这 整个 过 程 是 
由 硬件 实现 的 ， 所 以 速度 很 快 。 

除 常 规 的 页 式 映射 之 外 ， 为 了 能 仁 Linux 内 核 上 仿真 运行 采用 段 式 存储 管理 的 Windows 或 DOS 
软件 ， 还 提供 了 两 个 特殊 的 、 与 段 式 存储 管理 有 关 的 系统 调用 。 


2.2.1 modify ldt(int func, void *ptr , unsigned long bytecount) 


这 个 系统 调用 可 以 用 来 改变 当前 进程 的 局 部 段 描 述 表 。 在 自由 软件 基金 会 FSF FE, K Linux 以 
外 还 有 许多 个 项 目 在 进行 。 BA SY “WINE”, 其 名 字 来 自 “Windows Emulation", 月 的 是 在 Linux 
.39. 


Linux 内 核 源 代码 情景 分 析 《〈 上 册 ) 


上 仿真 运行 Windows 的 软件 。 多 年 来 ,有 些 Windows 软件 已 经 广泛 地 为 人 们 所 接受 和 熟悉 (如 MS Word 
Æ), WE Linux 上 没有 相同 的 软件 往往 成 了 许多 人 不 记 意 转向 Linux 的 原因 。 所 以 ， 在 Linux 上 建立 
一 个 环境 ， 使 得 用 户 可 以 在 上 面 运行 Windows 的 软件 ， 就 成 了 一 个 开拓 市 场 的 举措 。 向 系统 调用 
modify_ldt( ) 就 症 因 开发 WINE 的 需要 而 设置 的 。 当 func 参数 的 值 为 0 时 , 该 调用 返 四 本 进程 局 部 段 描 
述 表 的 实际 大 小 ， 而 表 的 内 容 就 在 用 户 通 过 ptr 提供 的 缓冲 区 中 。 当 fune 参数 的 值 为 1 时 ，ptr 应 指向 
个 结构 modify ldt ldt s. ifj bytecount 则 为 sizeof(struct modify_ldt_ldt_s)。 该 数据 结构 的 定义 见于 


include/asm-i386/ldt.h: 


15 struct modify_ldt_idt_s { 


16 unsigned int entry number; 

17 unsigned long base addr; 

18 unsigned int limit; 

19 unsigned int seg 32bit:l; 

20 unsigned int contents:2; 

21 unsigned int read exec only:1; 
22 unsigned int limit in pages:l; 
23 unsigned int seg not present:l; 
24 unsigned int useable:1; 

25. 14 


其 中 entry. number 是 想 要 改变 的 表 项 的 序号 ， 即 下 标 。 而 结构 中 其 余 的 成 分 则 给 出 要 设置 到 各 个 
位 段 中 去 的 值 。 

读者 可 能 会 要 问 ， 这 样 岂 不 是 在 内 存 管理 机 制 上 挖 了 个 洞 ? 既然 个 进程 可 以 改变 它 的 局 部 段 描 
述 表 ， 它 岂 不 就 可 设法 侵犯 到 其 他 进程 或 内 核 的 空间 中 去 ? 这 要 从 两 方面 来 看 。 一 方面 它 确实 是 在 内 
存 管 理 机 制 上 开 了 一 个 小 小 的 缺口 ， 但 另 “方面 它 的 背后 仍然 是 Linux 内 核 的 页 式 存储 管理 ， 只 要 不 
让 用 户 进 程 掌握 修改 页 而 日 录 和 页 和 面 表 的 手段 ， 系 统 就 还 是 安全 的 。 


2.2.2 vm86(struct vm86 struct  *info) 


5 modify_ldt( ) 相 类 似 , 还 有 一 个 系统 调用 vm86( ), 用 来 在 linux 上 模拟 运行 DOS 软件 。i386 CPU 
专门 提供 了 一 种 寻 址 方式 VM86， 用 来 在 保护 模式 下 模拟 运行 实 址 模式 〈real-mode) 的 软件 。 其 目的 
是 为 采用 保护 模式 的 系统 《如 Windows, OS/2 等 ) 提供 与 实 模式 软件 (常常 是 DOS 软件) 的 兼容 性 。 
事 到 如今， 党 要 加 以 模拟 运行 DOS 软件 已 经 很 少 了 ,或 者 干脆 已 经 绝迹 了 。 所 以 本 书 在 80386 的 寺 址 
方式 节 中 略 去 了 VM86 模式 的 内 容 ， 有 兴趣 的 读者 可 以 参照 Intel 的 技术 资料 ， 自 行 阅读 内 核 中 有 关 
的 源 代 码 ， 主 要 有 include/asm-i386/vm86.h 和 arch/i386/kemel/vm86.c。 

显然 ， 这 两 个 系统 调用 以 及 由 此 实现 的 功能 实际 上 并 不 属于 Linux. 内 核 本 身 的 存储 管理 框架 ， 而 
是 为 了 与 Windows 软件 和 DOS 软件 兼容 而 采取 的 权宜 之 计 。 


23 JUN € €V E 25 Mya v c 


从 硬件 的 角度 来 说 ，Linux Wy RSE BE MEE A SF A Eo PGD, KHK PT PLC S BUYERS 
GDT 和 和 局 部 段 描述 表 LDT， 放 正确 地 设置 有 关 的 寄存 器 ， 就 完成 了 内 在 管理 机 制 中 地 址 映射 部 分 的 准 
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备 工 作 。 昌 然 最 终 的 日 的 是 地 址 映射 ， 但 是 实际 上 内 核 所 需要 做 的 管理 工作 却 要 复杂 得 多 。 企 与 内 存 
管理 有 关 的 内 核 代 码 中 ， 有 几 个 数据 结构 是 很 重 要 的 ， 这 些 数据 结构 及 其 使 用 构成 了 代码 中 内 企管 理 
的 基本 框架 。 

负面 目录 PGD, tH Hak PMD AREK PT 分 别 是 出 表 项 pgd_t. pmd_t 以 及 pte_t 构成 的 数组 ， 
而 这 些 表 项 又 都 是 数据 结构 ， 定 义 十 include/asm-i386/page.h F: 


36 /* 
37 * These are used to make use of C type-checking... 
38 */ 


39 #if CONFIG X86 PAE 

40 typedef struct { unsigned long pte low, pte high; ) pte t; 
41 typedef struct { unsigned long long pmd; } pmd t; 

42 typedef struct { unsigned long long pgd; } pgd t; 

43 &define pte val(x) ({x).ptc_low | ((unsigned long long) (x).pte high << 32)) 
44 Helse 

45 typedef struct { unsigned long pte low; } pte t; 

46 typedef struct { unsigned long pmd; } pmd t; 

47 typedef struct { unsigned long pgd; } pgd t; 

48 define pte val (x) (GO. pte low) 

49 endi f 

50 define PTE MASK PAGE MASK 


可 见 ， 当 采用 32 位 地 址 时 ，pgd_t、pmd_t 和 pte t 实际 上 就 是 长 整数 ， 而 当 采 用 36 位 地 址 时 则 是 
long long 整数 。 之 所 以 不 直接 定义 成 长 整数 的 原因 在 于 这 样 可 以 让 gec 在 编译 时 加 以 更 严格 的 类 型 检 
查 。 同 时 ， 代 码 中 又 定义 了 几 个 简单 的 函数 来 访问 这 些 结构 的 成 分 ， 如 pte_val( )、pgd_val( ) 等 (难怪 
有 人 说 Linux 内 核 的 代码 吸收 了 而 向 对 象 的 程序 设计 手法 )。 但 是 ， 如 我 们 以 前 说 过 的 那样 ， 表 项 PTE 
作为 指针 实际 上 只 需要 它 的 高 20 位 。 同 时 ， 所 有 的 物理 页 面 者 是 跟 AK 字 节 的 边界 对 齐 的 ， 因 而 物理 
页 面 起 始 地 址 的 高 20 位 又 可 以 看 作 是 物理 页 面 的 序号 。 所 以 ，pte_( 中 的 低 12 位 用 于 页 面 的 状态 信息 
和 访问 权限 。 在 内 核 代 码 中 并 没有 在 pte t 等 结构 中 定义 有 关 的 位 段 ， 而 是 在 page.h 中 另行 定义 了 一 个 
FAR ERA ORE PRE 9 EJ pgprot_t: 


52 typedef struct { unsigned long pgprot; } pgprot t; 


参数 pgprof 的 值 与 386 MMU 的 页 面 表 项 的 低 12 位 相对 应 ， 其 中 9 位 是 标志 位 , 表示 所 映射 页 面 
的 当前 状态 和 访问 权限 〈 详 见 第 1 章 )。 内 核 代 码 中 作 了 相应 的 定义 〈include/asm-i386/pgtable.h): 


148 Hdefine PAGE PRESENT 0x001 
149 define PAGE RW 0x002 
150 #define PAGE USER 0x004 
151 #define PAGE DPWT 0x008 
152 #define PAGE PCD 0x010 
153 #define PAGE ACCESSED 0x020 
154 #define PAGE DIRTY 0x040 
155 #define PAGE PSE 0x080 /* 4 MB (or 2MB) page, 


Pentium+, if present.. */ 
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156 Hdefine PAGE GLOBAL 0x100 /* Global TLB entry PPro* */ 
157 
158 define PAGE PROTNONE 0x080 /* If not present */ 


注意 这 里 的 _PAGE_PROTNONE 对 应 于 页 面 表 项 中 的 bit7， 在 Intel 的 手册 中 说 这 -位 保留 不用， 
所 以 对 MMU 不 起 作用 。 

在 实际 使 用 中 ，pgprot 的 数值 总 是 小 于 0x1000， 而 pte 中 的 指针 部 分 则 总 是 大 于 0x1000， 将 二 者 
合 在 一 起 就 得 到 实际 用 于 页 而 表 中 的 表 项 。 有 具体 的 计算 是 由 pgtable.h 中 定义 的 宏 操 作 mk. pte 完成 的 : 


61 &define | mk pte(page nr, pgprot) V 
. pte(((page nr) << PAGE SIIITT) | pgprot val(pgprot)) 


这 里 将 页 面 序号 左 移 12 位 ， 再 与 奥 面 的 控制 /状况 位 段 相 或 ， 就 得 到 了 表 项 的 值 。 这 里 引用 的 两 
个 宏 操 作 均 定义 于 include/asm-i386/page.h Y: 


56 #define pgprot val(x)  ((x). pgprot) 
58  #define __pte(x) ((pte t) { (x) } ) 


内 核 中 有 个 全 局 量 mem_map， 是 一 个 指针 ， 指 向 一 个 page 数据 结构 的 数组 〈 下面 会 讨论 page 结 
MK. f+ page 数据 结构 代表 着 一 个 物理 页 面 ， 整 个 数组 就 代表 着 系统 中 的 全 部 物理 页 面 。 因 此 ， 页 
面 表 项 的 高 20 位 对 于 软件 和 MMU 硬件 有 着 不 同 的 意义 。 对 于 软件 ， 这 是 一 个 物理 页 而 的 序号 ， 将 这 
个 序号 用 作 下 标 就 可 以 从 mem_map 找到 代表 这 个 物理 页 面 的 page 数据 结构 。 对 于 使 件 ， 则 《在 低位 
补 上 12 个 0 后 ) 就 是 物理 页 面 的 起 始 地 址 。 

还 有 一 个 常用 的 宏 操 作 set_pte( )， 用 来 把 一 个 表 项 的 值 设 置 到 “个 碳 钾 表 项 中 ， 这 个 宏 操 作 定 义 
于 include/asm-i386/pgtable-2level.h 中 : 


42 #define set pte(pteptr, pteval) (*(pteptr) = pteval) 


在 映射 的 过 程 中 ，MMU 首先 检查 的 是 P 慰 志 位 ,就 是 上 面 的 _ PAGE_PRESENT， 它 指示 者 所 映射 
的 页 面 是 否 人 在 内 存 中 。 只 有 企 P 标志 位 为 1 的 时 候 MMU 才 会 完成 映射 的 全 过 程 ， 否 则 就 会 因 不 能 完 
成 映射 而 产生 - 次 缺 页 异常 ， 此 时 去 项 中 的 其 他 内 容 对 MMU 就 没有 什 何 意义 了 。 除 MMU 硬件 根据 
页 面 表 项 的 内 容 进 行 页 面 映射 外 ， 软 件 也 可 以 设置 或 检测 页 面 表 项 的 内 容 ， 上 面 的 set_pte( ) 就 是 用 米 
设置 页 面 表 项 。 内 核 中 还 为 检测 负面 表 项 的 内 容 定义 了 一 些 工 具 性 的 药 数 或 宏 操 作 ， 其 中 最 重要 的 有 : 


60 Hdefine pte_none (x) (! (x). pte low) 
248 #define pte_present(x) ((x).pte_low & ( PAGE PRESENT | PAGE PROTNONE) ) 


TAREE, HARMA 0 AAR AIA SE CREAN TET) 建立 映射 ， 所 以 还 是 空白 ; 
而 如 果 负 面 家 项 不 为 0, 但 P 标 志 位 为 0, 则 表示 映射 已 经 建立 ,但 是 所 瑞 射 的 物理 页 面 不 在 内 存 中 (已 
经 换 出 到 交换 设备 上 ， 详 见 后 面 的 页 面 交 换 )。 
269 static inline int pte diriy(pte t pte) \ 
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{ return (pte). pte low & PAGE DIRTY; } 
210 static inline int pte young(pte t pte) \ 

{ return (pte). pte low & PAGE ACCESSED; } 
271 static inline int pte_write(pte_t pte) \ 

{ return (pte). pte low & PAGE RW; } 


当然 ， 这 些 标志 位 只 有 在 卫 标 志 位 为 ! 时 才 有 意义 。 

如 前 所 述 ， 当 页 面 表 项 的 P 标志 位 为 1 时 ， 其 高 20 位 为 相应 物理 页 面 起 始 地 址 的 高 20 位 ， 由 于 
物理 宙 面 的 起 始 地 址 必然 是 与 页 面 边 界 对 齐 的 ， 所 以 低 12 位 一 定 是 0。 如果 把 整个 物理 内 存 看 成 “个 
物理 页 面 的 “数组 ”， 于 么 这 高 20 [p CAB 12 位 以 后 ) 就是 数组 的 下 标 ， 也 就 是 物理 页 和 面 的 序号 。 相 
应 地 ， 用 这 个 下 标 ， 就 可 以 在 上 述 的 page 结构 数组 中 找到 代表 目标 物理 负面 的 数据 结构 。 代 伺 中 为 此 
也 定义 了 一 个 宏 操 作 (include/asm-i386/pgtable.h): 


59 #define pte page(x) \ 
(mem map*((unsigned long) ((GO.pte low >> PAGE SHIFT)))) 


由 于 mem map 是 page 结构 指针 , 操作 的 结果 也 是 个 page 结构 指针 , mem_map+x ^; &mem maplx] 
是 一 样 的 。 在 内 核 的 代码 中 ， 还 常常 需要 根据 虚 存 地 址 找到 相应 物理 页 面 的 page 数据 结构 ， 所 以 还 为 
此 也 定义 了 一 个 宏 操 作 (include/asm-i386/page.h): 


117 Hdefine virt to page(kaddr) (mem map + ( pa(kaddr) >> PAGE SHIFT)) 


代表 物理 页 面 的 page 数据 结构 是 在 文件 include/linux/mm.h 中 定义 的 : 


126 /* 
127 * Try to keep the most commonly accessed fields in single cache lines 
128 * here (16 bytes or greater). This ordering should be particularly 
129 * beneficial on 32-bit processors. 
130 * 
131 * The first line is dala used in page cache lookup, the second line 
132 * is used for lincar searches (eg. clock algorithm scans). 
133 */ 
134 typedef struct page { 
135 struct list head list; 
136 struct address space *mapping; 
137 unsigned long index; 
138 struct page *next hash; 
139 atomic t count; 
140 unsigned long flags; /* atomic flags, 
some possibly updated asynchronously */ 
141 struct list head lru; 
142 unsigned long age; 
143 wait queue head t wait; 
144 struct page "**pprev hash; 
145 struct buffer head * buffers; 
146 void *virtual; /* non-NULL if kmapped */ 
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147 struct zone struct *zone; 
148 ) mem map t; 


内 核 中 用 米 表 示 这 个 数据 结构 的 变量 名 常常 是 page BK map. 

当 页 面 的 内 容 来 白 一 个 文件 时 ，index 代表 着 该 页 面 在 文件 中 的 序号 ， 当 页 面 的 内 容 被 换 出 到 交换 
设备 上 、 但 还 保留 着 内 容 作为 缓冲 时 , 则 index 指明 了 页 面 的 去 向 。 结构 中 各 个 成 分 的 次 序 基 有 讲究 的 ， 
日 的 是 尽量 使 得 联系 紧密 的 若干 成 分 在 执行 时 被 装填 入 高 速 缓存 的 同一 缓冲 线 (16 个 字 节 ) (m. 

系统 中 的 每 一 个 物理 页 而 都 有 一 个 page 结构 〈 或 mem_map_t)。 系 统 在 初始 化 时 根据 物理 内 在 的 
大 小 建立 起 一 个 page 结构 数组 mem_map， 作 为 物理 页 面 的 “仓库 ”， 里 而 的 每 个 page 数据 结构 都 代 
表 着 系统 中 的 一 个 物理 页 面 。 每 个 物理 页 面 的 page 结构 在 这 个 数组 里 的 下 标 就 是 该 物理 页 面 的 序号 。 
“仓库 ”里 的 物理 页 面 划 分 成 ZONE_DMA 和 ZONE NORMAL 两 个 管理 多 (根据 系统 配置 ， 还 串 能 
有 第 三 个 管理 区 ZONE_HIGHMEM， 用 于 物理 地 址 超过 1GB 的 存储 空间 )。 

管理 区 ZONE_DMA 里 的 页 面 是 专 供 DMA 使 用 的 。 为 什么 供 DMA 使 用 的 页 面 要 单独 加 以 管理 
Ye? 首先 ，DMA SEEN Rett VO 所 必需 的 ， 如 果 把 仓库 中 所 有 的 物理 页 面 都 分 配 光 了 ， 那 就 无 
法 进行 页 面 与 盘 区 的 交换 了 。 此 外 ， 还 有 些 特殊 的 原因 。 在 i386 CPU 中 ， 页 式 存 储 管理 的 硬件 支持 是 
在 CPU 内 部 实现 的 , 而 不 像 男 有 些 CPU 那样 由 一 个 单独 的 MMU 提供 , 所 以 DMA 不 经 过 MMU 提供 
的 地 址 喘 射 。 这 样 ， 外 部 设备 就 要 直接 提供 访问 物理 页 面 的 地 址 ， 可 是 有 些 外 设 〈 特 别 是 插 在 ISA 总 
线 上 的 外 设 接 山 卡 ) 在 这 方面 往往 有 些 限制 ， 要 求 用 十 DMA 的 物理 地 址 不 能 过 高 。 另 一 方面 ， 正 因 
为 DMA 不 经 过 MMU 提供 的 地 址 映射 ， 当 DMA 所 需 的 缓冲 区 超过 一 个 物理 页 面 的 大 小 时 ,就 要 求 两 
个 页 面 在 物理 上 连续 ， 因 为 此 时 DMA 控制 器 不 能 依靠 在 CPU 内 部 的 MMU 将 连续 的 虚 存 页 面 映射 到 
物理 上 不 连续 的 页 面 。 所 以 ， 用 十 DMA 的 物理 抽 面 是 要 单独 加 以 管理 的 。 

每 个 管理 区 都 有 -一 个 数据 结构 ， 即 zone_struct 数据 结构 。 人 在 zone_struct 数据 结构 中 有 一 组 “空闲 
区 间 ”(free_area_t) 队列 。 为 什么 是 “一 组 ”队列 ， 而 不 是 “ 1D” SINE? 这 也 是 因为 常常 需要 成 

“ 抉 ” 地 分 配 在 物理 空间 内 连续 的 多 个 页 面 ， 所 以 要 按 块 的 大 小 分 别 加 以 管理 。 因 此 ， 在 管理 区 数据 
结构 中 既 要 有 一 个 队列 来 保持 HBR (连续 长 度 为 1) 的 物理 页 面 ， 还 要 有 -一 个 队列 来 保持 一 些 连续 
长 度 为 2 的 页 面 块 以 及 连续 长 度 为 4、8、16、…、 直 至 2MAX-ORDER 的 页 面 块 。 常 数 MAX_ORDER 定 
义 为 10， 也 就 是 说 最 大 的 连续 页 面 抉 可 以 达到 221024 个 页 面 ， 即 4M 字 节 。 这 两 个 数据 结构 以 及 几 
个 常数 都 是 在 文件 include/linux/mmzone.h 中 定义 的 ; 


11 /* 

12 * Free memory management ~ zoned buddy allocator. 
13 */ 

14 

15 define MAX ORDER 10 

16 

17 typedef struct free area struct | 
18 struct list head free list; 
19 unsigned int *map; 

20 ] free area t; 

21 

22 siruct pglist data; 

23 


24 typedef struct zone struct | 
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25 /* 

26 * Commonly accessed fields: 

27 */ 

28 spinlock t lock; 

29 unsigned long offset; 

30 unsigned long free pages; 

31 unsigned long inactive clean pages; 
32 unsigned long inactive dirty pages; 
33 unsigned long pages min, pages low, pages high; 
34 

35 /* 

36 * free areas of different sizes 

37 */ 

38 struct list head inactive clean list; 
39 free area t free area[MAX ORDER]; 
40 

Al /* 

42 * rarely used fields: 

43 */ 

44 char *name; 

45 unsigned long size; 

46 f* 

47 * Discontig memory support fields. 

48 */ 

49 struct pglist data *zone pgdat; 

50 unsigned long zone start paddr; 

5l unsigned long zone start mapnr; 

02 struct page *zone mem map; 

53 ) zone t; 

54 


05 #define ZONE DMÁ 

56 #define ZONE NORMAL. 

51 #define ZONE HIGHMEM 
58 define MAX NR ZONES 


w P2 — © 


管理 区 结构 中 的 offset 表 术 该 分 区 在 mem. map 中 的 起 始 页 面 号 。-- 日 建立 起 了 管理 区 ， 竺 个 物理 
”六 面 使 水 久 地 属 丁 某 个 管理 区 ， 具 体 取 决 丁 页 面 的 起 始 地 址 ， 就 好 像 幢 建 筑 物 属 十 哪 一 个 派出 所 
管辖 取决 于 其 地 址 - 样 。 空 间 区 free_area_struct 结构 小 用 来 维持 双向 链 队 列 的 结构 list head i£ 个 通 
用 的 数据 结构 ，linux 内 核 中 需要 使 用 双向 链 队 列 的 地 方 都 使 用 这 种 数据 结构 。 结 爸 很 简单 ， 就 是 prev 
和 next 两 个 指针 。 回 到 上 面 的 page 结构 , 其 中 的 第 一 个 成 分 就 是 个 list head 结构 , WEE MUG) page 
结构 止 是 通过 它 进入 free_area_struct 结 梅 中 的 双向 链 队 列 的 。 在 “物理 页 面 的 分 配 ” - 节 中 ,我们 将 
讲述 内 核 怎样 从 它 的 仓库 中 分 配 “ 抉 物 理 衬 间 ， 即 若 十 连续 的 物 埋 页 面 。 

在 传统 的 计算 机 结构 中 ， 整 个 物理 补 间 玫 是 均匀 E. CPU 访问 这 个 空间 中 的 任何 一 个 地 址 所 
需 的 时 间 孝 相同， 所 以 称 为 “ 均 质 存储 结构 ”(Uniform Memory Architecture), 简称 UMA. IÆ, > 
些 新 的 系统 结构 中 ， 特 别 是 在 多 CPU 结构 的 系统 中 ， 物 埋 存 储 字 间 在 这 方 抽 的 “化 性 基 成 了 问题 。 试 
想 有 这 么 -一 种 系统 结构 : 
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e 系统 的 中 心 是 一 条 总 线 ， 例 如 PCI 总 线 。 

e FES CPU 模块 连接 在 系统 总 线 上 ， 每 个 CPU 模块 都 有 本 地 的 物理 内 存 ， 但 是 也 可 以 通过 

系统 总 线 访问 其 他 CPU 模块 上 的 内 存 。 

© 系统 必 线 上 还 连接 着 一 个 公用 的 存储 模 岂 ， 所 有 的 CPU 模块 者 可 以 道 过 系统 总 线 来 访问 它 。 

和 ”所 有 这 些 物理 内 存 的 地 址 互相 连续 而 形成 一 个 连续 的 物理 地 址 空间 。 

显然 ， 就 某 个 特定 的 CPU 而 言 ， 访 问 其 本 地 的 存储 器 是 速度 最 快 的 ， 而 穿 过 系统 总 线 访问 公用 存 
储 模 块 或 其 他 CPU 模块 上 的 存储 器 就 比较 慢 , 而 且 还 面临 因 可 能 的 竞争 而 引起 的 不 确定 性 。 也 就 是 说 ， 
在 这 样 的 系统 中 ， 其 物理 存储 空间 虽然 地 址 连续 ,“ 质 地 ” 却 不 - 致 ， 所 以 称 为 “ 非 均 质 存 储 结构 ” 
(Non-Uniform Memory Architecture)， 简 称 NUMA. 在 NUMA 结构 的 系统 中 , 分 配 连 续 的 若干 物理 页 面 
时 一 般 都 此 求 分 配 在 质地 相同 的 区 间 〈 称 为 node， 即 “节点 汶 。 举 例 来 说 ， 要 是 CPU 模块 1 要 求 分 本 
4 个 物理 页 面 , 可 是 由 于 本 模块 上 的 空间 已 经 不 够 ， 所 以 前 3 个 页 面 分 配 在 本 模块 上 , 而 最 后 个 页 面 
却 分 配 到 了 CPU 模块 2 上 ， 那 显然 是 不 合适 的 。 在 这 样 的 情况 下 ， 将 4 个 页 面 都 分 配 在 公用 模块 上 显 
然 要 好 得 多 。 

事实 上 ， 严 格 意义 上 的 UMA 结构 几乎 是 不 存在 的 。 就 拿 配置 最 简单 的 单 CPU 的 PC 来 说 ， 其 物 
理 存 储 空间 就 包括 了 RAM. ROM (用 于 BIOS), 还 有 图 形 卡 上 的 静态 RAM。 但 是 在 UMA 结构 中 ， 
ER "XE" RAM 以 外 的 存储 器 都 很 小 ， 所 以 把 它们 放 在 特殊 的 地 址 上 成 为 小 小 的 “孤岛 "， 再 在 编程 
时 特别 加 以 注意 就 可 以 了 。 然 而 ， 人 在 典型 的 NUMA 结构 中 就 需要 来 自 内 核 中 内 存 管理 机 制 的 支持 了 。 
由 于 多 处 理 器 结构 的 系统 日 益 广 泛 的 应 用 , Linux 内 核 2.4.0 版 提供 了 对 NUMA 的 支持 (作为 一 个 编译 
可 选项 )。 

由 于 NUMA 结构 的 引入 ， 对 于 .上述 的 物理 页 面 管理 机 制 也 作 了 相应 的 修 止 。 管 理 区 不 青 是 属于 最 
高 层 的 机 构 ， 击 是 在 每 个 存储 节点 中 都 有 至 少 两 个 管理 区 。 而 且 前 述 的 page 结构 数组 也 不 再 是 全 局 性 
的 ， 而 是 从 属 十 具体 的 节点 了 。 从 而 ， 在 zone struct 结构 (以 及 page 结构 数组 ) 之 上 又 有 了 另 一 层 代 
表 着 存储 节点 的 pglist_data 数据 结构 ， 定 义 于 include/linux/mmzone.h F: 


79 typedef struct pglist data { 


80 zone t node zones[MAX NR ZONES]: 

81 zonelist t node zonelists[NR GFPINDEX]; 
82 struct page *node mem map; 

83 unsigned long *valid addr bitmap; 

84 struct bootmem data *hdata; 

85 unsigned long node start paddr; 

86 unsigned long node start mapnr; 

87 unsigned long node size; 

88 int node id; 

89 struct pglist data *node next; 


90 ) pg data t; 


显然 ， 若 十 存储 节点 的 pglist data 数据 结构 可 以 通过 指针 node, next 形成 一 个 单 链 队列 。 每 个 结构 
中 的 指针 node mem map 指向 具体 节点 的 page 结构 数组 ， 而 数组 node_zones[ ] 就 是 该 节点 的 最 多 三 个 
页 面 管理 区 。 肥 过 米 ， 在 zone struct 结构 路 也 有 :个 指针 zone_pgdat， 指 向 所 属 -节点 的 pglist_data 数 
据 结 构 。 

同时 ， 又 在 pglist_data 结构 里 设置 了 一 个 数组 node_zonelists[ ]， 其 类 型 定义 也 在 同一 闵 件 中 : 
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71 typedef struct zonelist struct | 

72 zone t * zones [MAX NR ZONES4-1]; // NULL delimited 
73 int gfp mask; 

14 ] zonelist t; 


这 里 的 zones[ ] 是 个 指针 数组 ， 各 个 元 素 按 特定 的 次 序 指向 具体 的 页 面 管理 区 ， 表示 分 配 页 面 时 先 
试 zonesf0] 所 指向 的 管理 区 ， 如 不 能 满足 要 求 就 试 zonesl1] 所 指向 的 管理 区 ， 等 等 。 这 些 管理 区 可 以 属 
于 不 同 的 存储 节点 。 这 样 ,针对 上面 所 举 的 例子 就 可 以 规定 : 先 斌 本 节点 , 即 CPU 模块 1 的 ZONE_DMA 
OUR, AME 4 个 页 面 就 全 部 从 公用 模块 的 ZONE, DMA 管理 区 中 分 配 。 就 是 说 ， 每 个 zonelist_t 规 
ET -种 分 配 策略 。 然 而 ， 每 个 存储 节点 不 应 该 只 有 -种 分 配 策 略 ， 所 以 证 pglist data 结构 中 提供 的 
是 一 个 zonelist t 数组 ， 数 组 的 大 小 为 NR_GFPINDEX， 定 义 为 : 


76 #define NR GFPINDEX 0x100 
就 是 说 ， 最 多 可 以 规定 100 种 不 同 的 策略 。 要 求 分 配 负 面 时 ， 此 说 明 采 用 哪 一 种 分 配 策略 。 


前 面 几 个 数据 结构 都 是 用 十 物理 空间 管理 的 ， 现 在 来 看 看 虚拟 空间 的 管理 ， 也 就 是 虚 存 页 面 的 管 
理 。 虚 存 空 间 的 管理 不 像 物 理 空 间 的 管理 那样 有 - -个 总 的 物理 页 面 仓 库 ， 而 是 以 进程 为 基础 的 ， 每 个 
进程 都 有 各 自 的 虚 存 〈 用 户 ) 空间 。 不 过 ， 如 前 所 述 ， 每 个 进程 的 “系统 空间 ”是 统一 为 所 有 进程 所 
共享 的 。 以 后 我 们 对 进程 的 “ 虚 存 空间 ”和 “用 户 空 间 ” 这 两 个 词 常常 会 不 加 区 分 。 

如 果 说 物理 空间 是 从 “ 供 ” 的 角度 来 答 理 的 ， 也 就 是 :“ 仓 库 中 还 有 些 什 么 ” 则 虚 企 空间 的 管理 
是 从 “ 需 ” 的 角度 来 管理 的 ， 就是“ 我们 需 旧 用 虚 存 空间 中 的 哪些 部 分 ”。 拿 虚 存 空间 中 的 “用 户 空 间 ” 
部 分 来 说 ， 大 概 没 有 “个 进程 会 真 的 需要 使 用 全 部 的 3G 字 节 的 空间 。 同时， 个 进程 所 需 娄 使 用 的 虚 
存 空间 中 的 各 个 部 位 又 未 必 是 连续 的 ， 通 常 形成 若 十 离散 的 虚 存 “区 间 ”。 很 自然 地 ， 对 虎 存 区 和 的 抽 
Sk 个 重要 的 数据 结构 ,在 Linux 内 核 中 ,这 就 是 vm_area_struct 数据 结构 , 定义 于 include/linux/mm.h 
m: 


35 /* 

36 * This struct defines a memory VMM memory area. There is one of these 

37 * per VM-area/task. A VM area is any part of the process virtual memory 
38 * space that has a special rule for the page-fault handlers (ie a shared 
39 * library, the executable area etc). 

40 */ 

41 struct vm area struct | 

42 struct mm struct * vm mm; /* VM area parameters */ 

43 unsigned long vm start; 

44 unsigned long vm end; 

45 

46 /* linked list of VM areas per task, sorted by address */ 

47 struct vm area struct *vm noxt; 

48 

49 pgprot t vm page prot; 

50 unsigned long vm flags; 

51 
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52 /* AVL tree of VM areas per task, sorted by address */ 

53 short vm avl height; 

54 struct vm area struct * vm avl left; 

55 struct vm area struct * vm avl right; 

56 

57 /* For areas with an address space and backing store, 

58 * one of the address space-^i mmapi, shared} lists, 

59 * for shm areas, the list of attaches, otherwise unused. 

60 */ 

61 struct vm area struct *vm next share; 

:62 struct vm area struct **vm pprev sharo; 

63 

64 struct vm operations struct * vm ops; 

65 unsigned long vm pgoff; /* offset in PAGE SIZE units, 
*not* PAGE CACHE SIZE */ 

66 struct file * vm file; 

67 unsigned long vm raend; 

68 void * vm private data; /* was vm pte (shared mem) */ 

6 }; 


住 内 核 的 代码 中 ， 用 于 这 个 数据 结构 的 变量 名 常常 是 vma。 

结构 中 的 vm, start 和 vm end WE T -ABER vmstat 是 包含 在 区 间 内 的 ，J vm end 则 不 
包含 在 区 间 内 。 区 间 的 划分 并 不 仅仅 取决 于 地 址 的 连续 性 ， 也 取决 于 区 间 的 其 他 属性 ， 主 此 是 对 虚 存 
页 面 的 访问 权限 。 如 果 个 地 址 范围 内 的 前 一 半 页 面 和 后 一 半 页 面 有 不 同 的 访问 权限 或 其 他 属性 ， 就 
得 要 分 成 两 个 区 间 。 所 以 ， 包含 全 同一 个 区 间 插 的 所 有 页 面 都 应 有 相同 的 访问 权限 (或 者 说 保护 属性 ) 
和 其 他 一 些 属性 ， 这 就 是 结构 中 的 成 分 vm page. prot 利 vm flags WHR. BER 个 进程 的 所 有 区 间 
都 要 按 庶 存 地 址 的 高 低 次 序 链接 在 起， 结构 中 的 vm next 指针 就 是 用 十 这 个 月 的 。Hi 于 区 间 的 划分 
并 个 仅 仪 取决 于 地 址 的 连续 性 ， :个 进程 的 碟 存 《用 户 〉 空 间 很 可 能 会 被 划分 成 大 量 的 区 间 。 内 核 中 
给 定 一 个 虚拟 地 址 而 要 找 出 其 所 属 的 区 间 是 -个 频繁 用 到 的 操作 ， 如 果 人 每 次 都 要 顺 着 vm. next 在 链 中 
作 线 性 搜索 的 话 ， 势 必 会 显 昔 地 影响 到 内 核 的 和 效率。 所 以 ， 除 了 通过 vm next 指针 把 所 有 区 间 中 成 一 
个 线性 队列 以 外 ， 还 可 以 在 区 问 数量 较 大 时 为 之 建立 -个 AVL (Adelson_Velskii and Landis) 树 。AVL 
树 是 一 种 平衡 的 树 结构 ， 读 者 从 有 关 的 数据 结构 专著 中 可 以 了 解 到 ， 让 AVL 树 中 搜索 的 速度 快 而 代价 
Æ Olg n) 即 与 树 的 大 小 的 对 数 〔 而 不 是 树 的 大 小 》 成 比例 。 虚 存 区 间 结 构 vm area struct 中 的 
vm avl height, vm avl left 以 及 vm_avl_right 一 个 成 分 就 是 用 于 AVL 树 ， 表 未 本 区 间 人 在 AVL pii 
MES. 

TEA AP OL Pee TAT RKPD 会 跟 磁 盘 文 件 发 尘 关 系 。 一 种 是 盘 区 交换 (swap ) HAER 
面 不 够 分 配 时 ， 一 些 久 木 使 用 的 页 面 可 以 被 交换 到 磁盘 上 太 ， 腾 出 物理 抽 面 以 供 更 急需 的 进程 使 用 ， 
这 就 是 大 家 所 知道 的 一 般 意 义 上 的 “ 按 需 调度 ”页 式 虚 存 管理 (demand paging)。 另 ”种 情况 则 是 将 一 
个 磁盘 文件 映射 到 一 个 进程 的 用 户 空间 中 。Linux 提供 了 个 系统 调用 mmap) (实际 上 是 从 Unix SysV 
R4.2 开始 的 ), 使 一 个 进程 可 以 将 个 已 经 打 并 的 文件 映射 到 其 用 户 空间 中 ,此 后 就 可 以 像 访 问 内 存 中 
一 个 字符 数组 那样 来 访问 这 个 文件 的 内 容 ， 而 不 必 通 过 Iseek( )、read( ) 或 write( ) 等 进行 文件 操作 。 

由 于 虚 存 区 问 〈 最 终 是 页 而 ) 与 伐 可 文件 的 这 种 联系 ， 人 在 vm, area, struct 结构 中 相应 地 设置 了 一 些 
成 分 ， 如 mapping. vm next share, vm, pprev share. vm file 等 ， 用 以 记录 和 管理 此 种 联系 。 我 们 将 


.48. 





Ble 存储 管理 
在 以 后 结合 其 体 的 情景 介绍 这 些 成 分 的 使 用 。 
虚 存 区 间 结 构 中 另 一 个 重 此 的 成 分 是 vm. ops. 这 是 指向 一 个 vm. operation. struct 数据 结构 的 指针 。 
这 种 数据 结构 也 是 在 include/linux/mm.h 中 定义 的 : 


115 /* 
116 * These are the virtual MM functions - opening of an area, closing and 
117 * unmapping it (needed to keep files on disk up-to-date etc), pointer 
118 * to the functions called when a no-page or a wp-page exception occurs 
119 */ 
120 struct vm operations struct { 
121 void (open) (struct vm area struct * area); 
122 void (close) (struct vm area stiruci * area); 
123 struct page * (*nopage) (struct vm area struct * area, 

unsigned long address, int write access); 
124}; 


结构 中 全 是 函数 指针 。 其 中 open. close. nopage 213 FAME ££ bCIHIBUTIJT. OR ARBRE. 2g 
什么 要 有 这 些 丽 数 呢 ? AEA AY FA I8] 06 Ne f b T8] WT E BE A Be. eh RTT 
nopage THN SIAL CHE FA) 页 面 不 在 内 存 中 而 引起 “页 面 出 错 ”(page fault) 异常 〈 见 第 3 38). 时 所 应 调 
用 的 函数 。 

最 后 ，vm_area_struct 中 还 有 一 个 指针 _ vm_mm， 该 指针 指向 一 个 mm_struct 数据 结构 ， 那 是 在 
include/linux/sched.h 中 定义 的 : 


203 struct mm struct | 





204 struct vm area siruct * mmap; /* list of VMAs */ 

205 struct vm_area_struct * mmap avl;  /* tree of VMAs */ 

206 struct vm area struct * mmap cache; /* last find vma result */ 

207 pgd t * pgd; 

208 atomic t mm users; /* How many users with user space? */ 

209 atomic t mm count; /* How many references to ^struct 
mm struct" (users count as 1) */ 

210 int map count; /* number of VMAs */ 

211 struct semaphore mmap sem; 

212 spinlock t page table lock; 

213 

214 struct list head mmlist; /* List of all active mm s */ 

215 

216 unsigned long start code, end code, start data, end data; 

217 unsigned Jong start brk, brk, start stack; 

218 unsigned long arg start, arg end, env start, env end; 

219 unsigned long rss, iotal vm, locked vm; 

220 unsigned long def flags; 

221 unsigned long cpu vm mask; 

222 unsigned long swap cnt; /* number of pages to swap on next pass */ 

223 unsigned long swap address; 

224 


.49. 


Linux 内 核 源 代码 情景 分 析 C EID 


225 /* Architecture-specific MM context */ 
226 mm context t context; 
227 "M 


在 内 核 的 代码 中 ， 用 于 这 个 数据 结构 〈 指 针 ) 的 变量 名 常常 是 mm。 

显然 , 这 是 在 比 vm_area_struct 更 高 层次 上 使 用 的 数据 结构 。 事实 上, 全 个 进程 只 有 一 个 mm struct 
结构 ， 在 每 个 进程 的 “进程 控制 块 ” Bll task. struct 结构 中 ， 有 个 指 外 指向 该 进程 的 mm. struct 结构 。 
可 以 说 ，mm_struct 数据 结构 是 进程 整个 用 户 空间 的 抽 竹 ， 也 是 总 的 控制 结构 。 结 构 中 的 头 三 个 指针 部 
是 关于 虚 存 区 间 的 。 第 … 个 mmap 用 米 建立 一 个 虚 存 区 问 结构 的 单 链 线性 队列 。 第 二 个 mmap_avl 用 来 
建立 一 个 虚 存 区 间 结 构 的 AVL 树 ， 这 在 前 而 已 经 谈 过 。 第 三 个 指针 mmap_cache， 用 来 指向 最 近 一 次 
用 到 的 那个 虚 存 区 间 结 构 ; 这 是 内 为 程序 中 几 到 的 地 址 常常 带 有 局 部 性 ， 最 近 一 次 用 到 的 区 阅 很 可 能 
就 是 下 一 次 要 用 到 的 区 间 ， 这 样 就 可 以 所 高 效率 。 史 “个 成 分 map_count， 则 说 明 在 队列 中 (或 AVL 
树 中 ) 有 几 个 虚 存 区 间 结 构 ， 也 就 是 说 该 进程 有 几 个 虚 存 区 间 。 指 针 ped 显 而 妃 见 是 指向 该 进程 的 页 
面 日 录 的 ， 当 内 核 调度 一 个 进程 进入 运行 时 ， 就 将 这 个 指针 转换 成 物理 地 址 ， 并 写 入 控制 寄存 器 CR3， 
这 在 前 面 已 经 看 到 过 了 。 另 一 方面 ， 由 于 mm struct 结构 及 其 下 属 的 vm_area_struct 结构 都 有 可 能 在 不 
同 的 上 下 文中 受到 访问 ， 而 这 些 访 问 义 必须 互 斥 ， 所 以 在 结构 中 设置 了 用 于 P. V 操作 的 信和 号 量 
(semaphore), RI mmap_sem。 此 外 ，page_table_lock 也 是 为 类 似 的 目的 而 设置 的 。 

虽然 一 -个 进程 只 使 用 个 mm_struct 结构 ， 反 过 来 一 个 mm struct 结构 吉 可 能 为 多 个 进程 所 共享 。 
最 简单 的 例子 就 是 ， 当 一 个 进程 创建 《vfork( ) 或 clone( )， 见 第 4 章 ) 一 个 子 进程 时 ， 其 子 进程 就 可 能 
与 父 进 程 共享 一 个 mm struct. 结构 。 所 以 ， 在 mm struct. 结构 中 还 为 此 设置 了 计数 器 mm users 和 
mm_count。 类 型 atomic_t 实际 上 就 是 整数 ， 但 起 对 这 种 类 型 的 整数 进行 的 操作 必须 是 “原子 ”的 ,也 
就 是 不 允许 因 中 断 或 其 他 原因 而 受到 干扰 。 

指针 segments 指向 该 进程 的 局 部 段 描 述 表 LDT。 不 过 ， 一 般 的 进程 症 不 用 局 部 段 描 述 表 的 ， 只 有 
在 VM86 模式 下 才 会 有 LDT。 

结构 中 其 他 成 分 的 用 途 比较 显而易见 ， 如 start_code、end_code、 start_data、end_data 等 等 就 起 该 
进程 映 象 中 代 个 段 、 数 据 段 、 存 储 堆 以 及 堆栈 段 的 起 点 和 终点 ， 这 里 就 不 多 说 了 。 注 意 ， 个 要 把 进程 
映 和 象 中 的 这 些 “ 段 ” 跟 “ 段 式 存储 管理 ”中 的 “ 段 ” 相 泥 清 。 

如 前 所 述 ，mm_struct 结构 及 其 属 下 的 各 个 vm. area, struct 只 是 表明 了 对 虚 存 空间 的 需求 。 一 个 虚 
拟 地 址 有 相应 的 虚 存 区 间 存 在 ， 并 个 保 讶 该 地 址 所 在 的 负 徊 已 经 映射 到 某 一 个 物理 内存 或 捞 区 ) 页 
面 ， 更 不 保 让 该 页 面 就 在 内 存 中 。 当 一 个 未 经 映射 的 页 面 受 到 访问 时 ， 就 会 产生 一 个 “Page Fault” 异 
和 常 〈 也 称 缺 页 异常 、 缺 页 中 断 )， 那 时 候 Page Fault 异常 的 服务 程序 就 会 来 处 埋 这 个 问题 。 所 以 ， 从 这 
个 意义 上 ，mm_struct 和 vm area struct 说 明了 对 页 面 的 需求 ， 前 面 的 page. zone_struct 等 结构 则 说 明 
了 对 负面 的 供应 ， 而 页 面 日 录 、 中 间 目 录 以 及 页 面 表 则 是 二 者 中 间 的 桥梁 。 

图 2.5 是 个 示意 图 ， 疼 中 说 明了 用 于 进程 虚 存 管理 的 各 种 数据 结构 之 间 的 联系 。 

前 面 讲 过 ， 在 内 核 中 经 常 要 用 到 这 样 的 操作 : 给 定 一 个 属于 某 个 进程 的 虚拟 地 址 ， 妆 求 找到 其 所 
属 的 区 间 以 及 相应 的 vma_area_struct 结构 。 这 是 出 find vma( ) 来 实现 的 ， 其 代码 在 mm/mmap.c Y: 
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图 2.5 虚 存 管理 数据 结构 联系 图 


404 /* Look up the first VMA which satisfies addr < vm end, NULL if none. */ 


405 struct vm area struct * find vma(struct mm struct * mm, unsigned long addr) 
406 d 

407 struct vm area struct *vma = NULL; 

408 

409 if (mm) { 

410 /* Check the cache first. */ 

411 /* (Cache hit rate is typically around 35%.) x/ 

412 vma = mm-^mmap cache; 

413 if (!(vma && vma-^vm end > addr && vma ^vm start <= addr)) | 
414 if (!mm-^mmap avl) { 

415 /* Go through the linear list. */ 

416 vma = mm-?mmap; 

417 while (vma && vma->vm_end <= addr) 

418 vma = vma-?vm nexl; 

419 } else { 

420 /* Then go through the AVL tree quickly. */ 
421 struct vm area struct * tree = mm-^mmap avl; 
422 vma = NULL; 

423 for (;;) d 

424 if (tree == vm avl empty) 

425 break; 

426 if (Lree->vm end > addr) { 

427 vma — tree; 
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428 if (tree->vm start <= addr) 
429 break; 
430 tree = tree >vm avl left; 
431 } else 
432 tree = tree->vm_avl right; 
433 ) 
434 j 
435 if (vma) 
436 mm-»mmap cache = vma; 
437 } 
438 } 
439 return vma; 
440 } 


当 我 们 说 到 -个 特定 的 用 户 空 间 虚 拟 地 址 时 ， 必 须 说 明 是 哪 一 个 进程 的 虚 存 空间 中 的 地 址 ， 所 以 
函数 的 参数 有 两 个 ， 一 个 是 地 址 ， 一 个 是 指向 该 进程 的 mm_struct 结构 的 指针 。 首 先 看 一 下 这 地 址 是 
否 恰 好 在 上 “次 (最 近 一 次 ) 访问 过 的 同 个 区 间 中 。 根据 代 码 作者 所 加 的 注释 , 命中 率 一 般 可 达 35%, 
这 也 正 是 在 mm struct 结构 中 设置 个 mmap_cache 指针 的 原因 。 如 果 没 有 命中 的 话 ， 那 就 要 搜索 了 。 
如 果 已 经 建立 过 AVL 结构 (指名 mmap_avl TFS), MA AVL 树 中 搜索 ， 否 则 就 在 线性 队列 中 搜索 。 
最 后 ， 如 果 找 到 的 证 ， 就 把 mmap_cache 指针 设置 成 指 癌 所 找到 的 vm. area, struct 结构 。 函 数 的 返回 值 
XE (NULL)， 表 示 该 地 址 所 属 的 区 间 还 未 建立 。 此 时 道 常 就 得 此 建立 起 一 个 新 的 虚 存 区 间 结 枸 ， 再 
调用 insert. vm. struct( ) 将 其 插入 到 mm, struct 中 的 线性 队列 或 AVL 树 中 去 。 函 数 insert_vm_struct( ) 的 
源 代码 在 同一 文件 中 : 


961 void insert vm struct (struct mm struct *mm, struct vm area struct *vmp) 
962 d 

963 lock vma mappings (vmp) ; 

964 spin lock (&current—>mm->page_ table lock); 

965 __insert_vm_struct (mm, vmp) ; 

966 spin unlock (&current—>mm->page table lock); 

967 unlock vma mappings (vmp) ; 

968  ] 


将 :个 vm area, struct 数据 结构 插入 队列 的 操作 实际 是 由 __insert_vym_struct() 完 成 的 , fH XX THE 
作 绝 不 允许 受到 干扰 ， 所 以 要 对 操作 加 锁 。 这 里 加 了 两 把 锁 。 第 :把 加 在 代表 新 区 间 的 vm. area, struct 
数据 结构 中 ， 第 二 把 加 在 代表 着 整个 虚 存 空间 的 mm stet 数据 结构 中 ， 使 得 在 操作 过 程 中 不 计 其 他 
进程 能 够 在 小 途 插 进 米 ， 也 对 这 两 个 数据 结构 进行 队 诈 操作。 下面 是 __insert_vm_struct( ) 的 主体 ， 我 
们 上 略 去 了 与 文件 映射 有 关 的 部 分 代码 。 由 十 与 find_vma( ) 很 相似 ， 这 里 就 不 加 说 明了 ， 留 给 读者 自行 
阅读 。 对 AVL 缺乏 了 解 的 读者 可 以 只 阅读 不 采用 AVL BE. HU mm->mmap_avl 为 0 的 那 部 分 代码 。 


913 /* Insert vm structure into process list sorted by address 


914 * and into the inode’s i mmap ring. If vm file is non-NULL 
915 * then the i shared lock must be held herce. 
916 */ 


917 void __insert_vm_struct (struct mm struct *mm, struct vm area struct *vmp) 
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918 { 

919 struct vm_area_struct **pprev; 

920 struct file * file; 

921 

922 if (!mm-mmap avl) | 

923 pprev = &mm-^mmap; 

924 while (*pprev && (*pprev)—>vm_start <= vmp->vm start) 
925 pprev = &(*pprev) -?vm next; 

926 } else { 

927 struct vm area struct *prev, *next; 

928 avl insert neighbours(vmp, &mm->mmap_avl, &prev, &next); 
929 pprev = (prev ? &prev-^vm next : &mm-^mmap); 

930 if (*pprev != next) 

931 printk('insert vm struct: tree inconsistent with list\n”); 
932 } 

933 vmp-^yvm next = *pprev; 

934 *pprev = vmp; 

935 

936 mm-»map count-t*; 

937 if (mm->map count >= AVL MIN MAP COUNT && !mm-^mmap avl) 
938 buiid mmap_avl (mm) ; 

939 

959  ] 


当 个 虚 存 空间 中 区 间 的 数量 较 小 时 ， 在 线性 队列 中 搜索 的 效率 并 不 成 为 问题 ， 所 以 不 需 此 为 过 
建立 AVL 树 。 而 当 区 间 的 数量 增 大 到 AVL_MIN_MAP_COUNT, 即 32 时 , 就 需 旨 通过 build_mmap_avl( ) 
建立 AVL 树 ， 以 提高 搜索 效率 了 。 


24 ”越界 访问 


页 式 存 储 管理 机 制 通过 页 面 日 录 和 页 面 表 将 每 个 线性 地 址 (也 可 以 理解 为 虚拟 地 址 ) 转换 成 物理 
地 址 。 an gode T Efe moa SUCRE RET E CPU 无法 最 终 访问 色相 应 的 物理 内 存单 元 , 映射 便 失 败 了 ， 
而 当前 的 指令 也 就 不 能 执行 完成 。 此 时 CPU 会 产 牛 一 次 页 面 出 错 (Page Fault) A (Exception) (te 
称 缺 页 中 断 )， 进 而 执行 预定 的 页 徊 异常 处 理 程序 ， 使 六 用 程序 得 以 从 因 映 射 失 败 而 暂停 的 指令 处 开始 
恢复 执行 ， 或 进行 些 善 后 处 埋 。 这 里 所 涪 的 阻碍 可 以 有 以 下 儿 种 情况 : 

e 相应 的 页 面 日 录 项 或 页 面 表 项 为 空 ， 也 就 此 该 线性 地 址 与 物理 地 址 的 映射 关系 尚未 建立 ， 或 

者 已 经 撤销 。 

e ”相应 的 物理 页 面 不 在 内 存 中 。 

e ”指令 中 规定 的 访问 方式 与 负面 的 权限 个 符 ， 例 如 企图 写 一 个 “只 读 ” 的 页 耐 。 

在 这 个 情景 早 ， 我 们 假定 一 段 用 户 程序 曾经 将 个 已 打开 文件 通过 mmap ) 系 统 调用 映射 到 内 存 ， 
然后 又 已 经 将 映射 撤销 (通过 munmap( ) 系 统 调用 )。 在 撤销 个 吊 射 区 间 时 ， 常 常会 在 虚 存 地 址 空间 
中 锣 下 一 个 孤立 的 空洞 ， 而 相应 的 地 址 则 不 应 继续 使 用 了 。 介 是， 在 用 户 程序 中 往往 会 有 错误 ， 以 臻 
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在 程序 中 某 个 地 方 还 再 次 访问 这 个 已 经 撤销 的 区 成 (程序 员 们 ESANA, 这 是 不 足 为 有 的 )。 这 时 候 ， 
次 因 越 界 访问 一 个 无 效 地 址 (Invalid Address) 而 引起 映射 失败 ， 从 而 就 产生 了 一 次 页 面 出 错 异 常 。 
中 断 请 求 以 及 异常 的 响应 机 制 将 在 “中 有 断 和 异常 ”一 章 中 集中 介绍 ， 读 者 在 那里 可 以 找到 从 发 生 异常 
到 进入 内 核 相应 服务 程序 的 全 过 程 。 这 里 假定 CPU 的 运行 已 经 到 达 了 页 面 异 常服 务 程序 的 主体 
do_page_fault( ) 的 入 口 处 。 

函数 do_page_fault( ) 的 代码 在 文件 arch/i386/mm/fault.c 中 。 这 个 限 数 的 代码 比较 长 ， 我 们 将 随 着 
情景 的 进展 按 需 要 来 展示 其 有 关 的 片断 。 这 里 先 来 看 开头 几 行 代码 : 


106 asmlinkage void do page fault (struct pt regs *regs, 
unsigned long error code) 
107 { 
108 struct task struct *tsk; 
109 struct mm struct *mm; 
110 struct vm area struct * vma; 
111 unsigned long address; 
112 unsigned long page; 
113 unsigned long fixup; 
114 int write; 
115 siginfo_t info; 
116 
117 /* get the address */ 
118 __asm__ ("movl %%cr2, %0”:”=r” (address)) : 
119 
120 tsk = current; 
121 
122 /* 
123 * We fault-in kernel-space virtual memory on-demand. The 
124 * 'reference' page table is init mm. pgd. 
125 * 
126 * NOTE! We MUST NOT take any locks for this case. We may 
127 * be in an interrupt or a critical region, and should 
128 * only copy the information from the master page table, 
129 * nothing more 
130 */ 
131 if (address >= TASK SIZE) 
132 goto vmalloc fault; 
133 
134 mm = tsk-^mm; 
135 info.si code = SEGV MAPERR; 
136 
137 /* 
138 * If we re in an interrupt or have no user 
139 * context, we must not take the fault.. 
140 */ 
141 if (in interrupt () || !mm) 
142 goto no context; 
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143 

144 down (&mm-»mmap sem); 

145 

146 vma - find vma(mm, address): 

147 if (!vma) 

148 goto bad area; 

149 if (vma- vm start <= address) 

150 goto good area; 

151 if (! (vma->vm flags & VM GROWSDOWN)) 
152 goto bad area; 


首先 是 一 行 汇编 码 。 为 什么 要 用 汇编 码 呢 ? 351386 CPU 产生 “页 面 错 ” 异 常 时 ，CPU ES SORS 
失败 的 线性 地 址 放 在 控制 寄存 器 CR2 中 ， 而 这 显然 是 相应 的 服务 程序 所 必需 的 信息 。 可 是 ,在 C 诸 言 
中 并 没有 相应 的 语言 成 分 可 以 用 来 读 上 让 CR2 的 内 容 ， 所 以 只 能 用 汇编 代码 。 这 行 汇编 代 但 只 有 输出 部 
而 没有 输入 部 ， 它 将 %0 EE address 相 结合 ， 并 说 明 该 变量 应 该 被 分 配 在 一 个 寄存 器 中 。 

同时 ， 内 核 的 中 断 / 异常 响应 机 制 偿 传 过 来 两 个 参数 。 -个 是 pt_regs 结构 指针 regs， 它 指向 例外 
发 生前 儿 CPU 中 各 寄存 器 内 容 的 一 份 副 本 ， 这 是 出 内 核 的 中 断 响应 机 制 保存 下 来 的 “现场 ”而 
error. code 则 进一步 指明 映射 失败 的 具体 原因 。 

然后 是 获 凤 当前 进程 的 task. struct 数据 结构 。 在 内 核 中 ， 可 以 通过 一 个 宏 操 作 current 取得 当前 进 
程 (当前 正在 运行 的 进程 ) 的 task_struct 结构 的 地 址 。 在 每 个 进程 的 task. struct 结构 中 有 -个 指针 , 指 
向 其 mm struct 数据 结构 ， 而 跟 虚 存 管理 和 映射 有 关 的 信息 都 在 那个 结构 中 。 这 里 要 指出 ，CPU 实际 
进行 的 映射 并 不 涉及 mm struct. 结构 ， 侧 是 像 以 前 讲 过 的 那样 道 过 负面 目录 和 页 面 表 进 行 ， 但 是 
mm_struct 结构 反映 了 ， 或 者 说 描述 了 这 种 映射 。 

接 下 来 ， 需 要 检测 师 个 特殊 情况 。 一 个 特殊 情况 是 in_interrupt( ) 返 回 非 0, 说 明 映 射 的 失败 发 生 在 
荣 个 中 断 服务 程序 中 ， 因 府 与 当前 进程 尝 无 关系 。 另 -个 特殊 情况 是 当前 进程 的 mm 指针 为 空 ， 也 就 
是 说 该 进程 的 映射 尚未 建立 , 当然 也 就 不 可 能 与 当前 进程 有 关 。 可 是 , 不 跟 当前 进程 有 关 , in_interrupt( ) 
又 返回 0， 那 这 次 异常 发 生 在 什么 地 方 昵 ? 其实 还 是 在 某 个 中 断 / 异 和 服务 程序 中 ， 只 不 过 不 在 
in_interrupt( ) 能 检测 到 的 范 肌 中 而 已 。 如 果 发 生 这 些 特殊 情况 , 控制 就 通过 goto 语句 转 到 标号 no_cotext 
处 ， 不 过 那 与 我 们 这 个 情景 无 关 ， 所 以 我 们 略 去 对 那 段 代码 的 讨论 。 

以 下 的 操作 有 互 斥 的 要 求 ， 也 就 是 不 容许 别 的 进程 来 打扰 ， 所 以 要 有 对 信号 量 的 P/V 操作 ， 即 
down( Yup( ) 操 作 来 保证 。 为 了 这 个 目的 ， 在 mm struct 结构 中 还 设置 了 所 需 的 信和 号 量 mmap_sem。 这 
样 ， 从 down ) 返 回 以 后 ， 就 不 会 有 别 的 进程 来 打扰 了 。 

可 以 想像 ， 在 知道 了 发 生 映 射 失 败 的 地 址 以 及 所 属 的 进程 以 后 ， 接 小 来 应 该 要 搞 清 楚 的 是 这 个 地 
址 是 和 否 落 在 某 个 已 经 建立 起 映射 的 区 间 ， 或 者 进一步 具体 指出 在 哪个 区 间 。 事 实 正 是 这 样 ， 这 就 是 
find vma( ) 所 要 做 的 事情 。 以 前 讲 过 ，find_vmat ) 试 图 在 一 个 虚 存 空间 中 找 出 结束 地 址 人 于 给 定 地 址 的 
第 一 个 区 间 。 如 困 找 不 到 的 话 ， 那 本 次 页 面 异 常 就 必定 是 因 越界 访问 而 引起 。 那 么 ， 在 什么 情况 下 会 
找 不 到 呢 ?” 辣 忆 一 下 内 核对 用 户 虚 存 空间 的 使 用 ， 堆 栈 在 用 户 区 的 项 部 ， 从 上 向 下 伸展 ， 出 进程 的 代 
码 和 数据 都 是 自 底 向 上 分 配 空间 。 如 果 没 有 一 个 区 间 的 结束 地 址 高 于 给 定 的 地 址 ， 寺 就 是 说 明 这 个 地 
址 是 在 堆栈 之 上 ， 也 就 是 3G 字 节 以 上 了 。 要 从 用 户 空 问 访问 属于 系统 的 空间 ， 灶 当然 是 越界 了 ， 然 后 
就 转向 bad_area， 不 过 我 们 这 个 情景 所 说 的 不 是 这 个 情况 。 

如 果 找 到 了 这 人 么 一 个 区 间 ， 而 且 其 起 始 地 址 又 不 高 于 给 定 的 地 址 〈 见 程序 148 行 )， 那 就 说 明 给 定 
的 地 址 恰好 落 在 这 个 区 闻 。 这 样 , 映射 肯定 已 经 建立 , 所 以 就 转向 good. area 去 进一步 检查 失败 的 原因 。 
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这 也 不 是 我 们 这 个 情景 所 要 说 的 。 
除了 这 两 种 情况 ， 剩 下 的 就 赴 给 定 地 址 止 洛 人 在 两 个 区 间 当 中 的 空 润 里 ， 也 就 是 该 地 址 所 在 页 面 的 
映射 尚未 建立 或 已 经 撤销 。 在 用 户 虚 存 空 间 中 ， 可 能 有 两 种 不 同 的 空洞 。 第 一 种 空洞 只 能 有 一 个 ， 导 
就 是 在 堆栈 区 以 下 的 那个 大 空洞 , 它 代表 着 供 动 态 分 配 (通过 系统 调用 brk( )) 而 仍 未 分 配 出 去 的 空间 。 
当 映 射 失 败 的 地 三 落 在 这 个 空洞 早 时， 述 有 个 特殊 情况 此 考虑 ， 我 们 将 在 下 “个 情景 中 讨论 。 供 是 ， 
怎样 才 知 道 这 地 址 是 落 在 这 个 空洞 里 呢 ? 请 看 程序 150 行 。 我 们 知道 ， 堆 栈 区 是 向 下 伸展 的 ， 如 呆 
find vma( ) 找 到 的 区 间 是 堆栈 区 间 ， 那 么 在 它 的 vm. flags 中 应 该 有 个 标志 位 VM_GROWSDOWN。 要 
是 该 标志 位 为 0 的 话 ， 那 就 说 明 空 洞 上 方 的 区 间 并 非 堆栈 区 ， 说 明 这 个 空洞 是 因为 “个 映射 区 间 被 撤 
销 而 留 下 的 ， 或 者 在 建立 映射 时 跳 过 了 一 块 地 址 。 这 就 是 第 二 种 可 能 ， 也 是 我 们 这 个 情景 所 涪 的 情况 。 
所 以 ， 我 们 就 随 着 这 里 的 goto 语句 转向 bad_area， 那 是 在 224 行 : 


[do, page. rault( )] 


220 /* 

221 * Something tried to access memory that isn't in our memory map.. 
222 * Fix it, but check if it's kernel or user first.. 
223 */ 

224 bad_area: 

225 up (&mm->mmap sem); 

226 

227 bad area nosemaphore: 

228 /* User mode accesses just cause a SIGSEGV */ 
229 if (error_code & 4) { 

230 tsk->thread. cr2 = address; 

231 tsk—>thread. error code = error code; 

232 tsk-^thrcead. trap no = 14; 

233 info.si signo = SIGSEGV; 

234 info.si errno = 0; 

235 /* info.si code has been set above */ 

236 info.si addr - (void *)address; 

23T force sig info(SIGSEGV, &info, tsk); 

238 return; 

239 } 


首先 ， 当 控制 流 到 达 这 里 时 ， 已 经 不 后 需要 互 斥 《因为 不 再 对 mm, struct 结构 进行 操作 )》， 所 以 通 
过 up() 退 出 临界 区 。 接 着 ， 就 要 进一步 若 察 error_code， 看 看 炎 败 的 具体 原因 。 代 码 的 作者 为 此 加 了 注 
解 : 


96 /* 

97 * This routine handles page faults. It determines the address, 

98 * and the problem, and then passes it off to one of the appropriate 
99 * routines. 

100 * 

101 * error code: 

102 * bit 0 == 0 means no page found, 1 means protection fault 
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103 * bit 1 == 0 means read, 1 means write 
104 * bit 2 == 0 means kernel, 1 means user-mode 
105 */ 


当 error. code 的 bit2 为 1 时 , 表示 失败 是 当 CPU 处 于 用 户 模式 时 发 牛 的 , 这 正 与 我 们 的 情景 相符 ， 
所 以 控制 将 进入 229 行 。 在 那里 ， 对 当前 进程 的 task. struct 结构 内 的 一 些 成 分 进行 一 些 设置 以 后 ， 就 
加 该 进程 发 出 个 强制 的 “信号 ”( 或 称 “ 软 中 断 ” SIGSEGV。 全 此 ， 本 次 例外 服务 就 结束 了 。 

读者 人 概 会 问 :“ 就 这 样 完了 ? ”是 的 , 完了 。 接 下 来 的 详情 ,读者 在 看 了 有 关中 断 处 理 和 信和 号 的 章 
HOARE WA. FRATE / 异常 返回 之 前 ， 都 要 恰 查 当前 进程 是 否 有 悬而未决 的 信和 吕 需 要 处 理 ， 
在 我 们 这 个 情景 里 当然 是 有 的 ， 其 中 至 少 有 一 个 就 是 SIGSEGV。 然 后 ， 内 核 根 据 这 些 待 处 理 信 和 号 的 性 
质 以 及 进程 本 身 的 选择 决定 怎么 办 。 对 有 些 软 中 断 的 处 埋 是 “ 自 说 ”的 ， 有 些 则 是 强制 的 。 而 对 十 
SIGSEGV 的 反应 ， 那 是 强制 的 ， 其 后 果 是 在 该 进程 的 显示 屏 上 显示 程序 员 们 怕 见 钊 却 又 经 常 殉 到 的 
“Segment Fault” 提 术 ， 然 后 使 进程 流产 〈 撤 销 )。 什 十 从 异常 处 型 返 回 用 户 空间 后 的 地 址 ， 在 这 种 情 
况 下 并 无 意义 ， 因 为 本 来 就 不 会 回去 了 。 

我 们 在 这 里 跳 过 了 do_page_fault( ) 中 的 许多 代码 ， 因 为 那些 代码 与 我 们 眼下 这 个 特定 的 情景 无 
不 过 ， 以 后 在 其 他 的 情景 里 我 们 还 会 加 到 这 些 代 码 中 米 。 





25 用 户 堆 栈 的 扩展 


在 上 一 个 情景 中 ， 我 们 “游览 参观 ”了 一 次 因 越 界 访问 而 造成 映射 失败 从 而 引起 进程 流产 的 过 程 。 
但 是 ， 读 者 也 许 会 感到 惊奇 ， 越 界 访问 有 时 候 是 止 常 的 。 不 过 ， 这 只 发 生 在 一 种 情况 下 。 现 在 我 们 就 
来 看 看 当 用 户 扒 栈 过 小 ， 但 是 因 越 办 访问 而 “央视 得 福 ” 得 以 伸 霸 的 和 情景。 在 网 读本 情景 之 前 ， 读 者 
应 该 先 温 习 :下 前 SAE. 

假设 在 进程 运行 的 过 程 中 ， 已 经 用 尽 了 为 本 进程 分 配 的 堆栈 区 间 ， 也 就 是 从 堆栈 的 “项 部 ” 井 始 
( 记 住 ， 堆 栈 是 从 上 向 下 伸展 的 )， 已 经 到 达 了 已 映射 的 堆栈 区 间 的 下 沿 。 或 者 说 ，CPU 中 的 堆栈 指针 
%esp 已 经 指向 堆栈 区 间 的 起 始 地 址 ， 志 图 2.6。 


% esp 





2.6 进程 地 址 空间 示意 图 


假定 现在 需要 调用 某 个 子 程序 ， 因 此 CPU 址 将 返 叫 地 址 压 入 堆栈 ， 也 就 是 要 将 返回 地 址 与 入 虚 存 
空间 中 地 址 为 《多 esp 一 4) 的 地 方 。 可 是 ， 人 在 我 们 这 个 情景 中 地 址 〈%esp 一 4》 落 入 了 罕 润 站 ， 这 是 尚 
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未 上 映射 的 地 址 ， 因 此 必然 要 引起 一 次 页 面 错 异 常 。 让 我 们 顺 着 上 一 个 情景 中 己 经 走 过 的 路 线 到 达 文 件 
arch/i386/mm/fault.c 的 第 151 47. 


ído page. fault( )] 


151 if (!(vma->vm flags & VM GROWSDOWN)) 

152 goto bad area; 

153 if (error code & 4) ( 

154 /* 

155 * accessing the stack below %esp is always a bug. 
156 * The “+ 32” is there due to some instructions (like 
157 * pusha) doing post-decrement on the stack and that 
158 * doesn't show up until later.. 

159 */ 

160 if (address + 32 < regs—>esp) 

161 goto bad area; 

162 ] 

163 if (expand stack(vma, address)) 

164 goto bad area; 


这 一 次 ， 空 洞 上 方 的 区 间 是 维 栈 区 间 ， 其 VM GROWSDONWN 标志 位 为 1， 所 以 CPU 就 继续 往 前 
执行 。 当 映射 失败 发 生 在 用 户 空间 (bit2 29 00 时 ， 因 堆栈 操作 而 引起 的 越界 是 作为 特 你 情况 对 待 的 ， 
所 以 还 需要 检查 发 生 异 常 时 的 地 址 是 省 紧 挨 着 堆栈 指针 所 指 的 地 方 , 在 我 们 这 个 情景 中 , 那 是 %esp 一 4， 
当然 是 紧 挨 着 的 。 但 是 如 果 是 %esp 一 40 呢 ? 者 就 不 会 是 因为 止 常 的 堆栈 操作 而 引起 ， 而 是 货真价实 的 
非法 越界 访问 了 。 可 是 ， 怎 样 来 判定 “正常 ”或 不 正常 昵 ? 通常 ， 一 次 压 入 堆栈 的 是 4 个 字 节 ， 所 以 
该 地 址 应 该 症 %esp 一 4。 但 是 1386 CPU 有 一 条 pusha 指令 ， 可 以 一 次 将 32 个 字 节 (8 个 32 位 寄存 器 的 
内 容 ) 压 入 堆栈 。 所 以 ， 检 查 的 准则 是 %esp 一 32。 超 出 这 个 范围 就 一 定 是 错 的 了 ， 所 以 跟 在 前 个 情 
景 中 一 样 ， 转 向 bad_area。 而 企 我 们 现在 这 个 情景 中 ， 这 个 测试 应 是 顺利 通过 了 。 

陇 然 是 属于 正常 的 堆栈 扩展 要 求 ， 那 就 应 该 从 空洞 的 顶部 井 始 分 配 若干 页 面 建立 映射 ， 并 将 之 并 
入 堆栈 区 间 ， 使 其 得 以 扩展 。 所 以 就 要 调用 expand stack( )， 这 是 在 文件 include/linux/mm.h 中 定义 的 
一 个 inline EX: 


[do page. fault( ) > expand_stack( )] 


481 /* yma is the first one with address < vma->vm_end, 

488 * and even address < vma-5vm start. Have to extend vma. */ 

489 static inline int expand stack(struct vm area struct * vma, 
unsigned long address) 


490 { 

491 unsigned long grow; 

492 

493 address &- PAGE MASK; 

494 grow = (vma >vm_start - address) >> PAGE SHIFT; 

495 if (vma-?vm end - address > current-^rlim(RLIMIT STACK]. rlim cur 
496 ((vma-^vm mm-^total vm + grow) << PAGE SHIFT) > 
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current-^rlim[RLIMIT. AS]. rlim cur) 


497 return —ENOMEM; 

498 vma-?vm start - address; 

499 vma-^vm pgoff -= grow; 

500 vma-»vm mm-?total vm += grow; 

501 if (vma->vm flags & VM LOCKED) 

502 vma—>vm_mm->locked vm += grow; 
503 return 0: 

504 } 


参数 vma 指向 一 个 vm area struct 数据 结构 ， 代 表 着 一 个 区 间 ， 在 这 里 就 是 代表 着 用 户 空 间 堆栈 
所 在 的 区 间 。 首 先 ,， 将 地 址 按 页 面 边界 对 齐 ， 并 计算 需要 增长 几 个 页 而 才能 把 给 定 的 地 址 包括 进去 ( 通 
常 是 一 个 )。 这 里 还 有 个 问题 ， 堆 栈 的 这 种 扩展 是 否 不 受 限制 ， 直 到 把 空间 中 的 整个 空洞 用 完 为 止 呢 ? 
不 是 的 。 每 个 进程 的 task struct 结构 中 都 有 个 rim 结构 数组 ， 规 定 了 对 每 种 资源 分 配 使 用 的 限制 ， 而 
RLIMIT STACK 就 是 对 用 户 空间 堆栈 大 小 的 限制 。 所 以 ， 这 里 就 进行 这 样 的 检查 。 如 果 扩 展 以 后 的 区 
间 大 小 超过 了 可 用 于 堆栈 的 资源 ， 或 者 使 动态 分 配 的 页 面 总 量 超过 了 可 用 于 该 进程 的 资源 限制 ， 那 就 
不 能 扩展 了 ， 就 会 返回 一 个 负 的 出 错 代 码 一 ENOMEM， 表 未 没有 存储 空间 可 以 分 配 了 ; 省 则 就 应 返回 
0。 当 expand stack( ) 返 回 的 值 为 非 0， 也 即 一 ENOMEM 时 ， 在 do page. fault( ) 中 也 会 转向 bad, area; 
其 结果 就 与 前 一 情景 一 样 了 。 不 过 一 般 情 况 下 都 不 至 十 用 尽 资源 ， 所 以 expand. stack( ) 一 般 都 是 正常 返 
回 的 。 但 是 ， 我 们 已 经 看 到 ，expand_stack( ) 只 是 改变 了 堆栈 区 的 vm_area_struct 结构 ， 而 并 未 建立 起 
新 扩展 的 页 面 对 物 理 内 存 的 映射 。 这 个 任务 由 接 下 去 的 good. area 完成 : 


[do page fault( )] 


165 /* 

166 * Ok, we have a good vm_area for this memory access, so 
167 * we can handle it. 

168 x/ 

169 good area: 

170 info.si code - SEGV ACCERR; 

171 write = 0; 

172 switch (error code & 3) { 

173 default: /* 3: write, present */ 
174 #ifdef TEST VERIFY AREA 

175 if (regs->cs == KERNEL CS) 

176 printk(^WP fault at *081xWM', regs->eip): 
177 H#endif 

178 /* fall through */ 

179 case 2: /* write, not present */ 
180 if (! (vna->vm_ flags & VM WRITE)) 
18] goto bad_area; 

182 writett; 

183 break; 

184 case 1: /* read, present */ 

185 goto bad area; 

186 case 0: /* read, not present */ 
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187 if (!(vma—>vm flags & (VM READ | VM EXEC))) 
188 goto bad area; 

189 j 

190 

191 fk 

192 * If for any reason at all we couldn't handle the fault, 
193 * make sure we exit gracefully rather than endlessly redo 
194 * the fault. 

195 */ 

196 switch (handle mm fault(mm, vma, address, write)) | 
197 case 1: 

198 tsk-^min flt-*; 

199 break; 

200 case 2: 

201 tsk-^maj flt**; 

202 break; 

203 case 0: 

204 goto do sigbus; 

205 default: 

206 goto out of memory; 

207 ) 


在 这 里 的 switch 语 铭 中， 内 核 根 据 由 中 断 响应 机 制 传 过 来 的 error. code 来 进一步 确定 映射 失败 的 
原因 并 采取 相应 的 对 策 Cerror code 最 低 三 位 的 定义 已 经 在 前 节 中 列 出 )。 就 现在 这 个 情景 而 言 ，bit0 
为 0， 表示 没有 物理 页 面 ， 而 bitl 为 1 表示 写 操作 。 所 以 ， 最 低 两 位 的 值 为 2。 既然 是 写 操作 ， 当 然 要 
检查 相应 的 区 间 是 否 允 许 写 入 ， 而 堆栈 段 吓 允许 写 入 的 。 于 是 ， 就 到 达 了 196 FT, WART ER 
handle_mm_fault( ) 了 。 该 函数 定义 于 mm/memory.c 中 : 


[do page fault() handle mm fault( )] 


1189 /* 

1190 * By the time we get here, we already hold the mm semaphore 

1191 */ 

1192 int handle_mm fault (struct mm struct *mm, struct vm area struct * vma, 
1193 unsigned long address, int write access) 

1194 { 

1195 int ret = -1; 

1196 pgd t *pgd; 

1197 pmd t *pmd; 

1198 

1199 ped = pgd offset(mm, address); 

1200 pmd = pmd alloc(pgd, address); 

1201 

1202 if (pmd) | 

1203 pte t * pte = pte alloc(pmd, address); 

1204 if (pte) 

1205 ret = handle pte fault(mm, vma, address, write access, pte); 
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1206 } 
1207 return ret; 
1208 } 


根据 给 定 的 地 址 和 代表 着 具体 虚 存 空间 的 mm. struct 数据 结构 ， 由 宏 操 作 ped_offset( ) 计 算出 指向 
该 地 址 所 属 页 面目 录 项 的 指针 。 这 是 在 include/asm_i386/pgtable.h 中 定义 的 : 


311 /* to find an entry in a page-table-directory. */ 
312 #define pgd index(address) ((address >> PGDIR SHIFT) & (PTRS PER PGD-1)) 


316 #define pgd offset(mm, address) ((mm)-»pgd*pgd index (address) ) 


至 丁 下 面 的 pmd_alloc( )， 本 来 是 应 该 分 配 或 者 找到 ) 一 个 中 间 目 录 项 的 。 由 于 i386 只 使 用 两 层 
BUN, 所 以 在 include/asm_i386/pgtable_2level.h 中 将 其 定义 为 “return (pmd_t *)pgd;". LAL Ut, 在 1386 
CPU 中 ， 把 具体 的 日 录 项 当成 一 个 只 含 一 个 表 项 《 表 的 大 小 为 1》 的 中 间 日 录 。 所 以 ， 对 于 1386 CPU 
而 言 ，pmd_alloc( ) 是 绝 不 会 失败 的 ， 所 以 这 里 的 pmd 不 可 能 为 0。 读者 不 妨 顺 着 线性 地 址 的 映射 过 程 
想 想 ， 接 下 来 需要 做 些 什么 ? 页 面目 录 总 是 在 的 ， 相 应 的 目录 项 也 许 已 经 指向 一 个 页 面 表 ， 此 时 需 此 
根据 给 定 的 地 址 在 表 中 找到 相应 的 页 面 表 项 。 或者， 目录 项 也 可 能 还 是 空 的 ， 那 样 的 话 就 需要 先 分 配 
一 个 页 面 表 ， 再 在 页 面 表 中 找到 相应 的 表 项 。 这 样 ， 才 可 以 为 下 面 分 配 物 理 内 存 负 面 并 建立 映射 做 好 
准备 。 这 是 通过 pte alloc( ) 完 成 的 ， 其 代码 在 include/asm_i386/pgalloc.h "H: 


[do_page_fault( ) > handle mm, fault( ) > pte_alloc( )] 


120 extern inline pte t * pte alloc(pmd t * pmd, unsigned long address) 
121 { 


122 address = (address >> PAGE SHIFT) & (PTRS PER PTE - 1); 
123 

124 if (pmd none (#pmd) ) 

125 goto getnew; 

126 if (pmd bad (*pmd) ) 

127 goto fix; 

128 return (pte t *)pmd page(C*pmd) + address; 

129 getnew: 

130 { 

131 unsigned long page = (unsigned long) get pte fast( ): 
132 

133 if (!page) 

134 return get pte slow(pmd, address); 

135 set pmd(pmd, ^ pmd( PAGE TABLE +  pa(page))); 

136 return (pte t *)page + address; 

late "a 

138 fix: 

139 . handle bad pmd(pmd); 

140 return NULL; 


141 } 
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先 将 给 定 的 地 址 转换 成 其 所 属 页 面 表 中 的 下 标 。 存 我们 这 个 情景 中 ， 假 定 指针 pmd 所 指向 的 日 录 
IAA, 所 以 需要 转 人 到 标号 get new( ) 处 分 配 个 页 面 表 , 一 个 页 面 表 所 占 的 空间 恰好 是 -个 物理 页 面 。 
内 核 中 对 页 面 表 的 分 配 作 了 些 优化 。 当 释放 -个 页 面 表 时 ， 内 核 将 释放 的 页 面 表 先 保存 在 一 个 缓冲 池 
中 ， 而 先 不 将 其 物理 内 存 页 面 释 放 。 只 有 在 缓冲 池 已 满 的 情况 下 才 真 的 将 负面 表 所 由 的 物理 内 存 页 而 
释放 。 这 样 ， 在 要 分 配 -… 个 页 面 表 时 ， 就 可 以 先 看 一 下 缓冲 池 ， 这 就 赵 get pte fast( )。 要 是 绥 冲 池 已 
经 空 了 ， 那 就 只 好 通过 get pte kernel slow( ) 米 分 配 了 。 读 者 也 许 会 想 ， 分 陀 一 个 物理 内 存 页 贡 用 作 页 
面 表 就 那么 麻烦 吗 ， 为 什么 是 “slow” 昵 ?问答 是 有 时候 可 能 会 很 慢 。 只 要 想 一 下 物理 内 存 负 和 历 有 可 
能 已经 用 完 ， 需要 把 内 存 中 已 经 占用 的 页 而 交换 到 磁盘 上 去 ， 就 可 以 明白 了 。 分配 到 一 个 负 徊 表 以 后 ， 
就 通过 set_pmd( ) 中 将 其 起 始 地 址 连同 些 属性 标 起 位 一 起 写 入 中 间 日 录 项 pmd 中 ， 而 对 1386 却 实 除 
上 写 入 到 了 页 面 日 录 项 pgd 中 。 这 样 ， 喘 射 所 需 的 “基础 设施 ”都 已 经 齐全 了 ， 但 页 面 表 项 pte 还 是 空 
的 。 剩 下 的 就 是 物理 内 存 页 向 本 身 了 ， 孝 是 由 handle pte fault( ) 完 成 的 。 该 消 数 定义 于 mm/memory.c 
Al: 


[do page fault( ) > handle mm fault( ) > handle pte fault( )] 


1135 /* 

1136 * These routines also need to handle stuff like marking pages dirty 
1137 * and/or accessed for architectures that don’t do it in hardware (most 
1138 * RISC architectures). The early dirtying is also good on the i386. 
1139 * 

1140 * There is also a hook called "update mmu cache( )" that architectures 
1141 * with external mmu caches can use to update those (ie the Sparc or 
1142 * PowerPC hashed page tables that act as extended TLBs). 

1143 * 

1144 * Note the "page table lock”. It is to protect against kswapd removing 
1145 * pages from under us. Note that kswapd only ever removes pages, never 
1146 * adds them. As such, once we have noticed that the page is not present, 
1147 * we can drop the lock early. 

1148 * 

1149 * The adding of pages is protected by the MM semaphore (which we hold), 
1150 * so we don t need to worry about a page being suddenly been added into 
1151 * our VM. 

1152 */ 

1153 static inline int handle pte fault (struct mm struct *mn, 

1154 struct vm area struct * vma, unsigned long address, 

1155 int write access, pte t * pte) 

1156 [ 

1157 pte t entry; 

1158 

1159 /* 

1160 * We need the page table lock to synchronize with kswapd 

1161 * and the SMP-safe atomic PTE updates 

1162 */ 

1163 spin lock(&mm-^»page table lock); 

1164 entry = *pte; 
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1165 if (!pte present(entry)) { 
1166 /* 
1167 * If it truly wasn t present, we know that kswapd 
1168 * and the PTE updates will not touch it later. So 
1169 * drop the lock. 
1170 */ 
1171 spin unlock (&mn-^pago. table, lock); 
1172 if (pte none(entry)) 
1173 return do no page(mm, vma, address, write access, pte); 
1174 return do swap page(mm, vma, address, pte, 
pte to swp entry(entry), write access); 
1175 } 
1176 
1177 if (write access) { 
1178 if (!pte write(entry)) 
1179 return do wp page(mm, vma, address, pte, entry); 
1180 
1181 entry = pte mkdirty(eniry); 
1182 } 
1183 entry = pte mkyoung(entry); 
1184 establish pte(vma, address, pte, entry); 
1185 spin unlock(&mm-^page table lock); 
1186 return 1; 
187  ] 


在 我 们 这 个 情景 里 ， 不 管 页 面 表 是 新 分 配 的 还 是 原来 就 有 的 ， 相 应 的 页 面 表 项 却 定 是 空 的 。 这 
样 ， 程 序 一 开头 的 让 语句 的 条 件 “ 定 能 满 是， 因为 pte_present( OMR -ARAARA EA 
存 中 ， 调 我 们 的 物理 内 存 抽 面 还 没有 分 配 。 进 步 ，pte_none( ) 所 测试 的 条 件 也 一 定 能 满足 ， 央 为 它 测 
试 一 个 表 项 是 否 为 空 。 所 以 ， 就 必定 会 进入 do_no_page( ) (否则 就 是 do_swap_page( ) )。 顺 便 讲 一 下 ， 
WR pte_present( ) 的 测试 结果 是 该 表 项 所 映射 的 页 面 确实 在 内 存 中 , 那么 问题 -一定 出 在 访问 权限 ,或 者 
根本 就 没有 问题 了 。 

图 数 do no page( ) 也 是 在 mm/memory.c 中 定义 的 。 这 里 先 简 要 地 介绍 一 下 ， 然 后 再 米 看 代码 。 

以 前 我 们 曾经 提起 过 ， 在 虚 存 区 间 结 构 vm area struct 中 有 个 指针 vm_ops， 指 向 一 个 
vm operations struct. 数据 结构 。 这 个 数据 结构 实际 上 是 个 函数 跳 转 表 ， 结 构 中 通常 是 ~…- 些 与 文件 操 
作 有 关 的 函数 指针 。 其 中 有 一 个 函数 指针 就 是 用 于 物理 内 存 页 而 的 分 配 。 物 理 内 存 页 面 的 分 配 为 什么 
与 文件 操作 有 关 呢 ?因为 这 对 十 可 能 的 文件 共享 是 很 有 意义 的 。 当 多 个 进程 将 同一 个 文件 映射 到 各 自 
的 虚 存 空间 中 时 ， 内 存 中 通常 只 要 保存 一 份 物 惠 页面 就 可 以 了 。 只 有 当 个 进程 需要 写 入 该 文件 时 才 
EAM) 份 独立 的 副本 ， 称 为 “copy on write" 或 者 COW. XF COW 我 们 在 进程 -一 前 中 讲 到 
fork ) 时 还 要 作 较 为 详细 的 介绍 。 这 样 ， 当 通过 mmap( ) 将 一 块 虚 存 区 间 跟 一 个 已 打开 文件 (包括 设备 ) 
建立 起 映射 后 ， 就 可 以 通过 对 这 些 函 数 的 调用 将 对 内 存 的 操作 转化 成 对 文件 的 操作 ， 或 者 进行 一些 必 
要 的 对 文件 的 附 轴 操作 。 另 一 方面 ， 物 理 负 抽 的 盘 区 交换 显然 也 是 跟 文件 操作 有 关 的 。 所 以 ， 为 特定 
的 虚 存 空间 预先 指定 一 些 特定 的 操作 常常 起 很 有 必要 的 。 村 是， 如 果 岂 经 预先 为 ~ 个 虚 存 区 间 vma 指 
定 了 分 配 物 理 内 存 页 面 的 操作 的 话 ， 孝 就 是 vma->vm_ops->nopage( )。 但 是 ，vma->vm_ops 和 
vina->vm_ops->nopage 才 有 可 能 是 罕 ， 朝 就 表示 没有 为 之 指定 其 体 的 nopage( ME, ec IUS LAE 


. 63. 


Linux A EFC TEE REA PT OLAP 


配备 一 个 vm operation struct. 结构 。 当 没有 指定 的 nopage( ) 操 作 时 ， 内 核 就 调用 一 个 函数 
do_anonymous_page( ) 来 分 配 物理 内 存 页 面 。 
现在 来 看 看 do_no_page( ) 的 开头 几 行 : 


[do_page_fault( ) > handle mm fault( ) > handle_pte_fault( ) > do_no_page( )] 


1080 /* 

1081 * do no page( ) tries to create a new page mapping. It aggressively 

1082 * tries to share with existing pages, but makes a separate copy if 

1083 * the "write access^ parameter is true in order to avoid the next 

1084 * page fault. 

1085 * 

1086 * As this is called only for pages that do not currently exist, we 

1087 * do not need to flush old virtual caches or the TLB. 

1088 * 

1089 * This is called with the MM semaphore held. 

1090 */ 

1091 static int do no page (struct mm struct * mm, struct vm area struct * vma, 
1092 unsigned long address, int write access, pte t *page table) 

1093 { 

1094 struct page * new page; 

1095 pte t entry; 

1096 

1097 if (!vma->vm ops || !vma-^vm ops-^nopage) 

1098 return do anonymous page(mm, vma, page table, write access, address); 
1133. ] 


对 于 我 们 这 个 情景 来 党， 所 涉及 的 虚 存 区 间 是 供 堆栈 用 的 ， 跟 文件 系统 或 页 面 共 学 没有 什么 关系 ， 
不 会 有 指定 的 nopage( ) 操 作 ， 所 以 进入 do_anonymous_page( )- 


[do. page fault( ) > handle mm fault( ) > handle pte fault( ) > do. no. page( ) 
> do anonymous page( )] 


1058  /* 

1059 * This only needs the MM semaphore 

1060 */ 

1061 static int do anonymous page (struct mm struct * mm, 
struct vm area struct * vma, pte t *page table, 
int write access, unsigned long addr) 

1062  ( 

1063 struct page *page - NULL; 


1064 pte t entry = pte wrprotect(mk pte(ZERO PAGE(addr), 
vma-^»vm page prot)); 


1065 if (write access) { 
1066 page = alloc page(GFP HIGHUSER); 
1067 if (!page) 
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1068 return -1; 

1069 clear user highpage(page, addr): 

1070 entry = pte mkwrite(pte mkdirty(mk pte(page, vma->vm page prot))); 
1071 mm-?rsst*; 

1072 flush page to ram(page); 

1073 ) 

1074 set pte(page table, entry); 

1075 /* No need to invalidate - it was non-present before */ 
1076 update mmu cache(vma, addr, entry); 

1077 return ]; /#* Minor fault */ 

1078 ] 


首先 我 们 注意 到 ， 如 果 引 起 页 面 异 常 的 是 一 次 读 操 作 ， 那 么 由 mk_pte( ) 构 筑 的 映射 表 项 要 通过 
pte. wrprotect( ) 加 以 修正 ;人 而 如 果 是 写 操作 (参数 write access 为 非 0)， 则 通过 pte_mkwrite( ULE iE. 
这 二 者 有 什么 不 同 呢 ? A include/asm-i386/pgtable.h: 


277 static inline pte t pte wrprotect(pte t pte) \ 
( (pte). pte_low &- ^ PAGE RW; return pte; } 


270 static inline int pte_write(pte_t pte) \ 
{ return (pte). pte_low & _PAGE RW; | 


对 比 一 下 ， 就 可 看 出 ， 在 pte wrprotect( H, 48 PAGE RW REMER 0, dix WER 
允许 读 ; 而 在 pte write( ) 却 把 这 个 标志 位 设 成 1. A, WERE, Ree 
ZERO_PAGE， 这 个 页 面 是 在 include/asm_i386/pgtable.h 中 定义 的 : 


91 /* 

92 * ZERO PAGE is a global shared page that is always zero: used 
93 * for zero-mapped memory areas etc.. 

94 */ 


95 extern unsigned long empty zero page[1024]; 
96 #define ZERO PAGE(vaddr) (virt to page (empty zero page)) 


就 是 说 ， 只 要 是 “只 读 ”( 也 就 是 写 保 护 〉 的 页 而 ,开始 时 都 一 律 映射 到 同一 个 物理 内 存 页 面 
empty_zero_page， 而 个 管 其 虚拟 地 址 是 什么 。 实 际 上 ， 这 个 页 面 的 内 容 为 全 0， 所 以 映射 之 初 若 从 该 
页 面 读 出 就 读 得 0。 众 有 可 写 的 页 面 ， 才 道 过 alloc_page( ) 为 其 分 配 独立 的 物理 内 存 。 在 我 们 这 个 情景 
里 ， 所 需要 的 页 面 是 在 堆栈 区 ， 并 日 是 由 于 写 操作 才 引 起 异常 的 ， 所 以 要 通过 alloc_page( ) 为 其 分 配 一 
个 物理 内 存 页 面 ,并 将 分 配 到 的 物理 页 面 连同 所 有 的 状态 及 标志 位 ( 见 程 序 1115 行 )，: 起 通过 set_pte( ) 
设置 进 指针 page table 所 指 的 页 面 表 项 。 全 此 ， 从 虑 存 页 面 到 物理 内 存 页 面 的 映射 终于 建立 了 。 这 里 
的 update mmu. cache( ) 对 i386 CPU Z& 1-7: be X CU. include/asm_i386/pgtable.h), 因为 1386 的 MMU (内 
[ET SEI) 是 实现 在 CPU 内 部 ， 而 并 没有 独立 的 MMU. 

映射 既 已 建立 ， 下面 就 是 逐 层 返回 了 。 由 丁 映射 成 功 ， 各 个 层次 中 的 返 同 值 都 是 1， 直 至 
do_page_fault( )。 在 函数 do_page_fault( ) 中 ， 还 要 处 理 … 个 与 VM86 模式 以 及 VGA 的 图 像 存 储 区 有 关 
的 特殊 情况 ， 但 是 那 与 我 们 这 个 情景 已 经 没有 关系 了 : 
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209 /* 

210 * Did it hit the DOS screen memory VA from vm86 mode? 
211 */ 

212 if (regs->eflags & VM MASK) | 

213 unsigned long bit = (address - 0xA0000) >> PAGE SHIFT: 
214 if (bit « 32) 

215 tsk-^thread. screen bitmap != 1 << bit; 

216 } 

217 up(&mm-^mmap sem); 

218 return; 


最 后 ， 特 别 要 指出 ， 当 CPU MAUR OUR HRS Ab JUERU HE] eI, EE aT ARK 
败 而 中 途 天 折 的 那 条 指令 ， 然 后 才 继续 往 下 执行 ， 这 是 异常 处 理 的 特殊 性 。 学 过 有 关 课 称 的 读者 都 知 
道 ， 中 汤 以 及 自 陷 (trap 指令 ) RAEN, CPU 部 会 将 下 :条 指令 ， 也 就 是 接 下 去 本 来 应 该 执行 的 指令 
的 地 址 压 入 堆栈 作为 中 断 服务 的 返回 地 址 。 供 是 异常 却 不 同 。 当 异常 发 生 时 ，CPU 将 因 无 法 完成 ( 例 
如 除 以 0， 映 射 失败 ， 等 等 ) 而 天 折 的 指令 本 里 的 地 址 而 个 是 下 一 条 指令 的 地 址 ) 压 入 堆栈 。 这 样 ， 
就 可 以 在 从 异常 处 理 返回 时 完成 未 竟 的 事业 。 这 个 特殊 性 是 在 CPU 的 内 部 电路 中 实现 的 ， 而 不 需 册 软 
件 干预 。 从 这 个 意义 上 讲 ， 所 谓 “ 缺 页 中 断 ” 是 不 对 的 ， 应 该 叫 “ 缺 页 异常 ” 才 对 。 在 我 们 这 个 情景 
中 ， 当 初 是 因为 在 一 条 指令 中 要 压 栈 ， 但 是 越 出 了 已 经 为 堆栈 区 分 配 的 空间 而 引起 的 。 滥 条 指令 在 当 
时 已 经 中 途 天 折 了 ， 并 没有 产生 什么 效果 例如 堆栈 指针 %esp 还 是 指向 原来 的 位 置 )。 现 在 ， 从 异常 
处 理 返 同 以 后 ， 扒 栈 区 已 经 扩展 了 ， 再 重新 执行 遍 以 前 天 折 的 填 条 压 栈 指令 ， 然 后 就 吓 以 继续 往 下 
执行 了 。 对 于 用 户 程序 来 说 ， 这 整个 过 程 都 是 “透明 ”的 ， 就 像 什么 事 也 没有 发 生 过 ， 而 堆栈 区 间 就 
仿佛 从 一 开始 就 已 经 分 配 好 了 是 够 大 的 空间 - 样 。 





2.6 物理 页 面 的 使 用 和 周转 


除 CPU 之 外 ， 对 于 像 Linux 这 样 的 现代 操作 系统 来 说 ， 物 理 存 储 页 而 可 以 说 是 最 基本 、 最 重 旨 的 
资源 了 。 物 理 存储 页 睾 在 系统 中 的 使 用 利 周转 就 好 像 资金 在 企业 中 的 使 用 和 周转 - 样 重要 。 夫 此 ， 读 
者 对 此 最 好 能 有 史 多 一 些 了 解 。 

首先 此 溢 清 本 书 中 使 用 的 儿 个 术语 。“ 虚 存 页 面 "， 是 指 在 虚拟 地 址 空间 中 -个 固定 大 小 ， 边 界 与 
页 面 大 小 (KB) 对 齐 的 区 间 及 其 内 容 。 虚 存 页 而 最 终 要 洲 实 到 ， 或 者 说 此 映射 旬 某 种 物理 存储 介质 
上 ， 那 就 是 “物理 页 面 *。 根 据 具体 介质 的 不 同 ， “个 物理 页 面 可 以 在 内 存 中 ， 也 可 以 在 慌 稚 上 。 为 了 
区 分 这 两 种 情况 ， 本 书 将 分 别称 之 为 “(物理 ) Perd" Rb "Stb CHH) 页 面 "。 此 外 ， 在 某 项 外 
部 设备 上 ， 例 如 企 网 络 接口 卡 上 ， 用 来 存储 一 个 页 面 内 容 的 那 部 分 介质 ， 也 称 为 一 个 物理 页 面 。 所 以 ， 
当 我 们 在 谈 及 物理 内 存 页 面 的 分 配 和 释放 的 时 候 ， 指 的 仅 是 物理 介质 ， 而 在 谈 及 页 面 的 换 入 和 换 出 时 
则 指 的 是 其 内 容 。 读 者 ， 特 别 是 非 计 算 机 专业 的 读者 ， 一 定 要 清楚 并 记 住 这 点 。 

如 前 所 述 ， 每 个 进程 的 虚 存 空间 是 很 大 的 〈 用 户 室 间 为 3GB)。 不 过 ， 每 个 进程 实际 上 使 用 的 空间 
则 要 小 得 多 ， 一 般 不 会 超过 儿 个 MB。 特别 地 ， 传统 的 Linux (以 及 Unix) 可 执行 程序 通 常 都 是 比较 小 
的 ， 例 如 几 十 KB 或 一 二 百 KB。 吕 是 ， 当 系统 中 有 几 百 个 、 上 千 个 进 称 同 时 存在 的 时 候 ， 对 存储 空间 


. 66 . 


第 2 章 存储 管理 

的 需求 总 量 就 很 大 了 。 在 这 样 的 情况 下 ， 此 为 系统 配备 足够 的 内 人 存 就 很 淮 。 所 以 ， 人 在 计算 机 技术 的 发 
展 史 上 很 早 就 有 了 把 内 存 的 内 容 与 一 个 专用 的 磁盘 罕 间 “交换 ”的 技术 ， 好 把 暂时 不 几 的 信息 〈 内 容 ) 
存放 到 磁 才 上， 为 其 他 急用 的 信息 腾 出 空间 ， 到 需要 时 髓 从 磁盘 上 污 进 来 的 技术 。 早 期 的 盘 区 交换 技 
术 是 建立 在 段 式 存储 管理 的 基础 上 的 ， 当 一 个 进程 暂 不 运行 的 时 候 就 可 以 把 它 〈 代 码 段 和 数据 段 等 ) 
交换 出 去 〈 把 其 他 进程 换 进来 ， 上 履 户 “交换 汶 ， 到 调度 这 个 进程 运行 时 再 父 换 加 来。 显然 ， 这 样 的 盘 
区 交换 是 很 粗粮 的 , 对 系统 性 能 的 影响 也 比较 大 , 所 以 后 来 发 展 起 了 建立 在 页 式 存 储 管理 基础 上 的 “ 按 
需 页 面 交换 ”技术 。 

在 计算 机 技术 中 ， 时 间 和 空间 十 OOMDUPUÉS. Jeden RES 者 之 间 折 中 权衡 ， 有 时 候 是 以 空间 换 时 
问 ， 有 时 候 是 以 时 间 换 空间 。 而 页 面 的 交换 ， 则 是 典型 的 以 时 间 换 空间 。 必 须 指 出 ， 这 只 是 不 得 已 而 
为 之 。 特 别 是 在 有 实时 要 求 的 系统 中 ， 是 不 宜 采 用 页 面 交换 的 ， 因 为 它 使 程序 的 执行 在 时 间 上 有 了 和 较 
大 的 不 确定 性 。 因 此 ，Linux 提供 了 用 玉 间 启 和 关闭 页 面 人 交换 机 制 的 系统 调用 ， 椒 过 我 们 在 本 章 的 叙述 
PRECI FH. 
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前 面 已 经 简略 地 介绍 过 ， 为 了 方便 (物理 ) 内 存 页 而 的 管理 ， 每 一 个 内 存 页 面 都 对 应 一 个 page 数 
据 结构 。 每 一 个 物理 内 存 页 面 之 有 page 数据 结构 (以 及 繁 个 进程 之 有 其 task. struct 结构 )， 就 好 像 每 个 
人 之 有 “户口 ”或 者 “档案 ”一 样 。 一 个 物 埋 上 存在 的 人 ， 如 果 没 有 户口 ， 从 管理 的 角度 来 说 便 是 不 
存在 的 。 同 样 ， 一 个 物理 上 存在 的 内 存 页 面 ， 如 果 没 有 … 个 相应 的 page 结构 ， 就 根本 不 会 被 系统 “看 
到 ”。 人 在 系统 的 初始 化 阶段 ， 内 核 根 据 检测 到 的 物理 内 存 的 大 小 ， 为 每 一 个 丰 面 都 建立 个 page 结构 ， 
形成 “个 page 结构 的 数组 ， 并 使 一 个 全 局 量 mem. map 指向 这 个 数组 。 同 时 ， 义 按 需 此 将 这 些 页 面 拼 
合成 物理 地 址 连续 的 许多 内 存 页 面 “ 块 ” 再 根据 鼎 的 大 小 建立 起 若干 “管理 区 ”(zone)， 而 在 每 个 管 
理 区 中 则 设置 个 空闲 块 队列 ， 以 便 物 理 内 存 页 而 的 分 配 使 用 。 这 一 些 ， 读 者 已 经 在 前 面 看 到 过 了 。 

与 此 类 似 ， 区 换 设 备 〈 通 常 趾 磁盘 ， 也 可 以 是 普通 文件 ) 的 每 个 物理 页 面 也 要 在 内 存 中 有 个 相应 
的 数据 结构 《或 者 说 “户口 岂 ， 不 过 那 要 简单 得 多 ， 实 际 上 只 是 -个 计数 ， 表 示 该 页 面 是 否 已 被 分 配 
使 用 ， 以 及 有 儿 个 用 广 在 共享 这 个 抽出 。 对 盘 上 负面 的 管理 是 按 文件 或 磁盘 设备 来 进行 的 。 内 核 中 定 
义 了 一 个 swap info struct 数据 结构 ， 用 以 描述 和 管理 用 于 负面 交换 的 文件 或 设备 。 它 的 定义 包含 在 
include/linux/swap.h "P: 





49 struct swap info struct | 


50 unsigned int flags; 

51 kdev t swap device; 

52 spinlock t sdev lock; 

53 struct dentry * swap filc; 

54 struct vfsmount *swap vfsmnt; 

55 unsigned short * swap map; 

56 unsigned int lowest bit; 

51 unsigned int highest bit; 

58 unsigned int cluster next; 

59 unsigned int cluster nr; 

60 int prio; /* swap priority */ 
61 int pages; 

62 unsigned long max; 

63 int next; /* next entry on swap list */ 
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其 中 的 指针 swap map Hi 个 数组 ， 该 数组 中 的 每 -个 无 符 与 短 整数 即 代表 盘 上 (或 普通 文件 
TO 的 一 个 物理 页 面 , 而 数组 的 下 标 则 决定 了 该 页 面 在 盘 . 上 或 文件 中 的 位 置 。 数 组 的 大 小 取决 于 pages, 
它 表 不 该 页 面 交 换 设备 或 文件 的 大 小 。 设 备 上 或 义 件 中 ,设备 也 是 …- 种 文件 ， 下 同 〉 的 第 个 页 面 ， 
也 即 swap_map[0] 所 代表 的 那个 页 面 是 不 用 十 页 面 交换 的 , 它 包 含 了 该 设备 或 义 件 自 对 的 一 些 信 息 以 及 
一 个 表明 哪些 页 面 可 供 使 用 的 位 图 。 这 些 信 息 最 初 是 在 把 该 设备 格式 化 成 页 面 交 换 区 时 设置 的 。 根 据 
不 同 的 页 而 交换 区 格式 《以 及 版 本 )， 还 有 一 些 其 他 的 页 面 也 不 供 页 面 人 交换 使 用 。 这 些 页 面部 集中 在 开 
头 和 结尾 两 个 地 方 ， 所 以 swap. info struct 结构 中 的 lowest_bit 和 highest, bit 就 说 明文 件 中 从 什么 地 方 
开始 到 什么 地 方 为 止 是 供 页 面 交 换 使 用 的 。 为 个 宁 段 max 则 表示 该 设备 或 文件 中 最 大 的 页 面 号 ， 也 
就 是 设备 或 文件 的 物理 大 小 。 

由 十 存储 介质 是 转动 的 磁盘 , 将 地 址 连续 的 页 面 存储 在 连续 的 磁盘 扇 区 中 不 见得 起 最 有 效 的 方法 ， 
所 以 在 分 配 松 上 页 面 空间 时 尽 可 能 按 集群 Cluster) 方式 进行 ， 而 字段 cluster next 和 cluster, nr 就 是 为 
此 而 设置 的 。 

Linux 内 核 允 许 使 用 多 个 页 面 交 换 设 备 (或 文件 )， 所 以 在 内 核 中 建立 了 一 个 swap. info struct 结构 
的 阵列 (数组 〉swap_info， 这 是 在 mm/swapfile.c 中 定义 的 ， 


25 struct swap info struct swap info[MAX SWAPFILES]; 


同时 , 还 设立 了 一 个 队列 swap. list. 将 各 个 可 以 分 配 物理 页 面 的 磁盘 设备 或 文件 的 swap. info. struct 
结构 按 优 先 级 高 低 链接 在 一 起 : 


23 struct swap list t swap list = {-l, -1}; 
这 里 的 swap list t 数据 结构 是 在 include/linux/swap.h 中 定义 的 : 


153 struct swap list t { 


154 int head; /* head of priority-ordered swapfile list */ 
155 int next; /* swapfile to be used next */ 
156 ki 


开始 时 队列 为 室 ， 所 以 head 和 next 均 为 一 1。 当 系统 调用 swap_on( ) 指 定 将 一 个 文件 用 于 页 面 交 
换 时 ， 就 将 该 文件 的 swap_info_struct AREA BASIE. 

就 像 通过 pte t 数据 结构 (页 面 表 项 》 将 物理 内 存 页 面 与 虚 存 页 面 建立 联系 一 样 ， 枚 上 页 面 也 有 这 
么 一 个 swp. entry 1 数据 结构 ， 这 是 在 include/linux/mm.h 中 定义 的 : 


8 /* 

9 * A swap entry has to fit into a "unsigned long”, as 

10 * the entry is hidden in the “index” field of the 

11 * swapper address space. 

12 * 

13 * We have to move it here, since not every user of fs.h is including 
14 * mm.h, but mh is including fs.h via sched .h :-/ 


. 68 . 


第 2 章 存储 管理 


15 */ 
16 typedef struct { 
17 unsigned long val; 


18 } swp entry t; 


可 见 ， 一 个 swp entry 上 结构 实际 上 只 是 -一 个 32 位 无 符号 整数 。 但 是 ， 这 个 32 位 整数 实际 上 分 成 
三 个 部 分 ， 见 图 2.7。 


offset type 





24 位 7 位 最 低位 水 远 是 0 
2.7 页 面 交 换 项 结构 示意 图 


文件 include/asm-i386/pgtable.h 中 还 为 type FU offset 了 个 位 段 的 访问 以 及 与 pte t 结构 之 间 的 关系 ， 
定义 了 儿 个 宏 操作 : 


336 /* Encode and de-code a swap entry */ 
337 . #define SWP_TYPE(x) (({x). val >> 1) & 0x3f) 
338 define SWP OFFSET (x) (G0. val >> 8) 
339 define SWP ENTRY(type, offset) \ 

((swp entry t) ( ((type) << D | ((offset) << 8) }) 
340 Hdefine pte to swp entry (pte) ((swp entry t) ( (pte).pte low j) 
341 Hdefine swp entry to pte(x) ((pte t) { GO. val }) 


这 里 offset Kop WRI ARA eee EXC PE PA, Bag EER ee TA STAT type 则 是 
指 该 页 面 在 哪 EB, AY o. PBI m SE Ue eA, IH a Pa A CHK x 
CIS C RITARA 127 SOIC, (SES RASA EIE. Xe] 127), X 
HAMEL A type ME? 估计 这 是 从 pte t 结构 中 过 来 的 。 读 者 可 能 记得 ，pte_t 实际 上 也 是 一 个 32 位 无 
符号 整数 ， 其 中 最 高 的 20 位 为 物理 页 面 起 始 地 址 的 高 20 位 《物理 页 面 起 始 地 址 的 低 12 位 永远 是 0， 
因为 页 面 帮 是 4KB 边界 对 齐 的 )， 册 与 这 7 位 相对 应 的 则 者 是 些 表 示 页 面 各 种 性 质 的 标志 位 ， 如 RW, 
U/S， 等 等 ， 所 以 称 之 为 type 位 段 。 而 swp_entry_t 与 pte_t 两 种 数据 结构 大 小 相同 ， 关 系 非常 密切 。 当 
一 个 页 面 在 内 存 中 时 ， 页 面 表 中 的 表 项 pte, t 的 最 低位 P 标志 为 1， 表 示 页 面 企 内 存 中 ， 而 其 余 和 名 位 指 
明 物 理 内 存 页 友 的 地 址 及 页 而 的 届 性 。 而 当 一 个 页 面 在 磁盘 上 时 ， 则 相应 的 页 面 表 项 不 再 指向 个 物 
理 内 存 页 而 ， 而 症 变 成 了 个 swp_entry_t“ 表 项 ”， 指 示 着 这 个 页 而 的 去 向 。 由 于 此 时 其 最 低位 为 0， 
表 丰 页 面 不 在 内 存 ， 所 以 CPU 中 的 MMU 单元 对 其 余 各 位 都 名 略 不 顾 ， 而 留 符 系 统 软件 自己 来 加 以 解 
E. fr Linux 内 核 中 ， 就 用 它 来 惟 “地 确定 一 个 页 面 在 盘 上 的 位 置 ， 包 括 在 哪个 文件 或 设备 ， 以 及 
页 面 在 此 文件 中 的 相对 位 置 。 

所 以 ， 当 页 面 在 内 存 对 ， 页 面 表 小 的 相应 表 项 确定 了 地 址 的 映射 关系 ;而 当 页 面 不 在 内 存 时 ， 则 
指明 了 物理 页 面 的 去 向 和 所 在 。 读 者 在 阅读 内 核 的 源 程序 时 ， 不 妨 将 SWP_TYPE(entry) 想 像 成 
SWP_FILE(entry). 
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先 介绍 一 下 用 来 释放 一 个 磁盘 页 面 的 函数 __swap_free( )。 通 过 这 个 函数 的 阅读 ， 恋 者 可 以 加 深 对 
上 面 这 一 段 说 明 的 理解 。 此 哨 数 的 代码 在 文件 mm/swapfile.c 中 。 而 分 配 磁 栖 页 面 的 函数 
__get_swap_page( ) 也 在 同一 文件 中 ， 读 者 不 妨 白 行 阅读 。 
先 来 看 __swap_free( ) 的 开头 几 行 : 


141 /* 

142 * Caller has made sure that the swapdevice corresponding to entry 
143 * is still around or has not been recycled 

144 */ 

145 void | swap free(swp entry t entry, unsigned short count) 
146 { 

147 struct swap info struct * p; 

148 unsigned long offset, type: 

149 

150 if (lentry. val) 

151 goto out; 

152 

153 type = SWP_TYPE(entry) ; 

154 if (type >= nr swapfiles) 

155 goto bad_nofile; 

156 p = & swap info[typel; 

157 if (!(p->flags & SWP USED)) 

158 goto bad device; 


如 果 entry.val 为 0, 就 显然 不 需要 做 任何 事 , 因为 在 任何 页 面 父 换 设备 或 文件 中 页 面 0 是 不 用 十 页 
面 交 换 的 。 接 着 , 如 前 所 述 , SWAP. TYPE 所 返回 的 实际 上 是 页面 交换 设备 的 序号 , 即 其 swap. info struct 
结构 在 swap info[ ] 数 组 中 的 下 标 。 所 以 156 行 以 此 为 下 标 从 swap info. ] 中 取得 具体 文件 的 
swap info struct 结构 。 文 件 找到 以 后 ， 下 面 就 来 看 具体 的 页 面 了 : 


159 offset = SWP_OFFSET (entry) ; 
160 if (offset >= p->max) 


161 goto bad offset; 

162 if (!p-^swap map[offset]) 

163 goto bad free; 

164 swap list lock( ); 

165 if (p^ prio > swap infolswap list.next]. prio) 
166 swap list.next = type; 

167 swap device lock(p); 

168 if (p-^swap maplofíset] < SWAP MAP MAX) | 
169 if (p-^swap map[offset] € count) 

170 goto bad count; 

171 if (!(p->swap_maploffset] -= count)) { 
172 if (offset < p->lowest bit) 

173 p-^lowest bit = offset; 

174 if (offset > p—^highest bit) 

175 p-^highest bit = offset; 
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176 nr swap pages-^*; 
177 } 

178 } 

179 swap_device_unlock (p); 
180 swap list unlock ( ); 

181 out: 

182 return: 


如 前 所 述 ，offset 是 页 面 在 文件 中 的 位 置 ， 当 然 不 能 大 于 文件 本 身 所 提供 的 最 大 值 。 而 
p->swap_map[offset] 是 该 页 面 的 分 配 ( 和 使用) 计数， 如 为 0 就 表明 尚 示 分配。 同时， 分 配 计数 也 不 应 大 
T SWAP MAP. MAX. 函数 的 调用 参数 count 表示 有 有 几 个 使 用 者 释放 该 负面 , 所 以 从 计数 中 减 去 count. 
当 计数 达到 0 时 ， 这 个 页 面 就 真正 变 成 空闲 了 。 此 时 ， 如 果 页 面 落 在 当前 可 供 分 配 的 范围 之 外 ， 就 要 
相应 地 调整 这 个 范围 的 边界 lowest_bit 或 highest bit, 同时 ,可 供 分 配 的 盘 上 页 曾 的 数量 nr. swap. pages 
也 增加 了 上 。 值 得 注意 的 是 ， 释 放 磁 由 页 面 的 操作 实际 上 并 不 涉及 伐 极 操作 ， 而 只 是 在 内 在 中“ 账面” 
上 的 操作 ， 表 不 磁盘 上 那个 页 面 的 内 容 已 经 作废 。 所 以 ， 花 费 的 代价 是 极 小 的 。 

知道 了 内 核 怎 样 管理 内 存 负 面 和 盘 上 页 耐 以后， 就 可 以 来 看 看 内 存 负 面 的 周转 了 。 当 一 个 内 存 页 
面 空 阴 ， 也 就 是 留 在 某 一 个 宰 困 页 面 管理 区 的 室 闲 队 刻 中 时 ， 其 page 结构 中 的 计数 count X 0, ifi TE 
分 配 页 面 时 将 其 设置 成 1。 这 是 在 函数 rmqueue( ) 中 通过 set page count( ) 设 置 的 ， 我 们 在 前 面 已 经 看 
到 过 。 

所 谓 内 存 页 面 的 周转 有 两 方面 的 意思 。 其 一 是 页 面 的 分 配 、 使 用 和 局 收 ， 并 不 一 定 涉及 页 面 的 盘 
区 交换 。 其 二 才 是 稚 区 人 交换， 而 交换 的 目的 最 终 也 是 页 面 的 回收 。 并 非 所 有 的 内 存 页 面 都 是 可 以 交换 
出 去 的 。 事 实 上 ， 只 有 映射 到 用 户 空 间 的 页 面 才 会 被 换 出 ， 而 内 核 ， 即 系统 空间 的 页 而 则 不 在 此 列 。 
这 里 上 要 说 时 下， 在 内 核 中 可 以 访问 所 有 的 物 埋 页 而 ， 换 言 之 所 有 的 物理 页 面 在 系统 空间 中 都 是 有 映 
射 的。 所 请 “ 几 户 空间 的 页 面 ” 是 指 在 全 少 个 进程 的 用 户 空间 中 有 了 映射 的 页 面 ， 反 之 则 为 (内 能 由 ) 
内 核 使 用 的 页 面 。 

按 页 面 的 内 容 和 性 质 ， 用 户 空 间 的 真 而 有 下 面 几 种 : 

e 普通 的 用 户 空间 页 而 ， 包 括 进程 的 代 公 段 、 数 据 段 、 堆 线段 ， 以 及 动态 分 策 的 “人 存储 堆 ” 其 

中 有 些 页 面 从 用 户 程序 即 进 程 的 角度 看 是 静态 的 (如 代码 段 )， 但 从 系统 的 角度 看 仍 是 动态 分 
配 的 。 

© 通过 系统 调用 mmap ) 映 射 人 到 用 户 空间 的 已 打开 文件 的 内 容 。 

@ FERRIER ATEK. 

AEE ERA EFAS, A A RE / 换 入 。 

MERRI FR Se KER va RARE, EE A A EAS Fd rf S EA JL. 
W^. ARRBAAK |S eo SHA EMA REAM OAC ASI, AKO RS 
的 。( 相 比 之 下 ， 进 程 的 代码 段 和 全 局 量 都 在 几 户 空间 ， 所 占 的 内 存 页 面 都 是 动态 的 ， 使 用 前 要 经 过 分 
配 ， 最 后 都 会 被 释放 ， 并 且 中 途 可 能 被 换 出 而 回收 后 另行 分 配 ) 

除 此 之 外 ， 内 核 中 使 用 的 内 存 页 而 也 要 经 过 动态 分 号 ， 但 永远 都 保留 在 内 存 中 ， 不 会 被 交换 出 去 。 
此 类 常 驻 内 存 的 页 面 根据 其 内 容 的 性 质 可 以 分 成 两 类 。 

一 类 是 -- 旦 使 用 完毕 便 无 保存 的 价值 ， 所 以 立即 便 可 释放 、 回 收 。 这 类 页 面 的 周转 很 简单 ， 就 是 
TA (分配 ) 一 使 用 -> (释放 ) 一 空闲 。 这 种 用 途 的 内 核 页 面 人 致 上 有 这 样 一 些 : 

e ”内 核 中 通过 kmalloc( ) 或 vmalloc( ) 分 配 、 用 作 某 些 临 时 性 使 用 和 为 管理 目的 而 设 的 数据 结构 ， 
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如 vma area, struct 数据 结构 等 等 。 这 些 数据 结构 一 旦 使 用 完毕 便 无 保存 价值 ， 所 以 立即 便 可 
释放 。 不 过 由 于 一 个 页 而 中 往往 有 多 个 同 种 数据 结构 ， 所 以 要 到 整个 抽 面 都 空闲 时 才能 把 页 
面 释 放 。 
e ”内 核 中 通过 alloc_pages( ) 分 配 ， 用 作 某 些 临 时 性 使 用 和 为 管理 日 的 的 内 人 存 页 血 ， 如 每 个 进程 
的 系统 堆栈 所 在 的 两 个 页 面 ,以太 从 系统 空间 复制 参数 时 使 用 的 页 和 出 等 等 。 这些 负面 也 是 一 
也 使 用 完毕 便 无 保 仓 的 价值 ， 所 以 立即 使 可 释放 。 
另 一 类 是 虽然 使 用 完毕 了 ， 但 是 其 内 容 仍 有 保存 的 价值 。 只 要 条 件 人 允许， 把 这 些 负 和 面 “ 养 起 来 ” 
也 许可 以 提高 以 后 的 操作 效率 。 这 类 页 面 (或 数据 结构 ) 在 “释放 ”之 后 要 放 入 “个 LRU 队列 ， 经 过 一 
段 时 间 的 缓冲 让 其 “老化 ”; 如 果 在 此 期 间 忽 然 又 要 用 到 其 内 容 了 , 便 直接 将 页 面 连 内 容 分 配给 “用 户 ” 
否则 便 继续 老化 ， 直 到 条 件 不 再 允许 时 才 加 以 叫 收 。 这 种 用 途 的 内 核 页 面 大 致 上 有 下 面 这 些 ; 
e 在 文件 系统 操作 中 用 来 绥 冲 存储 一 些 文件 日 录 结 构 dnetry 的 空间 。 
e ”在 文件 系统 操作 中 用 来 缓冲 存储 一 些 inode 结构 的 空间 。 
e 用 于 文件 系统 读 / 写 操作 的 缓冲 |x.。 
这 些 页 面 的 内 容 是 从 文件 系统 中 直接 谈 入 或 经 过 综合 取得 的 ， 释 放 后 并 即 回收 男 作 他 用 也 并 万 不 
可 ， 但 是 那样 以 后 要 用 时 就 又 要 付出 代价 了 。 
相 比 之 下 ， 页 面 父 换 是 最 复杂 的 ， 所 以 我 们 将 花 较 大 的 篇 幅 来 介绍 。 
显然 ， 最 简单 的 页 面 交 换 策略 就 是 : 每 当 缺 页 异常 时 便 分 配 一 个 内 存 页 面 ， 放 把 在 伐 盘 上 的 页 面 
读 入 到 分 配 得 到 的 内 存 页 面 中 。 如 果 没 有 空闲 页 面 可 供 分 配 ， 就 设法 将 一 个 或 几 个 内 存 页 面 换 出 到 磁 
盘 上 ， 从 许 腾 出 一 些 内 存 页 面 来。 但 想 ， 这 种 完全 消极 的 页 面 交 换 策略 有 个 缺点 ， 就 是 页面 的 交换 总 
是 “临阵 磨 枪 ”， 发 生 在 系统 忙碌 的 时 候 而 没有 调度 的 余地 。 比 较 税 极 的 办 法 是 定 期 地 ， 最 好 是 在 系统 
相对 空闲 时 ， 挑 选 一 些 页 面 疡 先 换 出 而 腾 出 一 些 内 存 页 面 ， 从 而 在 系统 中 维持 一 定 的 空闲 页 面 供应 量 ， 
使 得 在 缺 页 中 断 发 生 时 总 是 有 空闲 内 存 页 面 可 供 分 配 。 至 于 挑选 的 准则 ，“…- 般 都 是 LRU, BIBER “Re 
近 最 少 用 到 ”的 页 面 。 但 是 ， 这 种 积极 的 页 面 交 换 策略 实行 起 来 也 有 问题 ， 因 为 实际 上 并 不 存在 一 种 
方法 可 以 准确 地 预测 对 页 面 的 访问 。 所 以 ， 完 全 有 可 能 发 生 这 样 的 现象 ， 就 是 一 个 页 面 已 经 好 久 没有 
受到 访问 了 ， 但 是 刚 把 它 换 出 到 磁 丽 上 ， 却 又 有 访问 了 ， 于 是 具 好 义 赶 快 把 它 换 进 米 。 人 在 最 坏 的 情况 
下 ， 有 可 能 整个 系统 的 处 型 能 力 都 被 这 样 的 换 入 / 换 出 所 饱和 ， 而 实际 上 根木 不 能 进行 有 效 的 运算 和 
操作 。 有 人 把 此 种 现象 称 为 (页 面 的 )“ 拌 动 ”。 
为 了 防止 这 种 情况 的 发 生 ， 吕 以 将 页 而 的 换 出 和 内 人 存 页 面 的 释放 分 成 两 步 米 做 。 当 系统 挑选 出 右 
干 内 存 页 面 准备 换 出 时 ， 将 这 些 页 而 的 内 容 写 入 机 应 的 磁盘 页 面 小 ， 并 且 将 相应 页 击 表 项 的 内 容 改 成 
指向 盘 上 页 面 〈P 标志 位 为 0， 表 示 页 向 不 在 内 存 )， 但 是 所 贞 据 的 内 存 页 面 却 并 不 立即 释放 ， 而 是 将 
其 page 结构 留 在 一 个 “ 暂 存 “(cache) 队列 《或 称 缓冲 队列 》 中， 只 是 使 共 从 “活跃 状态 ” 转 入 了 “不 
活跃 状态 ”， 就 像 军 人 从 “现役 ” 转 入 了 “预备 役 ”。 至 于 内 存 页 面 的 “退役 ” 邮 最 后 释放 ， 则 推迟 到 
以 后 有 条 件 地 进行 。 这 样 ， 如 果 在 一 个 页 面 被 换 出 以 后 立即 又 受到 访问 而 发 牛 缺 页 异常 ， 束 如 以 从 物 
理 页 面 的 暂 存 队列 中 找 回想 应 的 页 面 ， 再 次 为 之 建立 映射 。 山 于 此 负面 尚未 群 族 ， 还 保留 着 其 峻 来 的 
内 容 ， 就 不 需要 从 盘 上 读 入 了 。 反 之 ， 如 果 经 过 一 段 时 间 以 后 ， 一 个 不 活跃 的 内 存 贞 面 ， 即 还 留 在 暂 
存 队列 却 已 不 再 有 (用 户 空 间 ) 肌 射 的 页 面 ， 还 是 没有 受到 访问 ， 那 就 到 了 最 后 退役 的 时 候 了 。 如 果 留 在 
暂 存 队列 中 的 页 面 叉 受到 访问 ， 确 切 地 说 是 发 生 了 以 此 页 面 为 月 标的 页 面 异 党 ， 那 么 只 要 恢复 这 个 页 
面 的 映射 并 使 其 脱离 暂 存 队 询 就 可 以 了 ， 此 时 该 负面 义 回 介 了 活跃 状态 。 
这 种 策略 显然 可 以 减 小 树 动 的 叮 能 ， 并 且 减 少 系 统 在 页 面 交换 上 的 伦 费 。 品 是， 如 果 更 深入 地 考 
察 这 个 问题 ， 就 可 以 看 出 其 实 还 可 以 改进 。 首 先 ， 在 准备 换 出 一 个 页 面 时 并 不 一 定 要 把 它 的 内 容 写 入 
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磁盘 。 如 果 有 和 月 从 最 近 一 次 换 入 该 负面 以 后 从 森 写 过 这 个 负 ! 和 由 ， 那 么 这 个 页 而 是 “干净 ”的 ， 也 就 是 与 
盘 上 负面 的 内 容 相 £x. XXTÉD vd AES Ss. Ak, iE "HEU B gf. (A TAL 
HA, Mur EL ^E A UR eT. Sext - 段 时 间 的 “冷却 ”或 “老化 ”后 再 扎 出 去 ， 从 而 改 成 “于 
癣 ”页 面 。 至 二 “十 净 ” 页 面 ， 则 偿 可 以 继续 缓 神 到 真有 必要 时 才 加 以 回收 ， 因 为 回收 一 个 “ 匡 净 ” 
页 面 的 花费 是 很 小 的 。 
综 上 所 述 ， 物 理 内 存 页 面 换 入 / 换 出 的 周转 要 点 如 下 : 
(空闲 。 页 而 的 page 数据 结构 通过 其 队 记 头绪 构 list 链 入 某 个 页 面 管理 区 (zone) 的 空 内 区 人 队列 
free_area。 页 | 用 的 使 用 计数 count 为 0。 
Q) 分 配 。 通 过 了 丽 数 __alloc_pages( ) 或 __get_free_page( ) 从 某 个 空闲 队列 中 分 配 内 存 页 所， 并 将 
所 分 由 页面 的 使 用 计数 count BAK 1, He page 数据 结构 的 队列 头 list £8 MJ D de pA] o 
(3) 活 牙 状态 。 页 面 的 page 数据 结构 通过 其 队列 头 结构 Iru 链 入 活跃 负面 队列 active_list， 并 有 至 
少 有 一 个 进程 的 (用户 空间 ) 页 面 表 项 指向 该 页 面 。 每 当 为 页 面 建 立 或 恢复 峡 射 时 ， 痢 使 页 向 
的 使 用 计数 count 加 1. 
(4) 不 活跃 状态 ( 脏 )。 页 面 的 page 数据 结构 通过 其 队 询 头 结构 lru BEACRESEK “WE” DUBII 
inactive_dirty_list， 但 是 占 则 上 不 所 有 任何 进程 的 页 面 表 项 指向 该 页 面 。 每 当 断 和 页 面 的 映射 
时 都 使 员 和 面 的 使 用 计数 count 减 1。 
(5) 将 个 活跃 “ 脐 ” 负 和 面 的 内 容 写 入 交换 没 备 ， 并 将 页 面 的 page 数据 结构 从 不 活跃 “ 脏 ” 页 面 队 
列 inactive. dirty. list 转移 钊 基 个 不 活跃 “王将 ”页 面 队列 中 。 
(6) 不 活跃 状态 (十 净 )。 页 面 的 page 数据 结构 通过 其 队列 头 结构 Iru BEALE PS RR “T” ji 
而 队 询 ， 每 个 页 面 管理 区 玫 有 一 个 不 活跃 “干净 ”页 面 队 列 inactive clean list. 

(7) 如 果 企 转 入 不 活跃 状态 以 后 的 一 段 时 间 内 页 面 受到 访问 ， 则 又 转 入 活路 状态 并 恢复 映射 。 

(8)” 当 有 党 要 时 ， 铝 从 “十 净 ” 页 面 队 便 中 回收 页 面 ， 或 退 同 到 空 闪 队列 中 ， 或 直接 男 行 分 出。 

当然 ， 实 际 的 实现 还 要 更 复杂 H, 

为 了 实现 这 种 策略 ， 在 page 数据 结构 中 设 旺 了 上 所 第 的 各 种 成 分 ， 并 在 内 核 中 设置 了 个 局 性 的 
active list 和 inactive dirty list P, LRU 队列 ， 还 在 繁 个 负 | 和 管理 区 中 设置 了 一 个 inactive_clean_list。 
根据 页 面 的 page 结构 让 这些 LRU 队列 中 的 位 装 ， 就 可 以 知道 这 个 页 面 转 入 不 酒 路 状态 后 时 间 的 长 短 ， 
为 同 收 页 面 提供 人 参考。 同时， 还 通过 一 个 全 局 的 address_space 数据 结构 swapper_space， 把 所 有 可 交换 
内 存 员 夯 管 理 起 米 ， 每 个 吕 父 换 内 存 页 面 的 page 数据 结构 都 通过 其 队列 头 结构 list 链 入 其 中 的 -个 队 
列 。 此 外 ， 为 加 快 在 暂 存 队列 中 的 搜索 ， 义 设置 了 一 个 杂凑 表 page hash table. 

让 我 们 来 看 看 内 核 足 怎样 将 一 全 内 存 页 面 镍 入 这 些 队 刘 的 。 内 核 在 为 某 个 需要 换 入 的 页 面 分 屿 了 
一 个 空闲 内 存 页 面 以 后 ， 就 通过 add to swap. cache( ) 将 其 page 结构 链 入 相应 的 队列 ， 这 个 咀 数 的 代码 
T mny/swap_state.c F: 


54 void add_to_swap_cache (struct page *page, swp entry t entry) 
55 { 


56 unsigned long flags; 

57 

o8 #ifdef SWAP CACHE INFO 

59 swap cache add totalit; 
60 tendi f 

61 if (!Pagelocked (page) ) 


2:73 
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62 BUG( ) ; 

63 if (PageTestandSetSwapCache (page) ) 

64 BUG( ) ; 

65 if (page-^mapping) 

66 BUG( ) ; 

67 flags = page flags & ^((1 << PG error) | (1 << PG arch D); 
68 page->flags = flags | (1 << PG uptodate); 

69 add to page cache locked(page, &swapper space, entry. val); 
70 } 


在 调用 这 个 函数 前 要 先 将 页 面 锁 住 ， 以免 受到 十 扰 。 因为 是 刚 分 配 的 空 闪 页面, 其 PG. swap. cache 
标志 位 必须 为 0， 指 针 mapping 也 必须 为 0。 同 时 ， 页 面 的 内 容 是 刚 从 交换 设备 读 入 的 ， 当 然 与 盘 上 页 
面 一 致 ， 所 以 把 PG_uptodate 标志 位 设 成 |。 函数 __add_to_page_cache( ) 的 定义 见 mm/filemap.c: 





476 /* 
477 * Add a page to the inode page cache. 
478 * 
479 * The caller must have locked the page and 
480 * set all the page flags correctly.. 
481 */ 
482 void add to page cache locked (struct page * page, 
struct address space *mapping, unsigned long index) 
483 { 
484 if (PageLocked (page) ) 
485 BUG ( ) ; 
486 
487 page_cache_get (page) ; 
488 spin_lock (&pagecache_lock) ; 
489 page->index = index; 
490 add page to inode queue(mapping, page); 
491 add page to hash queue(page, page hash(mapping, index)); 
492 lru cache add(page); 
493 spin unlock(&pagecache lock); 
494  ] 


调用 参数 mapping £é— address space 结构 指针 ， 就 是 &swapper_space。 这 种 数据 结构 的 定义 见 
include/linux/fs.h: 


365 struct address space { 


366 struct list head clean pages; /* list of clean pages */ 

367 struct list head dirty pages; /* list of dirty pages */ 

368 struct list head locked pages; /* list of locked pages */ 

369 unsigned long nrpages; /* number of total pages */ 

370 struct address space operations *a ops; /* methods */ 

371 struct inode *host ; /* owner: inode, block device */ 

372 struct vm area struct  -**i mmap; /* list of private mappings */ 
373 struct vm area struct *i mmap shared; /* list of shared mappings */ 
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374 spinlock t i shared lock; /* and spinlock protecting it */ 
375 }; 


结构 中 有 三 个 队列 头 ， 前 两 个 分 别 用 于 “干净 ”的 和 “ 脏 ” 的 页 面 〈 需 要 写 出 )， 另 :个 队列 头 
locked pages 用 于 需要 和 暂时 锁定 在 内 存 林 让 换 出 的 和 页面 。 数 据 结构 swapper space 的 定义 见于 
mm/swap state.c: 


31 struct address space swapper space = { 


32 LIST HEAD INIT(swapper space.clean pages), 

33 LIST HEAD INIT (swapper. space. dirty pages), 

34 LIST HEAD TNIT(swapper space. locked pages), 
35 0, /* nrpages */ 

36 &swap aops, 

37 } 


结构 中 的 最 后 一 个 成 分 指向 只 “个 数据 结构 swap_aops， 里 面包 含 了 各 种 swap HUF AT RAAT 

Mek BX add_to_page_cache_locked( ) 中 可 以 看 到 , 页 面 page 被 加 入 到 三 个 队列 中 。 下 面 读者 会 看 到 ， 
page 结构 通过 其 队列 头 list 链 入 暂 存 队 列 swapper_space， 通 过 指针 next_hash 和 双重 指针 pprev_hash 
链 入 某 个 杂 竣 队列 ， 并 通过 其 队列 头 lru BEA LRU 队列 active, list. 

代码 中 的 page_cache_get( ) 在 pagemap.h 中 定义 为 get_page(page)， 实 际 上 只 是 将 页 面 的 使 用 计数 
page->count 加 1。 这 是 在 include/linux/mm.h 中 定义 的 : 


150 #define get page(p) atomic inc(&(p)-^count) 
31 "define page cache get(x) get page(x) 


先 将 给 定 的 page 结构 通过 add. page. to. inode quene( ) 加 入 到 swapper. space 中 的 clean. pages 队列 ， 
其 代码 在 include/linux/pagemap.h 中 : 


72 static inline void add page to inode queue (struct address space *mapping, 
struct page * page) 

73 «if 

74 struct list head *head = &mapping->clean_pages; 

75 

76 mapping->nrpages++; 

77 list_add(&page->list, head); 

78 page-2mapping = mapping; 

79] 


可 见 ， 链 入 的 是 swapper_space 中 的 clean pages 队列 ， 刚 从 交换 设备 读 入 的 页 面 当然 是 “干净 ” 
页 面 ,为 什么 这 个 函数 几 add_page_to_inode_queue WE? 这 是 因为 页 面 的 缓冲 不 光 是 为 页 面 交换 而 设 的 ， 
文件 的 读 / 所 也 要 用 到 这 种 缓冲 机 制 。 通 常 来 自 同 一 个 文件 的 页 面 就 道 过 一 个 address. space 数据 结构 
来 管理 ， 而 代表 着 个 文件 的 inode 数据 结构 中 有 个 成 分 i_data， 那 就 是 个 address space 数据 结构 。 
从 这 个 意义 上 说 ， 用 来 管理 可 交换 页 而 的 address space 数据 结构 swapper_space 只 是 个 特例 。 

然后 通过 __add_page_to_hash quene( ) 将 共 链 入 到 菜 个 杂凑 队列 中 ， 其 代码 也 在 mm/filemap.c 中 : 


i454 
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58 static void add page to hash queue (struct page * page, struct page **p) 
59  ( 


60 struct page *next = *p; 

61 

62 *p = page; 

63 page-^next hash = next; 

64 page-^pprev hash = p; 

65 if (next) 

66 next-^pprev hash = &page-?next hash; 
67 if (page— buffers) 

68 PAGE BUG (page) ; 

69 atomic inc(&page cache size); 
10 } 


BEA RIS ABA SUEUR FRA: 


#define page hash(mapping, index) V 
(page hash table + page hashfn(mapping, index) ) 


最 后 将 页 面 的 page 数据 结构 通过 Iru. cache, add( ) 链 入 到 内 核 中 的 LRU 队列 active, list 中 ， 其 代码 
在 mm/swap.c F: 





226 /** 

221 * lru cache add: add a page to the page lists 
228 * Gpage: the page to add 

229 */ 

230 void lru cache add (struct page * page) 
231 { 

232 spin lock(&pagemap lru lock); 

233 if (!PageLocked (page) ) 

234 BUG( ) ; 

235 DEBUG ADD PAGE 

236 add page to active list (page) ; 

237 /* This should be relatively rare */ 
238 if (!page-^age) 

239 deactivate page nolock (page) ; 
240 spin unlock(&pagemap lru lock): 

241 } 


这 里 的 add_page_to_active_list( ) 是 个 宏 操作 ， 定 义 丁 include/linux/swap.h 内 : 


209 tdefine add page to active list (page) | V 


210 DEBUG ADD PAGE V 

211 ZERO PAGE BUG \ 

212 SetPageActive (page); \ 

213 list add(&(page)-^lru, &active list); V 
214 nr active pagestt; \ 
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215 } 


li T page 数据 结构 可 以 通过 共同 -… 个 队列 尖 结 构 ljru 链 入 不 同 的 LRU 队列 ， 所 以 需要 有 
PG active. PG inactive dirty 以 及 PG inactive clean 等 标志 位 来 表明 目前 古 在 哪 .个 队列 中 。 以 后 谈 
者 将 看 到 负面 在 这 些 队 列 间 的 转移 。 


存储 管理 不 完全 是 内 核 的 事 ， 用 户 进程 可 以 在 相当 程度 上 参与 对 内 存 的 管理 ， 可 以 在 一 定 的 范围 
内 对 二 其 本 身 的 内 存 管理 向 内 核 提 出 一 些 要 求 , 例如 通过 系统 调用 mmap( ) 将 … 文 件 映射 到 它 的 用 户 空 
间 。 特 别 是 特权 用 户 进程 ， 还 掌握 着 对 换 入 / 换 出 机 制 的 全 局 性 控制 权 ， 这 就 是 系统 调用 swapon( fü 
swapoff( )。 调 用 界面 为 : 


swapon(const char *path, int swapflags) 
swapoff(const char *path) 


EAT 3 S Ua EO A PEP BA, HE EATER EXER Re BR FH TP 9E TELS 
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保护 。 在 实践 中 ， 这 样 做 有 时 候 是 必要 的 。 一些 “ 髓 入 式 ” 系 统 ， 常 常用 Flash Memory (FE) KIR 
Elit Tr Wi. XY Flash Memory 的 写 操作 是 很 麻烦 费时 的 , 需要 将 存储 器 中 的 内 容 先 抹 去 , 然后 才 写 入 ， 
而 抹 去 的 过 程 又 很 慢 ( 与 磁盘 读 写 相 比较 )。 显 然 ，Flash Memory 是 不 适合 用 作 页 出 交换 的 。 所 以 在 这 
样 的 系统 中 应 将 盘 区 交换 关闭 。 事 实 上， 在 Linux 内 核 刚 引导 进来 之 初 ， 所 有 的 页 面 交换 部 是 关闭 的 ， 
内 核 在 初始 化 期 间 要 执行 /etc/rc.djrc.S 命令 文件 , 而 这 个 文件 中 的 命令 行 之 “就 是 与 系统 调用 swapon() 
相应 的 实用 程序 swapon。 只 要 把 这 命令 行 从 文件 中 拿 掉 就 没有 负面 交换 了 。 

此 外 ， 还 有 儿 个 用 于 共享 内 存 的 系统 调用 ， 也 是 与 存储 管理 有 关 的 。 由 于 习惯 上 将 共享 内 存 寻 入 
进程 间 通 讯 的 范畴 ， 对 这 儿 个 系统 调用 将 在 进程 间 通 讯 一 章 中 另行 介绍 。 


27 物理 页 面 的 分 配 


上 一 节 中 曾经 提 介 ， 当 需 虚 分 配 若 干 内 存 页 面 时 ， 用 十 DMA 的 内 在 页 面 必 须 是 连续 的 。 其 实 ， 
为 使 二 管理， 特别 是 出 十 对 物理 存储 空间 “质地 ”~-* 致 性 的 考虑 ， 即 使 不 是 用 十 DMA 的 内 存 页 面 也 
是 连续 分 配 的 。 

当 一 个 进程 需要 分 配 若干 连续 的 物理 页 而 时 ， 可 以 通过 alloc_pages( ) 来 完成 。Linux 内 核 2.4.0 版 
的 代码 中 有 两 个 alloc_pages( )， 一 个 企 mm/numa.c 中 ， 另 个 全 mm/page_alloc.c 中 ， 编 译 时 根据 所 定 
义 的 条 件 编译 选择 项 CONFIG_DISCONTIGMEM 决定 取 含 。 为 什么 呢 ? 这 就 是 出 于 前 “ 节 中 所 述 对 物 
理 存储 空间 “质地 ” - 致 性 的 考虑 。 

我 们 先 来 看 用 于 NUMA 结构 的 alloc_pages( )， 其 代码 在 mm/numa.c 中 : 


43 #ifdef CONFIG DISCONTIGMEM 


Wool.» aro en PS os 


9] f 
92 * This can be refined. Currently, tries to do round robin, instead 
93 * should do concentratic circle search, starting from current node. 
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94 */ 
95 struct page * alloc pages (int gfp mask, unsigned long order) 
96 { 


97 struct page *ret = 0; 

98 pg data t *start, *temp; 

99 #ifndef CONFIG NUMA 

100 unsigned long flags; 

101 static pg data t *next - 0; 

102 fendif 

103 

104 if (order >= MAX_ORDER) 

105 return NULL; 

106 #ifdef CONFIG NUMA 

107 temp = NODE DATA(numa node id( )); 
108 Helse 

109 spin lock irqsave(&node lock, flags); 
110 if (!next) next = pgdat list; 

111 temp = next; 

112 next = next-?node next; 

113 spin unlock irqrestore(&node lock, flags); 
114 #endif 

115 start = temp; 

116 while (temp) { 

117 if ((ret = alloc pages pgdat(temp, gfp mask, order))) 
118 return (ret); 

119 temp = temp-?node next; 

120 } 

121 temp = pgdat list; 

122 while (temp != start) 1 

123 if ((ret = alloc pages pgdat (temp, gfp mask, order))) 
124 return(ret); 

125 temp = temp-^?node next; 

126 } 

127 return (0) ; 

128} 


首先 ， 对 NUMA 的 支持 是 通过 条 件 编 详 作 为 可 选项 提供 的 ， 所 以 这 段 代码 仅 在 可 选项 
CONFIG_DISCONTIGMEM 有 定义 时 才 得 到 编译 。 个 过 ， 这 里 用 来 作为 条 件 的 是 “不 连续 存储 空间 ”， 
而 不 是 CONFIG_NUMA。 其 实 , 不 连续 的 物理 存储 空间 是 一 种 广义 的 NUMA， 因 为 那 说 明 在 最 低 物理 
地 址 和 最 高 物理 地 址 之 间 存 在 着 空洞 ， 而 有 空洞 的 空间 当然 是 非 均 质 的 。 所 以 在 地 址 不 连续 的 物理 空 
问 也 要 像 在 质地 不 均匀 的 物理 空间 那样 划分 出 若 十 连续 《而且 均 匀 ) 的 “和 节点” 所以， 在 存储 空间 不 
连续 的 系统 中 ， 每 个 模块 都 有 个 若干 个 节点 ， 因 而 都 有 个 pg_data_t 数据 结构 的 队列 。 

调用 时 有 两 个 参数 。 第 - :个 参数 gfp_mask 是 个 整数 , 表示 采用 哪 一 种 分 配 策略 ; 第 二 个 参数 order 
表示 所 需 的 物理 块 大 小 ， 可 以 是 1、2、4、…、 直 到 2M^X-ORPER 个 页 面 。 

T NUMA 结构 的 系统 中 , 可 以 通过 宏 操 作 NUMA_DATA 和 numa_node_id( ) 找 到 CPU 所 在 节点 的 
pg data t 数据 结构 队列 。 而 在 不 连续 的 UMA 结构 中 ， 则 也 有 个 pg_data_t 数据 结构 的 队列 pgdat ist. 
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分 配 时 轮流 从 各 个 节点 开始 ， 以 求 各 节点 负荷 的 平衡 。 
函数 中 主 此 的 操作 在 于 两 个 while EH, EMR Cede A. temp 开始 到 队列 的 术 尾 ， 然 后 回头 
ME ASI) HAARAA WTS, ARR ER PALA BORD, BAM 
而 返回 0。 对 于 每 个 节点 , 调用 alloc_pages_pgdat( ) 试 图 分 配 所 需 的 页 面 , 这 个 函数 的 代码 在 mm/numa.c 
"m 


85 static struct page * alloc pages pgdat (pg data t *pgdat, int gfp mask, 


86 unsigned long order) 

87 d 

88 return alloc pages(pgdat-^node zonelists + gfp mask, order); 
89 } 


可 见 ， 参 数 gfp mask 在 这 里 用 作 给 定 节点 中 数组 node_zonelists[ ] 的 下 标 ， 决 定 具体 的 分 配 策略 。 
把 这 段 代 码 与 下 面 用 于 连续 空间 UMA 结构 的 alloc_pages( ) 对 照 一 下 ， 就 可 以 看 出 区 别 : 在 连续 空间 
UMA 结构 中 只 有 一 个 节点 contig_page_data, 而 在 NUMA 结构 或 不 连续 空间 UMA 结构 中 中 则 有 多 个 。 
连续 空间 UMA 结构 的 alloc_pages( ) 是 在 文件 mm/page_alloc.c 中 定义 的 : 


343 #ifndef CONF1G DISCONTIGMEM 
344 static inline struct page * alloc pages (int gfp mask, unsigned long order) 
345 { 


346 /* 

347 * Gets optimized away by the compiler. 

348 */ 

349 if (order >= MAX ORDER) 

350 return NULL; 

351 return alloc pages(contig page. data. node zonelists*(gfp mask), 
order) ; 

352 } 


tj NUMA 结构 的 alloc_pages( ) 相 反 ， 这 个 函数 仅 在 CONFIG_DISCONTIGMEM 无 定义 时 小 得 到 
编 详 。 所 以 这 师 个 同名 的 肯 数 只 有 一 个 会 得 到 编 详 。 
具体 的 页 面 分 配 由 消 数 __alloc_pages( ) 完 成 ， 其 代码 在 mm/page_alioc.c 中 ， 我 们 分 段 阅 读 : 


[alloc pages( ) > __alloc_pages( )] 


270 /* 
271 * This is the 'heart' of the zoned buddy allocator: 
272 */ 


273 struct page * __alloc_pages(zonelist_t *zonelist, unsigned long order) 
274 { 


215 zone t **zone; 

216 int direct reclaim = 0; 

277 unsigned int gfp mask = zonelist—>gfp_mask; 
278 struct page * page; 

279 
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280 /* 

281 * Allocations put pressure on the VM subsystem. 

282 */ 

283 memory pressurett+; 

284 

285 /* 

286 * (If anyone calls gfp from interrupts nonatomically then it 
287 * will sooner or later tripped up by a schedule( ).) 

288 * 

289 * We are falling back to lower-level zones if allocation 
290 * in a higher zone fails. 

291 */ 

292 

293 /* 

294 * Can we take pages directly from the inactive clean 

295 * list? 

296 */ 

297 if (order == 0 && (gfp mask & | GFP WAIT) && 

298 !(current->flags & PF MEMALLOC)) 

299 direct reclaim - 1; 

300 

301 /* 

302 * If we are about to get low on free pages and we also have 
303 * an inactive page shortage, wake up kswapd 

304 */ 

305 if (inactive shortage( ) > inactive target / 2 && free shortage( )) 
306 wakeup kswapd (0) ; 

307 /* 

308 * If we are about to get low on free pages and cleaning 

309 * the inactive dirty pages would fix the situation, 

310 * wake up bdflush. 

311 */ 

312 else if (free shortage( ) && nr inactive dirty pages > free shortage( ) 
313 && nr inactive dirty pages >= freepages. high) 

314 wakeup bdflush(0); 

315 


调用 时 有 两 个 参数 。 第 -个 参数 zonelist 指 各 代表 着 一 个 其 体 分 配 策略 的 zonelist t 数据 结构 。 另 

-个 参数 order 则 与 前 面 aloc_pages( ) 中 的 相同 。 全 局 量 memory. pressure 衣 示 内 存 页 面 管理 所 受 的 压 
J. DEAF, 归还 时 则 递减 。 这 里 的 局 部 量 gfp mask 来 自 代 表 着 具体 分 配 策略 的 数据 结 
构 ， 是 一 些 用 十 控制 晶 的 的 标志 位 。 如 果 要 求 分 册 的 只 是 单个 页 面 ， 和 击 量 要 等 待 分 配 完 成 ， 义 个 是 用 
于 管理 月 的 ， 则 把 一 个 局 部 量 direct_reclaim 设 成 1， 表示 可 以 从 相应 页 面 管理 区 的 “不 活跃 于 净 页 面 ” 
缓冲 队列 中 回收 。 这 些 页 面 的 内 容 都 已 写 出 至 页 面 父 换 设 甸 或 文件 中 ， 只 是 还 保存 着 页 面 的 内 容 ， 使 
得 在 需要 这 个 页 面 的 内 容 时 无 需 再 从 设备 或 文件 读 入 ， 但 是 当空 闲 页 面 短缺 时 ， 就 顾 不 得 那么 多 了 。 
由 于 一 般 而 言 这 些 页 面 不 一 定 能 像 真 正 的 空闲 页 而 那样 连 成 块 ， 所 以 仅 企 要 求 分 配 单个 页 面 时 才能 从 
这 些 页 面 中 回收 。 此 外 ， 当 发 现 可 分 配 页 面 短 缺 时 ， 还 要 唤醒 kswapd 和 bdflush 两 个 内 核 线程 ， 让 它 
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们 设法 腾 出 ， 些 内 存 页 而 来 “ 详 见 “页 而 的 定期 换 出 *”)。 我 们 继续 往 下 看 : 


[alloc, pages( ) > __alloc_pages( )] 


316 try again: 


317 /* 

318 * First, see if we have any zones with lots of free memory 
319 * 

320 * We allocate free memory first because it doesn't contain 
321 * any data ... DUH! 

322 */ 

323 zone = zonelist-?zones; 

324 for OE 4 

325 zone t *z = *(zone**): 

326 if (12) 

327 break; 

328 if (!z->size) 

329 BUG( ) ; 

330 

331 if (z— free pages >= z-^pages low) { 

332 page = rmqueue(z, order); 

333 if (page) 

334 return page; 

335 } else if (z— free pages < z— pages min && 

336 waitqueue active(&kreclaimd wait)) { 
337 wake up interruptible(&kreclaimd wait); 
338 } 

339 } 

340 


这 是 对 一 个 分 配 策略 中 所 规定 的 所 有 页 面 管理 |[x. 的 循环 。 循 环 中 依次 考察 各 个 管 埋 区 中 空闲 页 面 
的 总 量 ， 如 果 总 量 尚 在 “ 低 水 位 ” 以上， 就 通过 rmqueve( ) 试 图 从 该 管理 区 中 分 配 。 要 是 发 现 管理 区 中 
的 空闲 页 面 总 量 己 经 降 到 了 最 低 点 ， 而 且 有 进程 《实际 上 只 能 是 内 核 线程 kreclaimd) 在 一 个 等 待 队列 
kreclaimd wait 中 睡眠 ， 就 把 它 唤醒 ， 让 它 帮 助 同 收 一 些 页 面 备 用 。 函 数 rmqueue( ) 试 图 从 一 个 页 面 管 
理 区 分 配 若 干 连续 的 内 存 页 面 ， 其 代码 在 mm/page. alloc.c 中 : 


lalloc_pages( ) > __alloc_pages( ) > rmqueue( )] 


172 static struct page * rmqueue(zone t *zone, unsigned long order) 


173 uj 

174 free area t * area = zone->free area + order; 
175 unsigned long curr order - order; 

176 struct list head *head, *curr; 

177 unsigned long flags; 

178 struct page *page: 

179 

180 spin lock irqsave(&zone-^lock, flags); 
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181 do { 

182 head = &area—>free list; 

183 curr = memlist_next (head); 

184 

185 if (curr != head) { 

186 unsigned int index; 

187 

188 page = memlist entry(curr, struct page, list); 
189 if (BAD RANGE (zone, page) ) 

190 BUG( ) ; 

191 memlist del(curr); 

192 index = (page - mem map) - zone-roffset; 
193 MARK USED(index, curr order, area); 

194 zone—>free pages -= 1 << order; 

195 

196 page = expand(zone, page, index, order, curr order, area); 
197 spin unlock irqrestore(&zone-^lock, flags): 
198 

199 set page count(page, 1); 

200 if (BAD RANGE (zone, page) ) 

201 BUG( ) ; 

202 DEBUG ADD PAGE 

203 return page; 

204 } 

205 curr order*-*; 

206 areatt; 

207 } while (curr order < MAX ORDER); 

208 spin unlock irqrestore(&zone-^lock, flags); 

209 

210 return NULL; 

211 ] 


以 前 讲 过 ， 代 表 物 理 页 面 的 page 数据 结构 ， 以 双向 链 的 形式 链接 在 管理 区 的 某 个 空闲 队列 中 。 分 
配 页 面 时 当然 要 把 它 从 队列 中 摘 链 ， 而 摘 链 的 过 程 是 不 容许 其 他 的 进程 、 其 他 的 处 理 器 (如 果 有 的 证 ) 
来 打扰 的 。 所 以 费用 spin_lock_irqsave( ) 将 相应 的 分 区 加 上 锁 ， 不 容许 打扰 。 管 理 区 结构 中 的 空闲 区 
zone-»free area 是 个 结构 数组 ， 所 以 zone->free_area «order 就 指向 链接 所 需 大 小 的 物理 内 存 块 的 队列 
头 。 主 要 的 操作 是 在 一 个 do_while 循 坏 中 进行 。 它 首先 在 恰好 满足 大 小 划 求 的 队列 里 分 配 ， 如 果 不 行 
的 话 就 试 试 更 大 的 《 指 物 理 内 存 块 ) 队列 中 分 配 ， 成 功 的 话 ， 就 把 分 配 到 的 大 块 中 剩余 的 部 分 分 解 成 
小 块 而 链 入 相应 的 队列 《通过 196 行 的 expand( ) )。 

第 188 行 中 的 memlist_entry( ) 从 一 个 非 空 的 队列 里 取 第 个 结构 page 元 素 ,然后 道 过 memlist_del() 
将 其 从 队列 中 摘除 。 对 此 ， 我 们 已 在 第 1 章 中 作 过 解释 。 

函数 expand ) 是 在 同一 文件 Cmm/page_alloc.c) 中 定义 的 : 


{alloc_pages( ) > __alloc_pages( ) > rmqueue( ) > expand( )] 


150 static inline struct page * expand (zone t *«one, struct page *page, 


.82. 


第 2 章 存储 管理 


151 unsigned long index, int low, int high, free area t * area) 
152 ( 

153 unsigned long size = 1 << high; 

154 

155 while (high > low) { 

156 if (BAD RANGE (zone, page) ) 

157 BUG( ) ; 

158 area--; 

159 high--; 

160 size >>= 1; 

161 memlist add head(&(page) ->list, & (area) >free list); 
162 MARK USED(index, high, area); 

163 index += size; 

164 page += size; 

165 } 

166 if (BAD_RANGE (zone, page) ) 

167 BUG ( ) ; 

168 return page; 

169 } 


调用 参数 表 中 的 low 对 应 于 表示 所 需 物 理 块 大 小 的 order, m high JUDGE py TAR 4 dii EN BA SC th 
就 是 从 中 得 到 能 满足 要 求 的 物理 块 的 队列 》 的 curr_order。 当 两 者 相符 时 ， 从 155 行 开 始 的 while 循环 
Pew ST. APACE NERA TRAD CAAT GED TABI AC), ARB ARE AME 
一 档 也 就 是 物理 块 大 小 减 半 的 空闲 块 队列 中 去 ， 并 相应 设置 该 空闲 区 队列 的 位 图 ， 这 是 在 第 158 行 至 
162 行 中 完成 的 。 然 后 从 该 物理 块 中 切 去 ”: 半 ， 而 以 其 后 半 部 作为 “个 新 的 物理 块 〈 第 163 和 164 17), 
而 后 开始 下 “ 轮 循 环 也 就 是 处 理 更 低档 的 空闲 抉 队 列 。 这 样 ， 最 后 必 有 high 与 low 两 者 相等 ， 也 
就 是 实际 剩 下 的 物理 块 与 要 求 恰好 相符 的 时 候 ， 循 环 就 结 训 了 。 

就 这 样 , rmqueue( ) 一 直入 上 扫描 , 直 刘 成功 或 者 最 终 失 败 。 如 果 rmqueue( ) 失 败 , 则 __alloc_pages( ) 
通过 其 for 循环 降格 以 求 ， 接 着 试 分 配 策 略 中 规定 的 上 一 个 管理 区 ， 直 到 成 功 , 或 者 碰 到 了 空 指针 而 最 
Ak CA 327 行 )。 如 果 分 配 成 功 了 ， 则 alloc pages ) 返 加 一 个 page 结构 指针 ， 指 向 页 面 块 中 第 一 
个 页 面 的 page 结构 ， 并 且 该 page 结构 中 的 使 用 计数 count 为 1。 如 果 每 次 分 配 的 都 是 单个 的 页 所 (order 
为 0)， 则 白 然 每 个 页 面 的 使 用 计数 都 是 1 。 

要 是 给 定 分 配 策略 中 所 有 的 页 击 管 理 区 部 失败 了 ， 那 就 只 好 “加 大 力 虚 ”再 试 ， “是 降低 对 页 向 
管理 区 中 保持 “水 位 ”的 要 求 ， :是 把 缓冲 在 管理 区 中 的 “不 活跃 干净 页 面 ” 也 考虑 进去 。 我 们 再 往 
T£. alloc pages( ) 的 代码 (mm/page_alloc.c). 


[alloc pages( ) >  alloc pages( )] 


341 /* 

342 * Try to allocate a page from a zone with a HIGH 
343 * amount of free + inactive clean pages. 

344 * 

345 * If there is a lot of activity, inactive target 
346 * will be high and we' ll have a good chance of 
347 * finding a page using the HIGH limit. 
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348 */ 

349 page = __alloc_pages_limit(zonelist, order, PAGES HIGH, direct reclaim): 
350 if (page) 

351 return page; 

352 

353 f* 

354 * Then try to allocate a page from a zone with more 

355 * than Zone->pages low free + inactive clean pages. 

356 * 

357 * When the working set is very large and VM activity 

358 * is low, we're most likely to have our allocation 

359 * succeed here 

360 */ 

361 page = alloc pages limit(zonelist, order, PAGES LOW, direct reciaim); 
362 if (page) 

363 return page; 

364 


这 里 先 以 参数 PAGES HIGH i Hi | alloc pages limit( ); 如 果 还 不 行 就 再 加 大 力度 ， 改 以 
PAGES LOW 再 调用 一 次 。 函 数 __alloc_pages_limit( ) 的 代码 也 在 mm/page_alloc.c F: 


[alloc_pages()> __alloc_pages( ) > __alloc_pages_limit( )] 


213 define PAGES MIN 0 

214 #define PAGES LOW 1 

215 #define PAGES HIGH 2 

216 

217 /* 

218 * This function does the dirty work for __alloc_pages 
219 * and is separated out to keep the code size smaller. 
220 * (suggested by Davem at 1:30 AM, typed by Rik at 6 AM) 
221 */ 

222 static struct page * . alloc pages limit (zonelist t *zonelist, 
223 unsigned long order, int limit, int direct reclaim) 
224 { 

225 zone t **zone = zonelist—>zones; 

226 

227 for (;;) { 

228 zone t *z = *(zone*-); 

229 unsigned long water mark; 

230 

231 if (tz) 

232 break; 

233 if (!z->size) 

234 BUG( ) ; 

235 

236 /* 
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¥ We allocate if the number of free + inactive clean 
* pages is above the watermark. 


*/ 
switch (limit) { 
default: 
case PAGES MIN: 
water mark = z-»pages min; 
break; 
case PAGES LOW: 
water mark ~ z-»pages low; 
break; 
case PAGES HIGH: 
water mark = z—^pages high; 
] 
if (z— free pages + z-— inactive clean pages > water mark) | 
struct page *page = NULL; 
/* Tf possible, reclaim a page directly. */ 
if (direct reclaim && z—>free pages < z—>pages min + 8) 
page = reclaim page (z); 
/* If that fails, fall back to rmqueue. */ 
if (page) 
page = rmqueue(z, order); 
if (page) 
return page; 
} 
} 


/* Found nothing. */ 
return NULL; 
] 


这 个 函数 的 代码 与 前 面 __alloc_pages( ) 中 的 for 循环 侍 迪 得 .上 只 是 稍 有 不 同 ， 我 们 把 它 留 给 谈 者 。 


其 中 reclaim_page( ) 从 页 面 管理 区 的 inactive clean list 队列 中 辐 收 页 看 ， 其 代码 在 mm/vmscan.c H, 我 
们 把 它 列 出 在 “页 而 的 定期 换 出 ” 节 的 未 尾 ， 谈 者 可 以 在 学习 了 页 面 的 换 入 和 换 出 以 后 自己 疝 读 。 
注意 调用 这 个 函数 的 条 件 是 参数 direct_reclaim 3E 0, APOA-I. 


还 是 不 行 的 话 ， 那 就 说 明 这 些 管理 区 中 的 负面 已 经 产 重 短缺 了， 让 我 们 看 看 __alloc_pages( ) 是 如 


何 对 付 的 ， 


[alloc pages( ) > __alloc_pages( )] 


365 
366 
367 
368 
369 
370 


/* 
* OK, none of the zones on our zonolist has lots 
* of pages free. 
* 
* We wake up kswapd, in the hope that kswapd will 
* resolve this situation before memory gets tight. 
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371 * 

372 * We also yield the CPU, because that: 

373 * — gives kswapd a chance to do something 

374 * — slows down allocations, in particular the 

375 * allocations from the fast allocator that's 

376 * causing the problems .. 

377 * —... which minimises the impact the "bad guys” 
378 * have on the rest of the system 

379 * - if we don’t have _ GFP IO set, kswapd may be 
380 * able to free some memory we can't free ourselves 
381 */ 

382 wakeup kswapd (0) ; 

383 if (gfp mask & | GFP WAIT) { 

384 . Set current state(TASK RUNNING) ; 

385 current->policy |= SCHED_YIELD; 

386 schedule( ); 

387 } 

388 

389 /* 

390 * After waking up kswapd, we try to allocate a page 
391 * from any zone which isn’ t critical yet. 

392 * 

393 * Kswapd should, in most situations, bring the situation 
394 * back to normal in no time. 

395 */ 

396 page =  alloc pages limit(zonelist, order, PAGES MIN, direct reclaim), 
397 if (page) 

398 return page; 

399 


首先 是 唤醒 内 核 线程 kswapd， 证 它 设 法 换 出 一 些 页 面 。 如 果 分 配 策略 表明 对 于 要 求 分 配 的 页 面 是 
志 企 必得 ,分 配 不 到 时 宁可 等 待 ， 就 让 系统 来 一 次 调度 ， 并 且 让 当前 进程 为 其 他 进程 让 一 下 路 。 这 样 ， 
来 让 kswapd 有 可 能 立即 被 调度 运行 ， 二 米 其 他 进程 也 有 可 能 会 释放 出 -- 些 页 面 ， 再 说 也 可 减缓 了 要 
求 分 配 页 而 的 速度 ， 减 经 了 压力 。 当 请 求 分 配 页 面 的 进程 峙 次 被 调度 运行 时 ， 或 者 分 配 策略 表明 不 允 
许 等 待 时 ， 就 以 参数 PAGES MIN 上 再 调用 -次 __alloc_pages_limit( )。 可 是 ， 要 是 再 失败 呢 ? 这 时 候 就 
要 看 是 谁 在 要 求 分 配 内 存 页 面 了 。 如 果 要 求 分 配 页 面 的 进程 (或 线程 ) 是 kswapd 或 kreclaimd， 本 身 就 是 
“内 存 分 配 工作 者 ”要求 分 配 内 存 页 面 的 月 的 是 执行 公务 ， 是 要 更 好 地 分 配 内 存 页 面 ， 这 当然 比 一 般 
的 进程 更 重点。 这 些 进程 的 task struct 结构 中 flags 字段 的 PF MEMALLOC 标志 位 为 1。 我 们 先 看 对 
于 一 般 进 程 ， 即 PF_MEMALLOC 标志 位 为 0 的 进程 的 对 策 。 


[alloc_pages( ) > __alloc_pages( )] 


400 /* 

401 * Damn, we didn't succeed. 

402 * 

403 * This can be due to 2 reasons: 
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* — we re doing a higher-order allocation 

* -—-»5 move pages to the free list until we succeed 

* — we're /really/ tight on memory 

* -—-»5 wait on the kswapd waitqueue until memory is freed 


*/ 


if (!(current->flags & PF MEMALLOC)) { 


/* 


* 
* 
站 
* 
* 


*/ 


Are we dealing with a higher order allocation? 


Move pages from the inactive clean to the free list 
in the hope of creating a large, physically contiguous 
piece of free memory. 


if (order > 0 && (gfp mask & GFP WAIT) { 


™ 
* 


* X X 0X X X * * 


zone = zonelist-^zones; 
/* First, clean some dirty pages. */ 
current->flags |= PF MEMALLOC; 
page launder(gfp mask, 1); 
current~>flags &- "PF MEMALLOC; 
for (33 1 

zone t *z = *(zonett); 

if (!z) 


break; 


if (!z->size) 


continue; 


while (z— inactive clean pages) { 


struct page * page; 
/* Move one page to the free list. */ 
page = reclaim page(z); 
if (!page) 
break; 


. free page(page); 


/* Try if the allocation succeeds. */ 
page = rmqueue(z, order); 
if (page) 

relurn page; 


When we arrive here, we are really tight on memory. 


We wake up kswapd and sleep until kswapd wakes us 
up again. After that we loop back to the start. 


We have to do this because something else might eat 
the memory kswapd frees for us and we need to be 
reliable. Note that we don't loop back for higher 
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452 * order allocations since it is possible that kswapd 

453 * simply cannot free a large enough contiguous area 

454 * of memory *ever*, 

455 */ 

456 if ((gfp mask & (__GFP WAIT: GFP IO)) == (. GFP WAIT| GFP IO) { 
457 wakeup kswapd(l); 

458 memory pressuret*; 

459 if (lorder) 

460 goto try again; 

461 /* 

462 * If _ GFP IO isn’t set, we can 1 wait on kswapd because 
463 * kswapd just might need some TO locks /we/ are holding .. 
464 * 

465 * SUBTLE: The scheduling point above makes sure that 

466 * kswapd does get the chance to free memory we can t 

461 * free ourselves... 

468 */ 

469 | else if (gfp_mask & __GFP_WAIT) { 

470 try_to free pages(gfp mask); 

471 memory pressure-t*; 

412 if (!order) 

473 goto try_again; 

474 } 

475 

476 } 

477 


^T BC PLE Vi rir CRUCE ILES] RT RE a PA, e EI AC SE BAAD T: 另 
Pie Me IBA D, (ERT EERE DUAR AK EWE. URE TD SEA IE DU ETE TERRI 
inactive clean pages AFI, WRIA Lf Al REBAR. RED, Ree "NEU 
页 面 在 全 局 的 inactive dirty pages 队列 中 ， 把 及 页 面 的 内 容 写 出 到 交换 设备 上 或 文件 中 ， 就 可 以 使 它 
们 变 成 “干净 ”页面 而 加 以 回收 。 所 以 ， 针 对 第 一 种 可 能 ， 代 码 中 通过 page_launder( )J£ ^ IE PL" TH] “Ut 
净 ”( 详 见 “ 页 面 的 定期 换 出 ”)， 然 后 通过 一 个 for 循环 在 各 个 负面 管理 区 中 回收 和 有 释放 “干净 ”页 面 。 
具体 的 回收 和 释放 是 通过 一 个 while 循环 完成 的 。 在 通过 __free_pagef ) 县 放 页 面 时 会 把 空闲 页 面 拼 装 起 
尽 可 能 大 的 页 而 块 , 所 以 在 每 癌 收 了 一 个 页 面 以 后 邦 要 调用 rmqueue( ) 试 一 下 , 看 看 是 否 已 经 能 满足 要 
求 。 值 得 注意 的 足 ， 这 里 在 调用 page launder( ) 期 问 把 当前 进程 的 PF MEMALLOC 标志 位 设 成 1， 使 
其 有 了 “执行 公务 ”时 的 特权 。 为 什么 要 这 样 做 呢 ? 这 是 因为 在 page_launder( ) HE Z SER e 
时 性 的 工作 负面 ， 不 把 PF_MEMALLOC 标志 位 设 成 1 就 可 能 递归 地 进入 这 早 的 409 一 476 行 。 

如 果 回 收 了 这 样 的 页 面 以 后 还 是 不 行 ， 那 就 是 可 分 配 页 而 的 总 量 不 够 了 。 这 时 候 一 种 办 法 是 唤 本 
kswapd， 而 紫 求 分 配 页 面 的 进程 则 睡眠 等 待 ， 由 kswapd 在 完成 了 ' 轮 运行 之 后 再 反 过 来 唤 醒 要 求 分 配 
页 面 的 进程 。 然 后 ， 如 果 上 归 求 分 陋 的 是 单个 页 面 ， 就 通过 goto 语句 转 回 __alloc_pages( ) 开 头 处 的 标号 
try again 处 。 为 一 种 兴 法 是 育 接 调用 try_to_free_pages( )， 这 个 函数 本 来 是 由 kswapd 调用 的 。 

那么 ， 如 果 是 “执行 公务 ” 呢 ? 或 者 ， 虽 然 不 是 执行 公务 ， 但 已 想 尽 了 一 切 办 法 ， 采 取 了 OE 
施 ， 只 不 过 因为 要 求 分 配 的 是 成 块 的 页 面 才 没 有 转 同 前 面 的 标号 try_again 处 。 
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前 面 我 们 看 到 ， 一 次 次 加 大 力度 调用 __alloc_pages_limit( ) 时 ， 实 际 上 偿 是 有 所 保留 的 。 例 如 ， 最 


后 一 次 以 PAGES, MIN 为 参数 ， 此 时 判断 是 否 可 以 分 配 的 准则 是 管理 区 中 可 分 配 页 面 的 “水 位 ”高 十 
z->pages_min。 之 所 以 还 留 着 -点 “ 老 本 ”， 是 为 应 付 紧急 状况 ， 而 现在 岂 到 了 “不 惜 血本 ”的 时 候 了 了 。 
我 们 继续 往 下 看 __alloc_pages( WARI. 


[alloc pages( ) > __alloc_pages( )] 


478 
479 
480 
481 
482 
483 
484 
485 
486 
487 
488 
489 
490 
491 
492 
493 
494 
495 
496 
497 
498 
499 
500 
901 
502 
503 
504 
505 
506 
507 
508 
509 
510 
511 
512 
513 
514 
515 
516 
517 


/* 

* Final phase: allocate anything we can! 

* 

* Higher order allocations, GFP ATOMIC allocations and 
* recursive allocations (PF MEMALLOC) end up here. 

* 

* Only recursive allocations can use the very last pages 
* in the system, otherwise it would be just too easy to 
* deadlock the system... 

*/ 

zone = zonelist-2zones; 

for (;;) 1 


zone t *z = *(zonet+); 
struct page * page - NULL; 
if (12) 

break; 
if (!z-^size) 

BUG( ) ; 


/* 


* 


SUBTLE: direct reclaim is only possible if the task 
becomes PF MEMALLOC while looping above. This will 
* happen when the OOM killer selects this task for 

* instant execution... 

*/ 


if (direct reclaim) | 


* 


page = reclaim_page(z); 
if (page) 
return page; 


} 


/* XXX: is pages_min/4 a good amount to reserve for this? */ 
if (z->free pages < z~>pages_min / 4 && 
!(current-^flags & PF MEMALLOC)) 
continue; 
page = rmqueue(z, order); 
if (page) 
return page; 
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518 /* No luck.. */ 

519 printk(KERN ERR "  alloc pages: %lu~order allocation failed. \n”, order); 
520 return NULL; 

521 } 


如 果 连 这 也 失败 ， 那 一 定 是 系统 有 问题 了 。 

读者 也 许 会 说 ， 好 家 伙 ， 分 配 一 个 (或 儿 个 ) 内 存 负 而 有 这 么 麻烦 ， 于 CPU 还 有 多 少 个 时 间 能 用 于 
实质 性 的 计算 呢 ? 此 知道 我 们 这 于 是 假定 分 配 页 面 的 努 尹 “ 屡 战 展 败 ” 而 又 “ 展 败 展 战 ” 这 才 有 这 
么 多 艰 芭 卓绝 的 努力 。 实 际 上， 绝 大 多 数 的 分 配 页 面 拘 作 都 弟 在 分 配 策略 所 规定 的 第 一 个 页 面 管理 区 
中 就 成 功 了 。 不 过 ， 从 这 蛙 我 们 可 以 看 到 设计 一 个 系统 需要 何等 周密 的 考虑 。 


2.8 页 面 的 定期 换 出 


这 个 情景 比较 长 ， 读 者 得 有 点 耐心 。 

为 了 避免 总 是 在 CPU 忙碌 的 时 候 ， 也 就 是 在 缺 页 异常 发 生 的 时 候 ， 临 时 再 来 搜寻 可 供 换 出 的 内 存 
页 面 并 加 以 换 出 ，Linux 内 核定 期 地 检查 并 且 预 先 将 若 十 页 面 换 出 ， 腾 出 空间 ， 以 减轻 系统 在 缺 页 异常 
发 生 时 的 负担 。 当 然 ， 由 于 无 法 确切 地 预测 页 面 的 使 用 ， 即 使 这 样 做 了 也 还 是 不 能 完全 杜绝 在 缺 页 异 
常 发 生 时 内 存 没 有 空闲 页 面 ， 而 只 好 临时 寻找 可 换 出 页 面 的 可 能 。 但 是 ， 这 样 毕竟 可 以 减少 其 发 生 的 
概率 。 并 有 旦 ， 通 过 选择 适当 的 参数 ， 例 如 每 隔 多 久 换 出 次， 每 次 换 出 多 少 页 面 ， 可 以 使 得 在 缺 页 异 
常 发 生 时 必须 临时 寻找 页面 换 出 的 情况 实际 上 很 少 发 生 。 为 此 ， 人 在 Linux 内 核 中 设置 了 一 :个 专 司 定期 
将 页 面 换 出 的 “守护 神 ”kswapd。 

从 原理 上 说 ，kswapd 相当 于 “个 进程 ， 有 其 自身 的 进程 控制 块 task struct 结构 ， 跟 其 他 进程 一 样 
受 内 核 的 调度 。 而 正 因 为 内 核 将 它 按 进程 来 调度 ， 就 可 以 让 它 在 系统 相对 空闲 的 时 候 米 这 行 。 不 过 ， 
与 普通 的 进程 相 比 ，kswapd 还 是 有 其 特殊 性 。 首 先 ， 它 没有 自己 独立 的 地 址 空间 ， 所 以 在 近代 操作 系 
统 理论 中 称 为 “线程 ”(thread) 以 示 区 别 。 那 么 ，kswapd 使 用 谁 的 地 址 空间 呢 ? 它 使 用 的 是 内 核 的 空 
间 。 在 这 一 点 上 ， 它 与 中 断 服务 程序 相似 。 其 次 ， 它 的 代码 是 静态 地 连接 在 内 核 中 的 ， 可 以 直接 调用 
内 核 中 的 各 种 子 程序 ， 而 不 像 普 通 的 进程 示 样 只 能 道 过 系统 调用 ， 使 用 预先 定义 好 的 … 组 功能 。 

本 他 讲述 kswapd 受 内 核 调 度 而 这 行 并 走 完 一 条 例 行 路 线 的 全 过 程 。 

线程 kswapd 的 源 代 码 基 本 上 都 在 mm/vmscan.c 中 。 先 来 看 它 的 建立 : 


1146 static int __ init kswapd_init (void) 


1147 { 

1148 printk( Starting kswapd v1. 8\n”); 

1149 swap_setup( ); 

1150 kernel thread(kswapd, NULL, CLONE FS | CLONE FILES | CLONE SIGNAL) ; 
1151 kernel thread(kreclaimd, NULL, CLONE FS | CLONE FTLES | CLONE SIGNAL): 
1152 return 0; 

1153 } 


PRIX kswapd_init( ) 是 在 系统 初始 化 期 间 受 到 调用 的 ， 它 主要 做 巾 件 事 。 第 - 件 是 在 swap. setup( ) 
中 根据 物理 内 存 的 大 小 设 定 一 个 全 局 量 page, cluster: 
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[kswapd init( ) > swap_setup( )] 


293 /* 

294 * Perform any setup for the swap system 

295 */ 

296 void | init swap setup (void) 

297 { 

298 /* Use a smaller cluster for memory <16MB or <32MB */ 
299 if (num physpages < ((16 * 1024 * 1024) >> PAGE SHJFT)) 
300 page cluster = 2; 

301 else if (num_physpages < ((32 * 1024 * 1024) >> PAGE_SHIFT)) 
302 page cluster = 3; 

303 eise 

304 page cluster = 4; 

305 ) 


ZE- T gREESL S UKREPSGORBUEC. BUT RMAN ABA SW, HAEA i AY 
WE, BrELUDAUREUCH iE— ARMENA. REINER ERE T CT ed LILA, TO» 
“ 预 读 ”。 但 是 预 读 意味 着 每 次 需要 暂 存 更 多 的 内 存 页 面 ， 所 以 需要 决定 .个 适当 的 数量 ， 而 根据 物理 
内 存 本 身 的 大 小 来 确定 这 个 参数 显然 是 合理 的 。 第 二 件 事 就 是 创建 线程 kswapd, 这 是 由 kernel_thread( ) 
完成 的 。 这 里 还 创建 了 另 一 个 线程 kreclaimd， 也 是 跟 存 储 管理 有 关 ， 趟 过 不 像 kswapd 那么 复杂 和 重 
E, 所 以 我 们 暂且 把 它 放 在 一 边 。 关 于 建立 线程 的 详情 请 参阅 进程 管理 一 章 , 这 里 暂且 假定 线程 kswapd 
就 此 建立 了 ， 并 用 从 函数 kswapd( ) 开 始 执行 。 其 代码 在 mm/vmscan.c 中 : 


947 /* 

948 * The background pageout daemon, started as a kernel thread 
949 * from the init process. 

950 * 

951 * This basically trickles out pages so that we have some 
952 * free memory available even if there is no other activity 
953 * that frees anything up. This is needed for things like routing 
954 * etc, where we otherwise might have all activity going on in 
955 * asynchronous contexts that cannot page things out. 

956 * 

957 * Tf there are applications that are active memory-allocators 
958 * (most normal use), this basically shouldn't matter. 

959 */ 

960 ^ int kswapd(void *unused) 

961 { 

962 struct task struct *tsk = current; 

963 

964 tsk-^session = 1; 

965 tsk-^pgrp = 1; 

966 strcpy (tsk-^comm, “kswapd”) ; 

967 sigfillset (&tsk-^blocked); 

968 kswapd_task = tsk; 
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~~ 
* 


Tell the memory management, that we're a "memory allocator’, 
and that if we need more memory we should get access to it 
regardless (sco "  alloc pages( )”). "kswapd" should 

never get caught in the normal page freeing logic. 


(Kswapd normally doesn't need memory anyway, but sometimes 
you need a small amount of memory in order to be able to 
page out something else, and this flag essentially protects 
us from recursively trying to free more memory as we're 
trying to free the first piece of memory in the first place). 


* X X X X X X X* X X 


*/ 
tsk->flags |= PF MEMALLOC; 


/* 
* Kswapd main loop. 
*/ 
for (;;) 4 
static int recalc = 0; 


/* If needed, try to free some memory. */ 
if (inactive shortage( ) || free shortage( )) { 
int wait = 0; 
/* Do we need to do some synchronous flushing? */ 





if (waitqueue active(&kswapd. done)) 
wait = 1; 
do try to free pages (GFP KSWAPD, wait); 


/* 

* Do some (very minimal) background scanning. This 
* will scan all pages on the active list once 

* every minute. This clears old referenced bits 

* and moves unused pages to the inactive list. 

*/ 


refill inactive scan(6, 0); 


/* Once a second, recalculate some VM stats. */ 
if (time after(jiffies, recalc + HZ)) 1 

recalc - jiffies; 

recalculate vm stats( ); 


/* 
* Wake up everybody waiting for tree memory 
* and unplug the disk queue. 


*/ 
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1017 wake up all(&kswapd done); 

1018 run task queue(&tq disk); 

1019 

1020 /* 

1021 * We go to sleep if either the free page shortage 
1022 * or the inactive page shortage is gone. We do this 
1023 * because: 

1024 * 1) we need no more free pages or 

1025 * 2) the inactive pages need to be flushed to disk, 
1026 * it wouldn't help to eat CPU time now .. 

1027 * 

1028 * We go to sleep for one second, but if it's needed 
1029 * we 1l be woken up earlier... 

1030 */ 

1031 if (!free shortage( ) || !inactive shortage( )) { 
1032 interruptible sleep on timeout(&kswapd wait, HZ); 
1033 /* 

1034 * |f we couldn't free enough memory, we see if it was 
1035 * due to the system just not having enough memory. 
1036 * [f that is the case, the only solution is to kill 
1037 * a process (the alternative is enternal deadlock). 
1038 * 

1039 * If there still is enough memory around, we just loop 
1040 * and try free some more memory... 

1041 */ 

1042 } else if (out of memory( )) { 

1043 oom kill(); 

1044 } 

1045 } 

1046 .] 


在 一 些 简 单 的 初始 化 操作 以 后 ， 程 序 便 进入 个 无 限 循环 。 在 每 次 循环 的 末尾 : 般 部 会 调用 
interruptible sleep on timeout( ) 进 入 睡眠 ， 让 内 核 自 由 地 调度 别 的 进程 运行 。 但 是 内 核 在 -定时 间 以 后 
又 会 唤醒 并 调度 kswapd 继续 运行 ， 这 时 候 kswapd 就 义 回 到 这 无 限 循环 开始 的 地 方 。 炒 么 ， 这 “ E 
时 间 ” 是 多 长 呢 ， 这 就 是 常数 HZ. HZ 决定 了 内 核 中 每 秒 钟 有 多 少 次 时 钟 中 断 。 用 户 可 以 在 编译 内 核 
前 的 系统 配置 阶段 改变 其 数值 ,但 是 “经 编译 就 定 下 来 了 。 所 以 ,在 调用 interruptible sleep. on. timeout( ) 
时 的 参数 为 HZ, 表示 1 秒 钟 以 后 义 靶 调 度 kswapd 继续 运行 .换言之 ,对 interruptible sleep. on. timeout( ) 
的 调用 一 进去 就 得 1 秒 钟 以 后 才 回 来 。 俱 起 ， 在 有 些 情况 下 内 核 也 会 在 不 到 1 POP HERR, W 
FE kswapd 就 会 提前 返 思 而 开始 新 的 一 轮 循环 .所 以 ,这 个 循环 至 少 每 隔 1 秒 钟 执行 “ 凯 , 这 就 是 kswapd 
的 例 行 路 线 。 

那么 ，kswapd 在 这 至 少 每 秒 一 次 的 例 行 路 线 中 做 些 什么 呢 ? 可 以 把 它 分 成 黄 部 分 。 第 “部 分 是 在 
发 现 物理 页 面 已 经 短缺 的 情况 下 才 进 行 的 ， 半 的 在 于 预先 找 出 芳 干 页 面 ， 且 将 这 些 页 面 的 映射 断 开 ， 
使 这 些 物 理 页 面 从 活跃 状态 转 入 不 活跃 状态 ， 为 页 面 的 换 出 作 好 准备 。 第 二 部 分 是 每 次 都 此 执行 的 ， 
目的 在 于 把 已 经 处 十 不 活跃 状态 的 “ 脏 ” 页 面 写 入 交换 设备 ， 使 它们 成 为 不 活跃 “十 净 ” 页 面 继续 组 
剖 ,或 进 … 步 同 收 一 些 这 样 的 页 面 成 为 空闲 页 面 。 
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[kswapd( ) > inactive, shortage( )] 


805 /* 

806 * How many inactive pages are we short? 
807 */ 

808 int inactive shortage (void) 

809 { 

810 int shortage = 0; 

811 

812 shortage += freepages. high; 

813 shortage += inactive target; 

814 shortage -= nr free pages( ); 

815 shortage -= nr inactive clean pages( ) ; 
816 shortage -= nr inactive dirty pages; 
817 

818 if (shortage > 0) 

819 return shortage; 

820 

821 return 0; 

822 } 


RH S i He A EE, AEE freepages.high 和 inactive, target, 4 
3039 2E PR ULT D CC S EK DC HE EHE, SSMS POBRE DESEE. dU Pe PLE LIRE 
来 源 则 有 三 个 方面 。 一 方面 是 当前 尚 存 的 空闲 页 面 ， 这 是 立即 就 可 以 分 配 的 页 面 。 这 些 页 而 分 散在 各 
个 页 面 管理 区 中 , 并 且 合 并 成 地 址 连续 、 大 小 为 2.4、8、…、2* 个 页 面 的 页 面 块 , 其 数量 由 nr_free_pages( ) 
加 以 统计 。 另 一 方面 是 现 有 的 不 活跃 “十 净 ” 页 面 ， 这 些 页 面 本 质 上 也 是 马上 就 可 以 分 配 的 页 面 ， 但 
是 贡 面 中 的 内 容 可 能 还 会 用 到 ， 所 以 多 保留 - 些 这 样 的 页 面 有 助 于 减少 从 交换 设备 的 读 入 。 这 些 页 面 
也 分 散在 各 个 页 面 管理 区 中 ， 但 并 不 合并 成 块 ， 其 数量 由 nr inactive clean. pages ( ) 加 以 统计 。 最 后 是 
现 有 的 不 活跃 “ 脏 ” 页 面 ， 这 些 页 面 要 先 加 以 “净化 ”， 即 写 入 交换 设备 以 后 二 能 投入 分 配 。 这 种 页 面 
全 都 在 同 - .个 队列 中 ， 内 核 中 的 全 局 量 nr_inactive_dirty_pages 记录 着 当前 此 类 页 面 的 数量 。 上 述 两 个 
消 数 的 代码 都 在 mm/page. alloc.c 中 ， 也 都 比较 简单 ， 读 者 可 以 和 白 己 赔 读 。 

Au, 光 维 持 潜在 的 物理 页 面 供应 总 量 还 不 够 ,还 站 通过 free_shortage( ) 检 查 是 否 有 某 个 具体 管理 
区 中 有 严重 的 短缺 ， 即 直接 可 供 分 配 的 页 面 数量 〈 除 不 活跃 “ 脏 ” 页 面 以 外 ) 是 否 小 于 - 个 最 低 限度 。 
这 个 函数 的 代码 在 mm/vmscan.c 中 ， 我 们 也 把 它 留 给 读者 。 

如 果 发 现 可 供 分 配 的 内 存 页 面 短 缺 ， 那 就 要 设法 释放 和 换 出 若干 页 面 ， 这 是 通过 
do_try_to_free_pages( ) 完 成 的 。 不 过 在 此 之 前 还 要 调用 waitqueue_active( )， 看 看 kswapd_done 队列 中 
是 否 有 函数 在 等 待 执行 ， 并 把 查看 的 结果 作为 参数 传递 给 do_try_to_free_pages( )。 在 第 3 章 中 ， 读 者 
将 看 到 内 核 中 有 几 个 特殊 的 队列 ， 内 核 中 各 个 部 分 〈 主 要 是 设备 驶 动 ) 可 以 把 一 些 低 层 函 数 挂 入 这 样 
的 队列 ， 使 得 这 些 函 数 在 某 种 事件 发 生 时 就 能 得 到 执行 。 而 kswapd_done， 就 正 是 这 样 的 “个 队列 。 儿 
是 挂 入 这 个 队列 的 函数 ， 在 kswapd 每 完成 - . 趟 例 行 的 操作 时 就 能 得 到 执行 。 这 里 的 inline (XX 
waitqueue, active( ) 就 是 查看 是 否 有 消 数 在 这 个 队列 中 等 待 执行 。 其 定义 在 include/linux/wait.h 中 : 


.94 ， 
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[kswapd( ) > waitqueue active( )] 


152 
153 
154 
155 
156 
157 
158 
159 
160 
161 


static inline int waitqueue_active (wait queue head t *q) 
{ 
#if WATTQUEUE_DEBUG 
if (tg) 
WQ_BUG( ); 
CHECK_MAGIC_WQHEAD (q) ; 
#endif 


return !list_empty (&q->task_ list); 


} 
下 面 就 是 调用 do_try_to_free_pages( )， 试 图 腾 出 一些 内 存 页 面 。 其 代码 在 vmscan.c H: 


[kswapd( ) > do_try_to_free_pages( )] 
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static int do try to free pages (unsigned int gfp mask, int user) 
{ 


int ret = 0; 


/* 
If we're low on free pages, move pages from the 
inactive dirty list to the inactive clean list. 


Usually bdflush will have pre-cleaned the pages 

before we get around to moving them to the other 

* list, so this is a relatively cheap operation. 

*/ 

if (free shortage( ) || nr inactive dirty pages > nr free pages( ) + 
nr inactive clean pagces( )) 

ret += page launder(gfp mask, user); 


* * X He X 


/* 
* If needed, we move pages from the active list 
* to the inactive list. We also “eat” pages from 


* the inode and dentry cache whenever we do this. 
*/ 
if (free shortage( ) || inactive shortage( )) { 


shrink dcache memory(6, gfp mask); 

shrink icache memory(6, gfp mask); 

ret += refill inactive(gfp mask, user); 
} else { 

/* 

* Reclaim unused slab cache memory. 

*/ 

kmem cache reap(gfp mask); 

ret = 1; 
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} 


Linux 内 核 源 代码 情景 分 析 (上册 ) 


return ret; 


将 活跃 页 面 的 映射 断 开 ， 使 之 转 入 不 活跃 状态 ， 甚 至 进而 换 出 到 交换 设备 上 ， 是 不 得 已 而 为 之 ， 
因为 谁 也 不 能 精确 地 预测 到 底 哪 一 些 丰 面 是 合适 的 换 出 对 象 。 虽 然 一 般 而 言 “ 最 近 最 少 用 到 ”是 个 有 
ABER), PEATE "USE VUE HE”. 所以， 能 够 不 动 “现役 ” 页 面 是 最 理想 的 。 基 于 这 样 的 考 
虑 ， 这 里 所 作 的 是 先 易 后 难 ， 逐 步 加 强力 度 。 首 先是 调用 page_launder( )， 试 图 把 已 经 转 入 不 活路 状态 
的 “ 脏 ”页 面 “ 洗 净 ”， 使 它们 变 成 立即 可 以 分 配 的 页 面 。 函 数 名 中 的 “launder”， 就 是 “洗衣 工 ” 的 
意思 。 这 个 函数 一 方面 (基本 上 ) 定 期 地 受到 kswapd( ) 的 调用 ， 一 方面 在 每 当 需 要 分 配 内 存 页 面 ， 而 又 
无 页 面 可 供 分 配 时 ， 临 时 地 受到 调用 。 其 代码 在 mm/vmscan.c 中 : 


[kswapd( ) > do_try_to_free_pages( ) > page. launder( )] . 
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* 
* 


page launder - clean dirty inactive pages, move to inactive clean list 
Ggfp mask: what operations we are allowed to do 
@sync: should we wait synchronously for the cleaning of pages 


When this function is called, we are most likely low on free * 
inactive clean pages. Since we want to refill those pages as 

soon as possible, we'll make two loops over the inactive list, 
one to move the already cleaned pages to the inactive clean lists 
and one to (often asynchronously) clean the dirty inactive pages 


In situations where kswapd cannot keep up, user processes will 
end up calling this function. Since the user process needs to 
have a page before it can continue with its allocation, we 1l 
do synchronous page flushing in that case 


This code is heavily inspired by the FreeBSD source code. Thanks 
go out to Matthew Dillon. 


X * X X * X X X 0 X o KR HR KR X RK X* 


*/ 


define MAX LAUNDER (4 * (1 << page cluster)) 


i 


( 


nt page launder(int gfp mask, int sync) 


int launder loop, maxscan, cleaned pages, maxlaunder; 
int can get io locks; 

struct list head * page lru; 

struct page * page; 


f* 

* We can only grab the IO locks (eg. for flushing dirty 
* buffers to disk) if | GFP IO is set. 

*/ 
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can get io locks = gfp mask & | GFP IO; 


launder_loop = 0; 
maxlaunder = 0; 
cleaned_pages = 0; 


dirty_page_rescan: 
spin lock(&pagemap lru lock); 
maxscan = nr inactive dirty pages; 
while ((page lru = inactive dirty list.prev) != &inactive dirty list && 
maxscan-- > 0) ( 
page = list entry(page lru, struct page, lru); 


/* Wrong page on list?! (list corruption, should not happen) */ 
if (IPagelnactiveDirty(page)) { 
printk(^VM: page launder, wrong page on list. n^); 
list del(page lru); 
nr inactive dirty pages--; 
page-?zone-?inactive dirty pages--; 
continue; 


} 


/* Page is or was in use? Move it to the active list. */ 
if (PageTestandClearReferenced(page) || page->age > 0 || 
(!page-»buffers && page count(page) > 1) |! 
page ramdisk(page)) | 
del page from inactive dirty list(page); 
add page to active list (page); 
continue; 


/[* 

* The page is locked. IO in progress? 

* Move it to the back of the list. 

*/ 

if (TryLockPage(page)) { 
list del(page lru); 
list add(page lru, &inactive dirty list); 
continue; 


/水 
* Dirty swap-cache page? Write it out if 
* last copy.. 
*/ 
if (PageDirty (page)) 1 
int CG*writepage) (struct page *) = page->mapping->a_ops—>writepage; 
int result; 
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if (!writepage) 
goto page active; 


/* First time through? Move it to the back of the list */ 
if (!launder loop) { 

list del(page lru); 

list add(page lru, &inactive dirty list); 

UnlockPage (page) ; 

continue; 


j 


/* OK, do a physical asynchronous write to swap. */ 
ClearPageDirty (page) ; 

page cache get (page); 

spin unlock(&pagemap lru lock); 


result = writepage (page); 
page cache release (page); 


/* And re-start the thing.. */ 
spin lock(&pagemap lru lock); 
if (result !- 1) 
continue; 
/* writepage refused to do anything */ 
set page dirty (page); 
goto page active; 


/* 

If the page has buffers, try to free the buffer mappings 
associated with this page. If we succeed we either free 
the page (in case it was a buffercache only page) or we 
move the page to the inactive clean list. 


On the first round, we should free all previously cleaned 
buffer pages 


%* * xXx X X koX 


*/ 
if (page-^buffers) 1 
int wait, clearedbuf; 
int freed page = 0; 
/* 
* Since we might be doing disk I0, we have to 
* drop the spinlock and take an extra reference 
* on the page so it doesn't go away from under us. 
*/ 
del page from inactive dirty list(page); 
page cache get (page) ; 
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spin unlock (&pagemap lru lock); 


/* Will we do (asynchronous) T0? */ 

if (launder loop && maxlaunder -- 0 && sync) 
wait = 2;  /* Synchrounous IO */ 

else if (launder loop && maxlaunder-- > 0) 
wait = 1; /* Async IO */ 

else 
wait = 0; /* No IO */ 


/* Try to free the page buffers. */ 
clearedbuf = try to free buffers(page, wait); 


/* 

* Re-take the spinlock. Note that we cannot 
* unlock the page yet since we're still 

* accessing the page struct here.. 

*/ 

spin lock(&pagemap lru lock); 


/* The buffers were not freed. */ 
if (!clearedbuf) | 
add page to inactive dirty list(page); 


/* The page was only in the buffer cache. */ 
} else if (!page-^mapping) { 

atomic dec(&buffermem pages); 

freed page = 1; 

cleaned pages*t*; 


/* The page has more users besides the cache and us. */ 
} else if (page count(page) > 2) { 
add page to active list (page); 


/* OK, we “created” a freeable page. */ 

) else /* page->mapping && page count(page) == 2 */ { 
add page to inactive clean list (page); 
cleaned pages-t*; 


/* 

* Unlock the page and drop the extra reference. 
* We can only do it here because we ar accessing 
* the page struct above 

*/ 
UnlockPage (page) ; 
page cache release (page); 
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代码 中 的 局 部 量 cleaned_pages 用 来 累计 被 “ 洗 清 ”的 页 而 数量 。 另 一 个 局 部 量 launder_loop HÆ 
控制 扫描 不 活跃 “ 脏 ” 页 面 队列 的 次 数 。 在 第 一 直 拉 描 时 launder_loop 为 0， 如 果 有 必要 进行 第 TA 
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/* 


* Tf we re freeing buffer cache pages, stop when 
* we've got enough free memory. 
*/ 
if (freed page && !free shortage( )) 
break; 
continue; 
} else if (page->mapping && !PageDirty(page)) 1 
/* 
* Tf a page had an extra reference in 
* deactivate page( ), we will find it here. 
* Now the page is really freeabie, so we 
* move it to the inactive clean list. 
*/ 
del page from inactive dirty list(page); 
add page to inactive clean list (pago); 
UnlockPage (pago) ; 
cleaned pages**; 
) else { 
page active: 
/* 
* OK, we don’t know what to do with the page. 
* It’s no use keeping it here, so we move it to 
* the active list 
*/ 
del page from inactive dirty list(page); 
add page to active list(page); 
UnlockPage (page) ; 
} 
} 
spin unlock(&pagemap lru lock); 


描 ， 则 将 其 设 成 1 并 转 回 到 标号 dirty. page rescan 处 (502 行 )， 开 始 义 一 次 扫描 。 


对 不 活跃 “ 脏 ” 页 面 队列 的 扫描 是 通过 一 个 while 循环 (505 行 ) 进 行 的 。 由 寺 在 循 坏 中 会 把 有 些 页 
面 从 当前 位 置 移 到 队列 的 尾部 ， 所 以 除 沿 着 链接 指针 扫描 外 还 要 对 数量 加 以 控制 ， 才 能 避免 重复 处 埋 


同一 页 面 ， 甚 至 陷入 死 循环 ， 这 就 是 变量 maxscan 的 作用 。 


对 于 队列 中 的 每 一 个 页 而 ， 首 先 要 检查 它 的 PG inactive dirty 标志 位 为 1， 否则 就 根本 不 应 该 出 现 
在 这 个 队 记 中， 这 ，: 定 是 出 了 什么 毛病 ， 所 以 把 它 从 队列 中 删除 〈 见 512 行 )。 除 此 之 外 ， 对 于 正常 的 


不 活跃 “ 脏 ” 页 面 ， 则 要 依次 作 下 述 的 检查 并 作 相 应 的 处 理 。 


(1) 


有 些 页 面 虽 然 已 经 进入 不 活跃 “ 胜 ” 页 面 队列 ， 但 是 由 于 情况 已 经 变化 ， 或 者 当初 进入 这 个 
队列 本 来 就 是 “ 儿 假 错案 ” 因而 需要 回 到 活跃 页 面 队列 中 (519 一 525 行 )。 这 样 的 负面 有 : 
页 而 在 进入 了 椒 活跃 “ 脏 ” 页 面 队列 之 后 又 受到 了 访问 ， 即 发 生 了 以 此 页 面 为 目标 的 缺 页 异 


常 ， 从 而 恢复 了 该 页 面 的 映射 。 
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(2) 


(3) 


(4) 


(5) 
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页 面 的 “寿命 ”还 未 耗 尽 。 页 面 的 page 结构 中 有 个 字段 age， 其 数值 与 负面 受 访问 的 频繁 程 
度 有 关 。 后 面 我 们 还 要 回 到 这 个 话题 。 
页 面 并 不 用 作 读 / 与 文件 的 缓冲 ， 而 页 面 的 使 用 计数 却 又 大 于 1。 这 说 明 页 面 在 至 少 一 个 进 
程 的 映射 表 中 有 映射。 如 前 所 述 ， 一 个 页 面 的 使 用 计数 在 分 配 时 设 成 1， 以 后 对 该 页 面 的 每 
一 次 使 用 都 使 这 个 计数 加 1， 包 括 将 页 面 用 作 读 / 写 文件 的 缓冲 。 如 果 - 一 个 页 面 没有 用 作 读 
/ 写 文件 的 缓冲 ， 那 么 只 要 计数 大 十 1 就 必定 还 有 进程 在 使 用 这 个 页 而 。 
页 面 在 受到 进程 用 户 空 间 上 映射 的 闻 时 又 用 十 ramdisk， 即 用 内 存 空间 来 模拟 磁盘 ， 这 种 页 而 
当然 不 应 该 换 出 到 磁盘 上 。 
页 面 已 被 锁 住 (331 行 )， 所 以 TryLockPage( ) 返 回 1， 这 表明 正在 对 此 页 面 进行 操作 ， 如 输入 
/ 输出， 这 样 的 页 面 应 该 留 在 不 活跃 “ 胜 ”负面 队列 中 ， 但 是 把 它 移 到 队列 的 尾部 。 注 意 ， 
对 于 未 被 锁 住 的 页 面 ， 现 在 已 经 锁 上 了 。 
如 有 果 页 面 仍 是 “ 脏 ” 的 (541 行 )， 即 page 结构 中 的 PG_dirty 标志 位 为 1， 则 原则 上 上 要 将 其 写 
出 色 交 换 设 备 上 ， 但 还 有 些 特殊 情况 要 考虑 (541 一 571 行 )。 首先， 所 属 的 address space 数据 
结构 必须 提供 页 面 气 出 柜 作 的 函数 ， 否 则 就 上 只 好 转 到 page active 处 ， 将 页 面 送 回 活跃 页 面 队 
SU. MPRA RR, PRIM address space 数据 结构 为 swapper space， 其 
address space operations 结构 为 swap_aops， 所 提供 的 页 面 写 出 操作 为 swap_writepage( )， 过 
i “ 关 ” 是 没有 问题 的 。 在 第 一 趟 扫描 中 ， 只 是 把 页 面 移 到 间 队列 的 尾部 ， 而 并 不 写 出 
Dijfj(531—535 行 )。 如 果 进 行 第 二 趋 扫 描 的 话 ， 那 就 真 的 疲 把 页 和 面 写 出 去 了 。 写 之 前 先 通 过 
ClearPageDirty( ) 把 页 面 的 PG, dirty 标志 位 清 成 0, 然后 通过 由 所 属 address. space 数据 结构 所 
提供 的 函数 把 页 面 写 出 去 。 根 据 页 面 的 不 同 使 用 目的 ， 例 如 普通 的 用 户 空 间 页 面 ， 或 者 通过 
mmap( ) 建 立 的 文件 映射 以 及 文件 系统 鸣 谈 / 写 缓冲 , 具体 的 操作 也 不 一 样 。 这 个 写 操作 可 能 
是 同步 的 (当前 进程 睡眠 ， 等 待 写 出 完成 )， 也 可 能 是 异步 的 ， 但 总 是 需要 一 定 的 时 间 才 能 完 
成 ， 人 在 此 期 间 内 核 有 可 能 再 次 进入 page launder( )， 所 以 需要 防止 把 这 个 页 面 再 写 出 -- 次 。 
这 就 是 把 页 而 的 PG. dirty 标志 位 清 成 0 的 月 的 。 这 样 ， 就 不 会 把 同 :个 页 面 写 出 两 次 了 《〈 兄 
541 行 )。 此 外 ， 还 要 考虑 页 面 写 出 失败 的 可 能 ， 上 具体 的 函数 在 写 出 失败 时 应 该 返 冲 1， 使 
page launder( ) 可 以 恢复 页 而 的 PG_dirty 标志 位 并 将 其 退还 给 活跃 页 面 队列 中 (569~-570 行 )。 
顺便 提 一 下 ， 这 里 在 调用 具体 的 writepage ef AAT o8 page. cache. get( ) 递 增 页 面 的 使 用 计 
数 ， 从 这 个 函数 返回 后 再 通过 page cache release( ) 递 减 这 个 计数 ， 表 示 在 把 页 面 气 出 的 期 间 
多 了 一 个 “用 户 ”。 注意 这 里 并 没有 立即 把 写 出 的 页 面 转移 到 不 活跃 “干净 ”页 面 队列 中 ， 
而 只 是 把 它 的 PG_dirty 标志 位 清 成 了 0。 还 要 注意 ， 如 果 CPU 到 达 了 代码 中 的 582 行 ， 则 页 
IMAJ PG. dirty 标志 位 必定 是 0， 这 个 页 而 一 定 赴 在 以 前 的 扫描 中 写 出 而 变 “ 十 净 ” 的 。 
如 果 负 而 不 再 是 “ 脏 ” 的 ， 并 且 又 是 用 作文 件 读 / 写 缓冲 的 页 面 (582 一 647 47), RAE fre A 
离 不 活跃 “及 ”页 面 队列 ， 再 通过 try_to_free_buffers( ) 试 图 将 页 面 释放 。 如 果 不 能 释放 则 根 
据 返 回 值 将 其 退回 不 活跃 “ 脏 ” 页 面 队 齐 ， 或 者 链 入 活跃 页 面 队列 ， 或 者 不 活跃 “于 净 ” 页 
面 队 列 。 如 果 释 放 成 功 ， 则 负面 的 使 用 计数 已 经 在 try. to. free. buffers( ) 中 减 1, 638 行 的 
page_cache_release( ) 再 使 其 减 1 就 达到 了 0， 从 而 最 终 将 页 面 释 放 同 到 空 闪 页 面 队 列 中 。 如 
果 成 功 地 释放 了 一 个 页 面 ， 并 日 发 现 系 统 中 的 空闲 页 而 已 经 不 再 短缺 ， 那 么 扫描 就 可 以 结束 
SOR 644 和 645 行 )。 否 则 继续 扫描 。 函 数 try to free buffers( ) 的 代码 在 fs/buffer.c 中 ， 读 者 
可 以 在 学 习 了 “文件 系统 ”一 章 以 后 自行 阅读 。 
如 果 页 面 不 再 是 “ 脏 ” 的 ， 并且 在 菜 个 address_space 数据 结构 的 队列 中 ， 这 就 是 已 经 “ 洗 清 ” 
. 101 . 
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了 的 页 面 ， 所 以 把 它 转移 到 所 属 区 间 的 不 活跃 “干净 ”页 面 队 列 中 。 
(6) 最后， 如 果 不 属于 上 述 的 任何 一 种 情况 (658 行 )， 那 就 是 无 法 处 理 的 页 面 ,所 以 把 它 退 回 活跃 
BiU BA yu 
ZRT Bd DUE XR SORRUR IR BEP SA d S. DLRCUS SR gfp_mask 中 的 _GFP_IO 
标志 位 是 否 为 1， 来 决定 是 否 进行 第 二 趟 扫描 。 
[kswapd( ) > do to free pages( ) > page. launder( )] 


671 

672 /* 

673 * If we don’t have enough free pages, we loop back once 

674 * to queue the dirty pages for writeout. When we were called 
675 * by a user process (that /needs/ a free page) and we didn't 
676 * free anything yet, we wait synchronously on the writeout of 
677 * MAX SYNC LAUNDER pages. 

678 * 

679 * We also wake up bdflush, since bdflush should, under most 
680 * loads, flush out the dirty pages before we have to wait on 
681 * 10, 

682 */ 

683 if (can get io locks && !launder loop && free shortage( )) { 
684 ]aunder loop = 1; 

685 /* If we cleaned pages, never do synchronous 10. */ 

686 if (cleaned pages) 

687 sync = 0; 

688 /* We only do a few "out of order” flushes. */ 

689 maxlaunder = MAX LAUNDER; 

690 /* Kflushd takes care of the rest. */ 

691 wakeup bdflush(0); 

692 goto dirty page rescan; 

693 } 

694 

695 /* Return the number of pages moved to the inactive clean list. */ 
696 return cleaned_pages; 

697 } 


如 果 决 定 进行 第 . 趟 扫描 ， 就 转 回 到 502 行 标号 dirty_page_rescan &b. 注意 这 里 把 launder_loop 1 
成 了 1， 以 后 就 不 可 能 再 回 过 去 又 扫描 一 次 了 。 所 以 每 次 调用 page_launder( ) 最 多 是 作 两 趟 扫描 。 

[Fl do_try_to_free_pages( ) 的 代码 中 ， 经 过 page launder( ) 以 后 ， 如 果 可 分 本 的 物理 页 面 数量 仍然 
不 足 ， 那 就 要 进步 设法 回收 页 面 了 。 不 过 ， 也 并 不 是 单纯 地 从 各 个 进程 的 用 户 空间 所 映射 的 物理 负 
面 中 回收 ， 而 是 从 四 个 方面 同 收 ， 这 就 是 这 里 所 调用 三 个 函数 Cshrink dcache memory( ). 
shrink icache memory( )、refill_inactive( ))， 以 及 等 -下 将 会 看 到 的 kmem_cache_reap( ) 的 意图 。 在“ 文 
件 系统 ”一 章 中 ， 读 者 将 会 看 到 ， 在 打开 文件 的 过 程 中 此 分 吧 和 使 用 代表 着 日 录 项 的 dentry 数据 结构 ， 
还 有 代表 着 文件 索引 节点 的 inode 数据 结构 。 这 些 数据 结构 在 文件 关闭 以 后 并 不 立即 生 放 ， 而 是 放 在 
LRU 队列 中 作为 后 备 ， 以 防 在 不 久 将 来 的 文件 操作 中 又 要 用 到 。 这 样 ， 经 过 RINT, A Nn Re 
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积累 起 大 量 的 dentry 数据 结构 和 inode 数据 结构 ， 占 用 数量 可 观 的 物理 页 耐 。 这 时 ， 就 此 通过 
shrink dcache memory( ) 和 shrink icache memory( ) 适 当 加 以 回收 ， 以 维持 这 些 数 据 结构 与 物理 页 面 间 
的 “生态 平衡 ”。 另 一 方面 ， 除 此 以 外 ， 内 核 在 运行 中 也 需要 动态 地 分 配 使 用 很 多 数据 结构 ， 内 核 中 对 
此 采用 了 种 称 为 “slab” 的 管理 机 制 。 以 后 读者 会 看 到 ， 这 种 机 制 就 好 像 是 向 存储 管理 “批发 ”物理 
页 面 ， 然 后 切割 成 小 块 “ 零 售 ”。 随 着 系统 的 运行 ， 对 这 种 物理 页 面 的 实际 需求 也 在 动态 地 变化 。 但 是 
slab 管理 机 制 也 是 倾向 于 分 配 和 保持 网 多 的 空闲 物理 页 面 ， 击 不 热点 于 退还 这 些 页 面 ， 所 以 过 CERMI 
间 就 要 通过 kmem_cache_reap( ) 来 “收割 ”。 读 者 可 以 在 学 习 了 “文件 系统 ”后 回 过 来 自己 阅读 前 两 个 
函数 的 代码 ， 我 们 在 这 里 则 集中 关注 refill inactive( )， 其 代码 在 mm/vmscan.c F: 





[kswapd( ) > do try. to free pages( ) > refill, inactive ( )] 


824 /* 

825 * We need to make the locks finer granularity, but right 
826 * now we need this so that we can do page allocations 
827 * without holding the kernel lock etc. 

828 * 

829 x We want to try to free “count” pages, and we want to 
830 * cluster them so that we get good swap-out behaviour. 
831 * 

832 * OTOH, if we're a user process (and not kswapd), we 
833 * really care about latency. In that case we don't try 
834 * to free too many pages. 

835 */ 

836 static int refill inactive(unsigned int gfp mask, int user) 
837 { 

838 int priority, count, start count, made progress; 
839 

840 count - inactive shortage( ) * free shortage( ); 

841 if (user) 

842 count = (1 << page cluster); 

843 start count = count; 

844 

845 /* Always trim SLAB caches when memory gets low. */ 
846 kmem cache reap(gfp mask); 

847 

848 priority = 6; 

849 do { 

850 made_progress = 0; 

851 

852 if (current->need_resched) { 

853 ^ set current state(TASK. RUNNING) ; 

854 schedule( ); 

855 } 

856 

857 while (refill inactive scan(priority, 1)) { 

858 made progress - l; 
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859 if (—count <= 0) 

860 goto done; 

861 } 

862 

863 /* 

864 * don't be too light against the d/i cache since 
865 * refill inactive( ) almost never fail when there's 
866 * really plenty of memory free. 

867 */ 

868 shrink dcache memory(priority, gfp mask); 

869 shrink icache_memory (priority, gfp mask); 

870 

871 /* 

872 * Then, try to page stuff out.. 

873 */ 

874 while (swap out (priority, gfp mask)) { 

875 made progress = 1; 

876 if (--count <= 0) 

877 goto done; 

878 } 

879 

880 /* 

881 * [f we either have enough free memory, or if 
882 * page launder( ) will be able to make enough 
883 * free memory, then stop. 

884 */ 

885 if (!inactive shortage( ) || !free shortage( )) 
886 goto done; 

887 

888 /* 

889 * Only switch to a lower “priority” if we 

890 * didn’ t make any useful progress in the 

891 * last loop. 

892 */ 

893 if (!made progress) 

894 priority--; 

895 } while (priority >= 0); 

896 

897 /* Always end on a refill inactive.., may sleep... */ 
898 while (refill inactive scan(0, 1)) ( 

899 if (--count <= 0) 

900 goto done; 

901 } 

902 

903 done: 

904 return (count € start count); 

905 ) 
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参数 user 是 从 kswapd 传 下 来 的 ， 表 示 是 否 有 函数 在 kswapd_done 队列 中 等 竺 执行， 这 个 因素 决定 
回收 物理 页 面 的 过 程 是 否 可 以 慢 慢 来 ， 所 以 对 本 次 要 回收 的 页 面 数 量 有 影响 。 

首先 通过 kmem cache, reap( )“ ICE" it slab 机 制 管理 的 空闲 物理 页 面 , 相对 而 言 这 是 动作 最 小 的 ， 
读者 可 以 在 学 习 了 “内 核 工作 缓冲 区 的 管理 ”- - 节 以 后 自己 阅读 这 个 函数 的 代码 。 

然后 ， 就 是 -个 do-while 循环 。 循 环 从 优先 级 最 低 的 6 级 开始 ， 逐 步 加 大 “力度 ”直到 0 级 ， 结 
果 或 者 达到 了 目标 ， 回 收 的 数量 够 了 ; 或 者 在 最 高 优先 级 时 还 是 达 不 到 目标 ， 那 也 只 好 算 了 【到 缺 页 
中 断 真 的 发 生 时 情况 也 许 有 了 改变 )。 

在 循环 中 , 每 次 开头 都 要 检查 一 下 当前 进程 的 task. struct 结构 中 的 need_resched 是 否 为 1。 如果 是 ， 
就 说 明 某 个 中 断 服务 程序 要 求 调 度 ， 所 以 调用 schedule ?让 内 核 进行 一 次 调度 , 但 是 在 此 之 前 把 本 进程 
的 状态 设置 成 TASK_RUNNING， 表 达 要 继续 运行 的 意愿 。 读 者 在 第 4 章 中 将 会 看 到 ，task_struct 结构 
中 的 need resched 是 为 强制 调度 而 设置 的 ， 每 当 CPU 结束 了 一 次 系统 调用 或 中 断 服 务 、 从 系统 空间 返 
回 用 户 空间 时 就 会 检查 这 个 标志 。 可 是 ，kswapd 是 个 内 核 线程 ， 永 远 不 会 “返回 用 户 空间 ” 这 样 就 
有 可 能 绕 过 这 个 机 制 而 占 住 CPU 不 放 ， 所 以 只 能 靠 它 “ 自 律 "”， 自 己 在 可 能 需要 较 长 时 间 的 操作 之 前 
检查 这 个 标志 并 调用 schedule( ). 

那么 ,在 循环 中 做 些 什么 呢 ? FEE. (PAIL refill_inactive_scan( ) 扫 描 活 跃 和 负面 队列 ， 
试图 从 中 找到 可 以 转 入 不 活跃 状态 的 页 面 ， 另 一 件 是 通过 swap out( ) 找 出 一 个 进程 ， 然 后 扫描 其 映射 
表 ， 从 中 找 出 可 以 转 入 不 活跃 状态 的 页 面 。 此 外 ， 还 要 再 试 试用 于 dentry 结构 和 inode 结构 的 页 面 。 
先 看 refill_inactive_scant ) 的 代码 ， 这 个 函数 在 mm/vmscan.c P; 


699 /** 

100 * refill inactive scan - scan the active list and find pages to deactivate 
101 * Gpriority: the priority at which to scan 

102 * Goneshot: exit after deactivating one page 

703 * 

704 * This function will scan a portion of the active list to find 

705 * unused pages, those pages will then be moved to the inactive list. 

706 */ 


707 int refill inactive scan(unsigned int priority, int oneshot) 
708 { 


709 struct list head * page lru; 

110 struct page * page; 

Til int maxscan, page active = 0; 

112 int ret = 0; 

113 

114 /* Take the lock while messing with the list... */ 

715 spin lock(&pagemap lru lock); 

716 maxscan = nr active pages >> priority; 

717 while (maxscan-- > 0 && (page_lru = active list.prev)!- &active list) { 
118 page = list entry(page lru, struct page, lru); 

119 

120 /* Wrong page on list?! (list corruption, should not happen) */ 
721 if (!PageActive(page)) { 

722 printk("VM: refill inactive, wrong page on list. n^); 

723 list_del{page_lru); 
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就 像 对 “ 脏 ” 页 面 队列 的 扫描 一 样 ， 这 里 也 通过 一 个 局 部 量 maxscan 来 控制 扫描 的 页 面 数 量 。 不 
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nr active pages--; 
continue; 


) 


/* Do aging on the pages. */ 
if (PageTestandClearReferenced(page)) { 

age page up nolock (page) ; 

page active = 1; 
) else { 

age page down ageonly (page); 

/* 

* Since we don’t hold a reference on the page 

* ourselves, we have to do our test a bit more 

* strict then deactivate page( ). This is needed 
* since otherwise the system could hang shuffling 
* unfreeable pages from the active list to the 
* inactive_dirty list and back again... 
* 
党 


SUBTLE: we can have buffer pages with count l1. 
*/ 
if (page-^age == 0 && page count(page) <= 
(page? buffers ? 2 : D) { 
deactivate page. nolock (page); 
page active = 0; 
} else { 
page active = l; 

) 
) 
/* 
* If the page is still on the active list, move it 
* to the other end of the list. Otherwise it was 
* deactivated by age page down and we exit successfully. 
*/ 
if (page active || PageActive(page)) { 

list del(page lru); 

list add(page lru, &active list); 
} else { 

ret = 1; 

if (oneshot) 

break; 


} 


spin unlock(&pagemap lru lock); 


return ret; 
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过 这 里 扫描 的 不 一 定 是 整个 活跃 页 面 队 列 ， 而 是 根据 调用 参数 priority 的 值 扫描 其 中 一 部 分 ， 只 有 在 
priority 为 0 时 才 扫 描 整 个 队列 ( 见 716 行 )。 对 于 所 扫描 的 页 面 , 首先 也 要 验证 确实 属于 活跃 负面 ( 见 721 
A. 然后， 根据 负面 是 否 受 到 了 访问 ( 见 729 行 )， 决 定 增加 或 减少 页 面 的 寿命 。 如 果 减 少 页 面 寿命 以 
BAAS 0， 那 就 说 明 这 个 页 面 已 经 很 长 时 间 没 有 受到 访问 ， 因 出 已 经 耗 尽 了 寿命 。 不 过 ， 光 是 耗 尽 了 
寿命 还 不 足以 把 页 面 从 活跃 状态 转 入 不 活跃 状态 ， 还 得 看 是 耕 还 有 用 户 空间 上 映射。 如果 页 面 并 不 用 作 
文件 系统 的 读 / 写 缓冲 ， 那 么 只 要 页 面 的 使 用 计数 大 于 1 就 说 明 还 有 用 户 空间 映射 ， 还 不 能 转 入 不 活 
跃 状态 CIL 744 行 )， 这 样 的 页 面 在 通过 swap_out( ) 扫 撒 相 应 进程 的 映射 表 时 才能 转 入 不 活跃 状态 。 对 
于 还 不 能 转 入 不 活跃 状态 的 页 面 ， 要 将 其 从 队列 中 的 当前 位 置 移 到 队列 的 尾部 。 反 之 ， 如 果 成 功 地 将 
一 个 页 面 转 入 了 不 活跃 状态 ， 则 根据 参数 oneshot 的 值 决定 是 否 继续 扫描 。-… 般 来 说 ， 在 活跃 负面 队列 
中 的 和 页面 使 用 计数 都 人 于 1. 而 当 swap_out( ) 断 开 一 个 页 面 的 映射 而 使 其 转 入 不 活跃 状态 时 ,， 则 已 经 将 
页 面 转 入 不 活跃 页 面 队 列 ， 因 而 不 在 这 个 队列 中 了 。 可 是 ， 就 如 代码 中 的 注释 所 言 ， 确 实在 在 着 特殊 
的 情况 ， 在 “页 面 的 换 入 ”中 就 可 以 看 到 。 
FEE swap, out( ) , 那 是 在 mm/vmscan.c 中 定义 的 : 


[kswapd( ) > do to free pages( ) > refill inactive ( ) > swap out( )] 


297 /* 

298 * Select the task with maximal swap cnt and try to swap out a page. 
299 * N.B. This function returns only 0 or 1. Return values != 1 from 
300 * the lower level routines result in continued processing. 

301 */ 


302 #define SWAP_SHIFT 5 
303 #define SWAP_MIN 8 


304 

305 static int swap out(unsigned int priority, int gfp mask) 

306 { 

307 int counter; 

308 int | ret = 0; 

309 

310 /* 

311 * We make one or two passes through the task list, indexed by 
312 * assign = (0, 1}: 

313 * Pass 1: select the swappable task with maximal RSS that has 
314 * not yet been swapped out. 

315 * Pass 2: re-assign rss swap cnt values, then select as above. 
316 * 

317 * With this approach, there's no need to remember the last task 
318 * swapped out. If the swap-out fails, we clear swap cnt so the 
319 * task won t be selected again until all others have been tried. 
320 * 

321 * Think of swap cnt as a "shadow rss" - it tells us which process 
322 * we want to page out (always try largest first). 

323 */ 

324 counter = (nr threads << SWAP SHIFT) >> priority; 

325 if (counter < L) 


- 107 . 


326 
327 
328 
329 
330 
331 
332 
333 
334 
335 
336 
337 
338 
339 
340 
341 
342 
343 
344 
345 
346 
347 
348 
349 
350 
351 
352 
353 
354 
355 
356 
357 
358 
359 
360 
361 
362 
363 
364 
365 
366 
367 
368 
369 
370 
371 
372 
373 


. 108 . 


Linux 内 核 源 代码 情景 分 析 CES 


counter = 1; 


for (; counter >= 0; counter--) | 
struct list head *p; 
unsigned long max cnt = 0; 
struct mm struct *best = NULL; 
int assign = 0; 
int found task = 0; 
select: 
spin lock(&mmlist lock); 
p = init mm. mnlist.next; 
for (; p {= &init mm. mnlist; p = pnext) { 
struct mm struct *mm = list entry(p, struct mm struct, mmlist); 
if (mm rss <= 0) 
continue; 
found task**; 
/* Refresh swap cnt? */ 
if (assign == 1) | 
mm->swap_cnt = (mm—>rss >> SWAP SHIFT); 
if (mm->swap cnt < SWAP MIN) 
mm-»swap cnt = SWAP MIN; 
j 
if (mm-^swap cnt > max cnt) { 
max cnt = mm-»5swap cnt; 
best = mm; 


) 


/* Make sure it doesn’ t disappear */ 
if (best) 

atomic inc(&best-^mm users); 
spin unlock(&mmlist lock); 


/* 
* We have dropped the tasklist lock, but we 
* know that "mm^ still exists: we are running 
* with the big kernel lock, and exit mm( ) 
* cannot race with us. 
*/ 
if (!best) { 
if Classign && found task > 0) { 
assign = 1; 
goto select; 
} 
break; 
} else { 
. ret = swap_out_mm(best, gfp mask); 
mmput (best) ; 
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374 break; 
375 } 

376 ) 

377 return ret; 
378} 


这 个 函数 的 主体 是 一 个 for (XR, (ERI AEE counter, M counter 又 是 根据 内 核 中 进程 ( 包 
括 线 称 ) 的 个 数 和 调用 swap. out( ) 叶 优先 级 〈 最 初 为 6 级 ， 逐 次 上 升 至 0 级 ) 计算 向 得 的 。 当 优先 级 
为 0 时 ，counter 就 等 于 (nr_threads<< SWAP. SHIFT), RH 32X nr threads, XŒ nr threads 为 当前 系统 中 
进程 的 数量 .这 个 数值 决定 了 把 页 面 换 出 去 的 “决心 "有 和 多 人 , 即 代 和 码 中 外 层 循 坏 的 次 数 。 人 参数 gfp mask 
中 是 一 些 控 制 信息 。 

在 每 次 循 坏 中 ， 程 序 斌 图 从 所 有 的 进 积 中 找到 一 个 最 合适 的 进程 best. EA) TMF nx SEEN 
页 面 映射 表 ， 将 符合 条 件 的 页 面 暂 时 断 开 对 内 存 页 面 的 映射 ， 或 进步 将 页 面 转 入 不 活跃 状态 ， 为 把 
这 些 页 面 换 出 到 交换 设备 上 作 好 准备 。 

KBAR, IS PRR OY “swap out”, 但 实际 上 只 是 为 把 些 页 面 换 出 到 交换 设备 上 作 好 
准备 ， 册 并 不 一 定 是 物理 意义 上 -的 页 面 换 出 ， 所 以 在 下 而 的 叙述 中 所 计 "XB. MBA, AR 
据 什么 准则 来 找 “ 最 合适 ”的 进程 呢 ?” 可 以 说 是 “ 动 富 济 贫 ” 与 “轮流 坐庄 ” 相 结 合 。 得 个 进程 都 有 
其 白 身 的 虚 存 空间 ， 空 间 中 已 经 分 配 并 建立 了 映射 的 页 面 构成 -个 集合 。 a 个 给 定 的 时 刻 ， 
该 集合 中 的 每 “个 负面 所 对 应 的 物理 页 面 不 一 定 部 在 内 存 中 ， 在 内 存 中 的 往往 只 是 -个 了 上 集 。 这 个 子 
集 称 为 “ 驻 内 负面 集合 ”(resident set)， 其 大 小 称 为 rss。 在 存储 管理 结构 mm struct 中 有 “个 成 分 就 是 
rss。 以 前 我 们 在 讲 介 这 个 结构 时 把 rss 跳 过 了 ， 因 为 说 来 话 长 。 而 现在 到 了 结合 情景 和 源 代 但 加 以 说 明 
的 时 候 了 。 

代码 中 的 内 层 for 循环 表示 从 第 二 个 进程 开始 扫描 所 有 的 进程 。 内核 中 所 有 的 task. struct 结构 都 以 
双向 链 连接 成 一 个 队列 。 而 进程 init task 是 内 核 中 的 第 一 个 进程 ， 是 所 有 其 他 进程 的 祖宗 。 只 要 内 核 
还 在 运行 ， 这 个 进程 就 “永远 不 沙 ”。 所 以 ， 从 init task. next. task 始 至 init task 小 ， 就 是 扫描 除 第 一 个 
进程 外 的 所 有 进程 。 搜 描 的 日 的 是 从 中 找 出 mm->swap_cnt 为 最 大 的 进程 。 每 个 mm_struct 结构 中 的 这 
个 数值 ， 是 在 拒 所 有 进程 的 负面 资源 时 都 处 理 了 一 裔 ， 从 而 全 个 mm_struct 结构 中 的 这 个 数值 部 变 成 
了 0 的 时 候 设置 好 了 的 ， 反 映 了 当时 该 进程 占用 内 存 页 而 的 数量 mm->rss。 这 就 寻 像 一 次 “人 口 普 盘 ”。 
随后 ， 繁 次 考察 和 处 理 了 这 个 进程 的 一 个 页 面 ， 就 将 其 mm->swap_cnt 减 1， 让 至 最 后 必 成 0。 所 以 ， 
mm->rss MARY :个 进程 占用 的 内 存 页 面 数量 , 而 mm->swap_cnt 反映 了 该 进程 全 ORR A CE RA 
努力 中 尚 木 受 到 考察 的 页 面 数量 。 只 要 在 这 - 轮 中 全 少 还 有 一 个 进程 的 页 而 尚 木 受 到 考察 ， 束 一定 能 
找到 :个 * 最 住 对 象 光 一 直到 所 有 进程 的 mm->swap_cnt 都 变 成 了 0. 从 而 扫描 下 来 泛 找 个 伸 一 个 “best” 
B[ (439—444 行 )， 青 把 这 里 的 局 部 量 assign 置 成 1， 上 再 扫描 -过 。 这 - 次 将 每 个 进程 当前 的 mm-»rss 
拷贝 到 mm->swap_cnt 中 ,然后 再 从 最 富有 的 进程 开始 ,但 是 ， 所谓 尚 木 受 到 考察 的 页 面 数 量 于 不 包括 
最 近 一 次 “人 串 普 查 ” 以 后 因 页 面 异常 而 换 入 或 恢复 上 映射) 的 页 而 ,这 些 抽 面 的 数量 要 到 下 一 次 “人 
中 普查 ”以 后 才 会 反映 出 来 。 就 每 个 进程 的 角度 向 首 ， 对 内 存 页 徊 的 占用 存在 着 岗 个 方向 上 的 运动 : 
一 个 方向 是 因 页 面 异 党 而 有 更 多 的 负面 建立 起 或 恢复 起 映射 ; 另 “个 方向 则 是 周期 性 地 受到 swap_out( ) 
的 考察 而 被 切断 车 干 页 俐 的 映射。 这 上 岗 个 运动 的 结合 决定 了 个 进程 让 特定 时 间 内 对 内 存 页 ! 角 的 占用 。 

找到 一 个 “最 佳 对 象 ”best 以 后 ， 就 此 依次 考察 该 进程 的 喘 射 龙 ， 将 符合 条 件 的 页 面 换 出 去 。 

页 面 的 换 出 具体 是 由 swap, out. mm( ) 来 完成 的 。 当 swap, out. mm( ) 成 功 地 换 出 一 个 页 面 时 返 上 1， 
奉 则 返回 0， 返回 负数 则 为 异常 。 在 据 作 之 前 先 通 过 356 行 的 atomic_inc( ) 递增 mm_struct 结构 中 的 使 
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用 计数 mm users ， 待 完成 以 后 再 由 373 行 的 mmput( ) 将 其 还 原 ， 使 这 个 数据 结构 在 操作 的 期 间 多 了 
一 个 用 户 ， 从 而 不 会 在 中 途 被 释放 。 
FÉ swap_out_mm( ) 的 代码 也 在 vmscan.c 中 : 


[kswapd( ) > do_try_to_free_pages( ) > refill inactive ( ) > swap_out( ) > swap. out. mm )] 


257 static int swap out mm(struct mm struct * mm, int gfp mask) 
258 { 


259 int result - 0; 

260 unsigned long address; 

261 struct vm area struct* vma; 

262 

263 /* 

264 * Go through process’ page directory. 
265 */ 

266 

267 /* 

268 * Find the proper vm-area after freezing the vma chain 
269 * and ptes. 

270 */ 

271 spin_lock (&mm-->page_table lock); 

272 address = mm->swap_address; 

273 vma = find vma{mm, address); 

274 if (vma) { 

275 if (address < vma->vm start) 

276 address = vma-^vm start; 

277 

278 for (;;) 1 

279 result = swap out vma(mm, vma, address, gfp mask); 
280 if (result) 

281 goto out unlock; 

282 vma = va »vm next; 

283 if (!vma) 

284 break; 

285 address = vma—>vm_start; 

286 } 

287 } 

288 /* Reset to 0 when we reach the end of address space */ 
289 mm-?swap address = 0; 

290 mm-^swap cnt = Q; 

291 

292 out unlock: 

293 spin unlock(&mm-^page table lock); 

294 return result; 

2905 } 


HU, mm-»swap address 表示 在 执行 的 过 程 中 要 接着 考察 的 页 面 地 址 。 最 初时 该 地 址 为 0， 到 所 
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有 的 页 面 都 已 考察 了 一 沉 的 时 候 就 又 清 成 0 I 289 行 )。 程 序 在 一 个 for 循环 中 根据 当前 的 这 个 地 址 
找到 其 所 在 的 虚 存 区 域 rma， 然 后 就 调用 swap_out_vma( ) 试 图 换 出 个 页 面 。 如 果 成 功 ( 返 回 1)， 这 
一 次 任务 就 完成 了 。 否 则 就 试 下 一 个 虚 存 区 间 。 就 这 样 一 层 : 层 地 往 下 调用 ， 经 过 swap_out_vma( )、 
swap_out_pgd( )、swap_out_pmd( )， 一 直到 try_to_swap_out( )， 试 图 换 出 由 一 个 页 面 表 项 pte 所 指向 的 
内 存 页 面 。 中 间 这 儿 个 函数 都 在 同一 个 文件 中 ， 读 者 可 以 自行 阅读 。 这 里 我 们 直接 来 看 
try_to_swap_out( )， 因 为 这 是 关键 所 在 。 下 面 ， 我 们 一 步 一 步 来 看 它 的 各 个 片断 : 





[kswapd( ) > do try to free pages( ) > refill inactive ( ) > swap, out( ) > swap out mm( ) 
»swap out vma( ) > swap. out. pgd( ) > swap. out. pmd( ) > try to swap out( )] 


21 /* 
28 * The swap-out functions return 1 if they successfully 
29 * threw something out, and we got a free page. It returns 
30 * zero if it couldn’ t do anything, and any other value 
31 * indicates it decreased rss, but the page was shared. 
32 * 
33 * NOTE! If it sleeps, it *must* return 1 to make sure we 
34 * don t continue with the swap-out. Otherwise we may be 
35 * using a process that no longer actually exists (it might 
36 * have died while we slept). 
37 */ 
38 static int try to swap out(struct mm struct * mm, 
struct vm area struct* vma, unsigned long address, 
pte t * page table, int gfp mask) 
39 { 
40 pte t pte; 
41 swp entry t entry; 
42 struct page * page; 
43 int onlist; 
44 
45 pte = *page table; 
46 if (pte present (pte)) 
47 goto out failed; 
48 page = pte page (pte): 
49 if ((IVALID PAGE(page)) || PageReserved (page) ) 
50 goto out_failed; 
51 
52 if (!mm-^swap cnt) 
53 return 1; 
54 
55 .Im-2swap cnt—-; 
56 , 


首先 要 说 明 ， 参 数 page_table 实际 上 指向 一 个 页 面 表 项 、 而 不 是 页 面 表 ， 参数 名 page table 有 些 误 
导 。 把 这 个 表 项 的 内 容 赋 给 变量 pte 以 后 ， 就 通过 pte_present( ) 来 测试 该 表 项 所 指 的 物理 页 面 是 否 在 内 
存 中 ， 如 果 不 在 内 存 中 就 转向 out_failed， 本 次 操作 就 失败 了 : 
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106 out failed: 
107 return 0; 


当 try. to swap out( RIO, d; E— ESAE RSPR, Mitesh} Re 
映射 的 下 一 个 页 面 。 如 果 个 页 面 表 已 经 穷尽 ， 就 再 往 上 退 一 层 试 下 一 个 页面 去。 

友之 ,如果 物 利 页 面 确 在 内 存 中 , 就 通过 pte_page( ) 将 页 而 表 项 的 内 容 换 算 成 指向 该 物理 内 存 页 面 
的 page 结构 的 指针 。 由 于 所 有 的 page 结构 都 在 mem map 数组 中 ， 所 以 (page - mem_map) 就 是 该 页 面 
的 序号 (数组 中 的 下 标 )。 此 是 这 个 序号 大 丁 最 大 的 物理 内 存 负 面 序号 max_mapnr， 屠 就 不 趾 一 个 有 效 
的 物理 负面 ， 这 种 情况 通常 是 因为 物理 页 面 任 外 部 设备 (例如 网 络 接口 卡 ) 上 ， 所 以 也 跳 过 这 -项 。 


118 #define VALID PAGE (page) ((page - mem map) < max mapnr) 


此 外 ， 对 于 保留 在 内 存 中 不 允许 换 出 的 物理 页 面 也 要 跳 过 。 
跳 过 了 这 两 种 特殊 情况 ， 就 要 员 体 地 考察 “个 页 面 了 ， 所 以 将 mm->swap_cnt W 1。 继 续 往 下 看 
try. to. swap. out ) 的 代码 ; 


[kswapd( ) > do try to free pages( ) > refill, inactive ( ) > swap out( ) > swap out mm) 
> swap out vma( ) > swap out. pgd( ) > swap out. pmd( ) > try to swap out( )] 


57 onlist = PageActive (page) : 

58 /* Don't look at this pte if it’s been accessed recently. */ 
59 if (ptep test and clear young(page table)) | 

60 age page up(page); 

61 goto out failed; 

62 ] 

63 if (lonlist) 

64 /* The page is still mapped, so it can't be freeable... */ 
65 age page down agconly (page); 

66 

67 /* 

68 * If the page is in active use by us, or if the page 

69 * is in active use by others, don’t unmap it or 

70 * (worse) start unneeded IO. 

71 */ 

72 if (page->age > 0) 

73 goto out_failed; 

74 


HIRE page 结构 中 ， 字 段 flags 中 的 各 种 标志 位 反映 着 页 面 的 当前 状态 ， 其 中 的 PG_active 标 
mia AIRS Mia “GER”, METE active list BA ire: 


230 #definc PageActive (page) Lest bit(PG active, &(page) flags) 


一 个 可 交换 的 物理 页 而 一 定 在 某 个 LRU 队列 中 ， 不 在 active list 队列 中 就 说 明 一 定 在 
inactive dirty list 中 或 其 个 inactive_clean_list 中 1， 等 ~ -下 就 要 使 用 测试 的 结果 。 
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一 个 映射 中 的 物理 页 而 是 否 应 该 换 出 ， 取 决 于 这 个 负面 最 近 是 任 受 到 了 访问 。 这 是 通过 inline MS 
数 ptep_test_and_clear_young (OWA (R 0) 的 ， 其 定义 在 include/asm-i386/pgtable.h FP: 


285 static inline int ptep test and clear young (pte t *ptep) 
( return test and clear bit( PAGE BIT ACCESSED, ptep); } 





如 前 所 述 ， 页 面 表 项 中 有 个 _PAGE_ACCESSED 标志 位 。 当 i386 CPU 的 内 存 映射 机 制 在 道 过 个 
页 面 表 项 将 一 个 虚 存 地 址 映射 成 一 个 物理 地 址 ， 进 而 访问 这 个 物理 地 址 时 ， 就 会 自动 将 该 表 项 的 
_PAGE_ACCESSED 标志 位 设 成 1。 所以， 如 果 pte_young( ) 返 里 1, 就 表示 从 圭一 次 对 问 一 个 页 面 表 项 
调用 try_to_swap_out( ) 至 今 ， 该 页 而 至 少 已 经 被 访问 过 -次 ， 所 以 说 页 面 还 “年 轻 ” 一 般 而 癌 ， 最 和 近 
受到 过 访问 就 预示 着 在 不 久 的 将 来 也 会 受到 访问 ， 所 以 不 官 将 其 换 出 。 取 得 了 此 项 信息 以 后 ， 训 将 页 
面 表 项 中 的 _PAGE_ACCESSED 标志 位 清 成 0， 上 髓 把 它 写 回 页 面 表 项 ,为 下 一 次 再 米 测 试 这 个 标志 位 作 
好 准备 。 

WEIHE FR”, 那 就 肯定 不 是 此 加 以 换 出 的 对 象 ， 所 以 也 要 转 到 out_failed。 不 过 ， 人 在 转 到 
out, failed 之 前 还 此 做 一 点 事情 : Bn BE. RE Wet SetPageReferenced( ) 将 page 数据 结构 中 的 
PG referenced 标志 位 置 成 1。 也 就 是 说 ， 将 页 面 表 项 中 表示 受到 过 访问 的 信息 转移 至 页 面 的 数据 结构 
中 。 而 要 是 页 面 不 在 活跃 页 面 队 询 中 ,， 则 通过 age_page_up() 增 加 页 面 可 以 留 下 来 “以 观 后 效 ” 的 时 间 ， 
因为 毕竟 这 个 页 面 最 近 山 受到 过 访问 。 





[kswapd( ) > do_try_to_free_pages( ) > refill inactive ( ) > swap out( ) > swap out mm( ) > swap out, vma( ) 
»swap out pgd( ) > swap out pmd( ) > try to swap out()» age page up( )] 


125 void age page up(struct page * page) 


120 { 

127 /* 

128 * We're dealing with an inactive page, move the page 
129 * to the active list. 

130 */ 

131 if (!page->age) 

132 activate page (page) : 

133 

134 /* The actual page aging bit */ 
135 page->age += PAGE AGE ADV; 

136 if (page->age > PAGE AGE MAX) 
137 page-^age = PAGE AGE MAX; 
138 | 


转 到 out failed Wis, Scr SURIFO, ib BUEBURBUTSEDXX Ng. RE, FR dex 
个 进程 和 这 个 页 面 时 ， 如 果 同 一 页 面 表 项 pte 中 的 _ PAGE. ACCESSED 标志 位 仍然 为 0， 那 就 表示 不 再 
“年 轻 ” 了 。 读 者 也 许 会 问 ， 既 然 这 个 页 面 是 有 映射 的 (否则 不 会 出 现在 日 标 进程 的 映射 胡 中 并 则 在 内 
ER), BAMSANEAE IMB SUPE? Waite Ce E do swap page ) 中 看 到 ， 当 上 氏 页面 异常 而 恢 
复 一 个 不 活跃 页 而 的 映射 时 ， 并 不 立即 把 它 转 入 活跃 页 面 队列 ， 而 把 这 项 工作 留 给 前 面 看 到 的 
page_launder( )， 让 其 在 系统 比较 空闲 时 再 来 处 至 ， 所 以 这 样 的 页 面 有 可 能 不 在 活跃 队列 中 。 

如 盯 页 而 己 不 “年 轻 "， 那 就 要 进 步 考 罕 了。 当然， 也 不 能 因为 这 个 抽 面 在 过 去 一 个 周期 小 未 受 


"113. 


Linux 内 核 源 代码 情景 分 析 〈 上 册 ) 
到 访问 就 马上 把 它 换 出 去 ， 还 要 给 它 … 个 “留职 察看 ”的 机 会 。 察 看 多 久 了 呢 ? 那 就 是 page->age 的 值 ， 
即 页 面 的 寿命 。 如 果 页 面相 在 活跃 队列 中 则 还 要 先 通过 age page down ageonly( ) 减 少 其 寿命 
(mm/swap.c ): 


103 /* 

104 * We use this (minimal) function in the case where we 
105 * know we can’t deactivate the page (yet). 

106 */ 

107 void age page down ageonly (struct page * page) 

108 ( 

109 page->age /= 2; 

110 } 


只 要 page-»age 尚未 达到 0， 就 还 不 能 将 此 页 面 换 出 ， 所 以 也 要 转 到 out. failed. 
经 过 上 面 这 些 筛选 ， 这 个 页 曾 原 则 上 已 经 是 可 以 换 出 的 对 象 了 。 我 们 继续 往 下 看 代码 : 


[kswapd( ) > do try to. free_pages( ) > refill inactive ( ) > swap_out( ) > swap_out_mm( ) > swap, out. vma( ) 
»sWap out pgd() swap out pmd()-» try. to swap out( )] 


15 if (TryLockPage (page) ) 

76 goto out_failed; 

77 

78 /* From this point on, the odds are that we're going to 
79 * nuke this pte, so read and clear the pte. This hook 
80 * is needed on CPUs which update the accessed and dirty 
81 * bits in hardware. 

82 */ 

83 pte = ptep get and clear(page table); 

84 flush tlb page(vma, address); 

85 

86 /* 

87 * Is the page already in the swap cache? If so, then 
88 * we can just drop our reference to it without doing 
89 * any TO - it's already up-to-date on disk. 

90 * 

91 * Return 0, as we didn't actually free any real 

92 * memory, and we should just continue our scan. 

93 */ 

94 if (PageSwapCache(page)) ( 

95 entry. val = page->index; 

96 if (pte dirty (pte)) 

97 set page dirty (page) ; 

98 set_swap_pte: 

99 swap duplicate(entry); 

100 set pte(page table, swp entry to pte(entry)); 

101 drop pte: 

102 UnlockPage (page) ; 
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103 mm-^rss--; 

104 deactivate page(page); 
105 page cache release (page); 
106 out failed: 

107 return 0; 

108 ) 


下 面 对 page 数据 结构 的 操作 涉及 需要 互 斥 ， 或 者 说 独 目 的 条 件 下 进行 的 操作 ， 所 以 这 时 通过 
TryLockPage( ) 将 page Sd BE. Cinclude/linux/mm.h): 


183 define TryLockPage(page) test and set bit(PC locked, &(page)->flags) 


如 果 返 回 值 为 1， 即 表示 PG. locked REMARKA OGAE 1， 己 经 被 别 的 进程 先 锁 住 了 ， 此 时 就 不 
能 继续 处 理 这 个 page 数据 结构 ， 而 又 只 好 失败 返 |n|。 

加 锁 成 功 以 后 ， 就 可 以 根据 页 面 的 不 同情 况 作 换 出 的 准备 了 。 

首先 通过 ptep get and clear( ) 再 读 一 次 页 而 表 项 的 内 容 , 并 拒 表 项 的 内 容 清 成 0, TEST SURE UL TG 
PB. WHA 45 行 已 经 读 了 一 次 页 面 表 项 的 内 容 ， 为 什么 现在 还 要 再 读 一 次 ， 而 不 仅仅 是 拒 表 项 清 
OM? 在 多 处 理 器 系统 中 ， 目 标 进程 有 可 能 止 在 另 A CPU 上 运行 ， 所 以 其 映射 表 项 的 内 容 有 可 能 已 

如 果 页 面 的 page 数据 结构 已 经 在 为 页 面 换 入 / 换 出 而 设置 的 队列 中 ， 即 数据 结构 swapper space 
内 的 队列 中 ， 那 么 页 面 的 内 容 已 经 在 父 换 设备 上 ， 只 要 把 映射 暂时 断 开 ， 表示 目标 进程 已经 同意 释放 
这 个 页 面 ， 就 可 以 了 。 不 过 ， 为 页 面 换 入 / 换 出 而 设置 的 队列 也 分 为 “干净 ”和 “有 和 脏 ” 两 个 ， 所 以 如 
果 页 面 已 经 受过 写 访问 就 要 通过 set_page_dirty( KREA “IE” JUMAA. RIRE PageSwapCache ( ) 
的 定义 为 (include/linux/mm.h): 


217  #define PageSwapCache (page) test bit(PG swap cache, &(page)-—^flags) 


标志 位 PG. swap. cache 为 1 表示 page 结构 在 swapper. space 队列 中 ， 也 说 明 相 应 的 页 面 是 个 普 ; 
的 换 入 / 换 出 页 而 。 此 时 page 结构 中 的 index 字段 是 一 个 32 位 的 索引 项 swp_entry_t， 实 际 上 是 指 问 
页 面 在 交换 设备 上 的 映 象 的 指针 。 函数 swap_duplicate( ) 的 作用 ， A AERA SIMA AE HERR, 
二 者 是 此 递增 相应 盘 上 页面 的 共 当 计数， 其 代码 在 mnyswapfile.c 中 : 


[kswapd( ) > do_try_to_free_pages( ) > refill inactive ( ) > swap. out( ) > swap_out_mm( ) > swap out vma( ) 
> swap_out_pgd() > swap out pmd( ) > try, to swap out( ) > swap, duplicate( )] 


820 /* 

821 * Verify that a swap entry is valid and increment its swap map count. 
822 * Kernel lock is held, which guarantees existance of swap device. 

823 * 

824 * Note: if swap map[ ] reaches SWAP MAP MAX the entries are treated as 
825 * “permanent”, but will be reclaimed by the next swapoff. 

826 */ 

827 int swap duplicate (swp entry t entry) 

828 | 
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829 
830 
831 
832 
833 
834 
835 
836 
837 
838 
839 
840 
841 
842 
843 
B44 
845 
846 
847 
848 
849 
850 
851 
852 
853 
854 
855 
856 
857 
858 
859 
860 
861 
862 
863 
864 
865 
866 
867 
868 
869 
870 
871 


out: 
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struct swap info struci * p; 
unsigned long offset, type; 


int result = 0; 


/* Swap entry 0 is illegal */ 
if (lentry. val) 
goto out; 
type - SWP TYPE(entry); 
if (type >= nr swapfiles) 
goto bad file; 
p = type + swap info; 
offset = SWP_OFFSET (entry) ; 
if (offset >= pmax) 
goto bad_offset; 
if (!p-^swap maploffscet]) 
goto bad unused; 
/* 
* Entry is valid, so increment the map count. 
*/ 
swap device lock(p); 
if (p-»swap maploffsei] < SWAP MAP MAX) 
p->swap_map[offset]++; 
else { 
static int overflow = 0; 
if (overflow++ < 5) 
printk(“VM: swap entry overflow\n”) ; 
p->swap_maploffset] = SWAP MAP MAX; 
} 
swap_device_unlock (p) ; 
result = 1; 


return result; 


bad_file: 


printk("Bad swap file entry %08lx\n”, centry. val); 
goto out; 


bad offset: 


printk("Bad swap offset entry %08lx\n”, entry. val); 
goto out; 


bad unused: 


) 


printk (“Unused swap offset entry in swap dup %081x\n”, entry. val); 
goto out; 


以 前 讲 过 ， 数 据 结 构 swp entry. t 实际 上 是 32 A SHR, KAA DIRE AS dé 0, 但 是 最 低位 却 


一 定 是 0， 最 高 的 (24 位 ) 位 段 offset 为 设备 上 的 页 耐 序号， 其 余 的 (7 位 ) 位 段 type 则 其 实 是 交换 设备 本 
身 的 序号 。 以 前 还 讲 过 ， 其 中 的 位 段 type 实际 上 与 “类 型 ” 毫 无 关系 ， 而 是 代表 着 交换 设备 的 序号 。 
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以 此 为 下 标 ， 就 可 企 内 核 中 的 数组 swap. info 中 找到 相应 交换 设备 的 swap_info_struct 数据 结构 。 这 个 
数据 结构 中 的 数组 swap_map[ ]， 则 记录 着 交换 设备 上 各 个 负面 的 共享 计数 。 由 于 正在 处 理 中 的 页 面 原 
来 就 已 经 在 交换 设备 |.， 其 计数 显然 不 应 为 0， 人 省 则 就 错 了 ; 另 一 方面 ， 递 增 以 后 也 不 应 达到 
SWAP_MAP_MAX。 递 增 盘 上 页 面 的 共享 计数 表示 这 个 页 面 现 在 多 了 一 个 用 户 。 

FF] £j try. to swap. out( ) 的 代 人 码 中 ，100 行 调用 set_pte( )， 把 这 个 指向 盘 上 页 面 的 索引 项 置 入 相应 的 
页 面 表 项 ， 原 先 对 内 存 页 面 的 映射 就 变 成 了 对 各 上 页 面 的 映射 。 这 样 ， 当 执行 到 标号 drop pte 的 地 方 ， 
日 标 进程 的 驻 内 页 面 集合 rss 中 就 减少 了 一 个 页 面 。 由 丁 我 们 这 个 物理 页 面 断 开 了 一 个 映射 ， 很 可 能 己 
经 满足 了 变 成 不 活跃 页 面 的 条 件 ,， 所 以 在 调用 deactivate page ) 时 有 条 件 地 将 其 设置 成 不 活跃 状态 ,并 
将 页 面 的 page 结构 从 洒 跃 页 面 队 列 转移 到 某 个 不 活跃 页 面 队 列 Cmm/swap.c?: 


[kswapd( ) > do_try_to_free_pages( ) > refill inactive ( ) > swap. out( ) > swap out mm( ) > swap out. vma( ) 
»swap out pgd( ) > swap out pmd( ) > try to swap out( ) > deactivate page ( )] 


189 void deactivate page(struct page * page) 


1900 ( 

191 spin lock(&pagemap lru lock); 
192 deactivate page nolock (page); 
193 spin unlock(&pagemap lru lock); 
194 ] 


[kswapd( ) > do. try. to free pages( ) > refill inactive ( )>swap_out( ) > swap out mm( ) > swap out vma( ) 
»swap out pgd()»swap out pmd()» try to swap. out( ) > deactivate page ( ) deactivate page nolock( )] 


154 /六 本 

155 * (de}activate page © move pages from/to active and inactive lists 
156 * @page: the page we want to move 

157 * Gnolock - are we already holding the pagemap lru lock? 

158 * 

159 * Deactivate page will move an active page to the right 

160 * inactive list, while activate page will move a page back 

161 * from one of the inactive lists to the active list. If 

162 * called on a page which is not on any of the lists, the 

163 * page is left alone. 

164 */ 

165 void deactivate_page_nolock (struct page * page) 

066 — | 

167 /* 

168 * One for the cache, one for the extra reference the 

169 * caller has and (maybe) one for the buffers. 

170 * 

171 * This isn't perfect, but works for just about everything. 
172 * Besides, as long as we don’ L move unfreeable pages to the 
173 * inactive clean list it doesn't need to be perfect.. 

174 */ 

175 int maxcount = (page->buffers ? 3 : 2); 

176 page->age = 0; 
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177 ClearPageReferenced (page); 

178 

179 /* 

180 * Don’t touch it if it's not on the active list. 

181 * (some pages aren't on any list at all) 

182 */ 

183 if (PageActive (page) && page count(page) <= maxcount && 
!page ramdisk(page)) { 

184 del page from active list(page); 

185 add page to inactive dirty list(page); 

186 } 

187 } 


在 物理 页 面 的 page 结构 中 有 个 计数 器 count， 空 闲 页 而 的 这 个 计数 为 0， 在 分 配 页 面 时 将 其 设 为 1 
CJ, — alloc. pages( ) 和 rmqueue( ) 的 代 但 )， 此 后 每 当 页 面 增加 一 个 “用 户 ” 如 建立 或 恢复 一 个 映射 时 ， 
就 使 count 加 1。 这 样 ， 如 果 这 个 计数 器 的 值 为 2， 就 说 明 刚 断 开 的 映射 己 经 是 该 物理 页 面 的 最 后 一 个 
映射 。 既 然 最 后 的 映射 已 经 断 开 ， 这 页 面 当 然 是 不 活跃 的 了 。 所 以 把 小 于 等 于 2 作为 一 个 判断 的 准则 ， 
就 是 这 里 的 maxcount。 但 是 ， 这 里 还 要 考虑 一 种 特殊 情况 ， 就 是 当 这 个 抽 面 是 通过 mmap( ) 映 射 到 普 
通 文 件 ， 而 这 个 文件 又 已 经 被 打开 ， 按 常规 的 文件 操作 访问 ， 因 此 这 个 页 面 又 同时 用 作 读 / 写 文件 的 
缓冲 。 此 时 页 面 划 分 成 若干 缓冲 区 ， 其 page 结构 中 的 指针 buffers 指向 一 个 buffer head 数据 结构 队列 ， 
而 这 个 队列 则 成 了 该 页 面 的 另 :个 “用 户 ”% 所 以 ， 当 page->buffers 非 0 时 ，maxcount 为 3 说 明 刚 断 
开 的 映射 是 该 内 存 页 面 的 最 后 一 个 映射 。 此 外 ， 内 存 页 面 也 有 可 能 用 作 ramdisk， 即 以 一 部 分 内 存 物 理 
空间 米 模拟 硬盘 ， 这 样 的 页 面 永远 不 会 变 成 不 活跃 。 这 样 ， 判 断 的 准则 一 共有 三 条 ， 只 有 有 在 满足 了 这 
二 条 准则 时 才 真 的 可以 将 页 面 转 入 不 活跃 队列 。 多 数 有 有 几 户 空间 映射 的 内 存 页 面 都 具有 一 个 映射 ， 此 
时 就 转 入 了 不 活跃 状态 。 同 时 ， 从 代 个 中 也 可 看 出 ， 对 不 在 活跃 队列 中 的 页 面 再 调用 一 次 
deactivate_page_nolock( ) 并 无 害处 。 

将 -- 个 活跃 的 贡 面 变 成 不 活跃 时 ， 要 把 该 页 商 的 page 结构 从 活跃 页 面 的 LRU 队列 active list 中 转 
移 惠 一 个 个 活跃 队列 中 去 。 可 是 ， 系 统 中 有 两 种 不 活路 页面 队列 。 一 种 是 “dirty”， 即 可 能 最 近 已 被 写 
过 ， 因 出 跟 交 换 设备 上 的 负面 不 “ 致 的 “ 脏 ” 页 面 队列 ， 这 样 的 页 面 不 能 马上 就 拿 来 分 配 ， 央 为 还 需 
要 把 它 写 出 去 才能 把 它 “ 洗 净 ”. Do :种 是 “clean”， 即 肯 完 跟 交换 设备 上 的 页 面 一 致 的 “干净 ” 贞 面 
队列 ， 这 人 样 的 页 面 原则 上 已 可 作为 空闲 页 面 分 配 ， 只 是 因为 页 面 中 的 内 容 还 可 能 有 用 ， 因 而 青 予 以 保 
存 … 段 时 间 。 不 活跃 “用 ”页 面 队 列 只 有 一 个 ， 那 就 赵 inactive_dirty_list， 而 不 活跃 “十 净 ” 页 面 队 列 
则 有 很 多 ， 等 个 页 面 管理 区 中 都 有 个 inactive_clean_list 队列 。 那 么 ， 当 -- 个 咎 来 活跃 的 页 面 变 成 不 活 
跃 时 ， 应 该 把 它 转 移 到 哪 一 个 队列 中 去 昵 ? 第 一 步 总 是 把 它 转 入 “ 脏 ” 页 面 队列 。 将 一 个 page 结构 从 
活跃 队列 脱 链 是 山 宏 操 作 del_page_from_active_list( ) 完 成 的 ， 其 定义 在 include/linux/swap.h F: 





234 #define del page from active list (page) ( \ 


235 list del(&(page)-^lru); \ 
236 ClearPageActive(page); \ 
237 nr active pages~-; V 

238 DEBUG ADD PAGE V 

239 ZERO PAGE BUG \ 

240 } 
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将 一 个 page 结构 链 入 不 活跃 队列 ， 则 由 add_page_to_inactive_dirty_list( ) 完 成 ; 





217 #define add page to inactive dirty list(page) { \ 


218 DEBUG ADD PAGE \ 

219 ZERO. PAGE BUG X 

220 SetPageInactiveDirty(page); V 

221 list add(&(page)-^lru, &inactive dirty list); \ 
222 nr inactive dirty pagest^; \ 

223 page->zone->inactive dirty pages++; \ 

224 ] 


这 里 的 ClearPageActive( ) 和 SetPageInactiveDirty( ) 分 别 将 page 结构 中 的 PG. active 标志 位 清 成 0 
和 将 PG, inactive, dirty 标志 位 设 成 1。 注 意 在 这 个 过 程 中 page 结构 中 的 使 用 计数 并 未 改变 。 

又 回 到 try. to. swap out( ) 的 代码 中 ， 醋 然 断 开 了 对 一 个 内 存 页 面 的 映射 ， 就 此 递减 对 这 个 页 面 的 
使 用 计数 ， 这 是 由 宏 操 作 page_cache_release( )、 实 际 上 是 由 __free_pages( ) 完 成 的 。 


34 #define page cache release (x) free page(x) 


379 #define __ free page(page) |. free pages((page), 0) 


549 void | free pages(struct page *page, unsigned long order) 


550 { 

551 if (!PageReserved(page) && put page testzero(page)) 
552 . free pages ok(page, order); 

553 } 


152 t#define put page testzero(p) atomic dec and test(&(p)-^count) 


这 个 函数 通过 put. page. testzero( )， 将 page 结构 中 count 的 值 减 1， 然 后 测试 起 省 达到 了 0， 如 果 
达到 了 0 就 通过 _free_pages_ok( ) 将 该 页 而 释放 。 在 这 持 ， 由 十 页 面 还 华 不 活跃 委 面 队列 中 尚未 释放 ， 
至 少 还 有 这 么 个 引用 ， 所 以 不 会 达到 0。 

至 此 ， 对 这 个 页 面 的 处 理 就 完成 了 ， 于 是 义 钙 了 标号 outfaled 处 而 返回 0。 为 什么 又 是 到 达 
out failed 处 呢 ? ESE, try_to_swap_out( ) 仅 在 一 种 情况 下 才 返 思 1， 那 就 是 当 mm->swap_cnt 达到 了 0 
的 时 候 ( 见 52 行 )。 正 是 这 样 ， 才 使 swap_out_mm( ) 能 够 依次 考察 各 处理 一 个 进程 的 所 有 册 面 。 

# ARMA page 结构 不 在 swapper space 的 队列 中 昵 ? 这 说 明 尚 未 为 该 贡 面 在 交换 设备 上 建立 起 
映 象 ， 或 者 页 面 来 自 :个 文件 。 读 者 可 以 同 顾 一 下 ， 在 内 页 面 碟 映射 而 发 生 缺 页 异常 时 ， 具 体 的 处 理 
取决 于 页 而 所 在 的 区 间 起 省 提供 了 一 个 vm. operations struct 数据 结构 ， 并 日 通过 这 个 数据 结构 中 的 函 
数 指针 nopage 提供 了 特定 的 操作 。 如 果 提 供 了 nopage 操作 ,就 说 明 该 区 间 的 负面 来 自 一 个 文件 ‘而 不 
是 交换 设备 )， 此 时 根据 虚 存 地 址 可 以 计算 出 在 文 件 中 的 页 面 位 置 。 否 则 就 是 普通 的 页 面 ， 但 尚未 建立 
HMMS LAA (因为 页 面 表 项 为 0)， 此 时 先 把 它 映 射 到 空白 页 面 ， 以 后 需要 写 的 时 候 才 为 之 另行 分 
配 一 个 页 面 。 我 们 继续 往 下 看 try_to_swap_out( ) 的 代码 ， 下 面 段 就 是 对 此 种 页 面 的 处 理 : 


[kswapd( ) > do. try to free pages( ) > refill inactive ( ) > swap out( ) > swap out mmí( ) > swap out vma( ) 
»swap out pgd( ) > swap out pmd( ) > try to swap out( )] 
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126 
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128 
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130 
131 
132 
133 
134 
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136 
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139 
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157 


Linux £s Cose BEA T CFD 
/* 


Ts it a clean page? Then it must be recoverable 
by just paging it in again, and we can just drop 
it.. 


* 
* 
* 
* 
* However, this won t actually free any real 

* memory, as the page will just be in the page cache 
* somewhere, and as such we should just continue 

* our scan. 

* 

* 

* 


Basically, this just makes it possible for us to do 
some real work in the future in "refill inactive( )”. 
*/ 
flush_cache_page(vma, address); 
if (!pte_dirty (pte) 
goto drop pte; 


[x 
* Ok, it’s really dirty. That means that 
we should either create a new swap cache 
* entry for it, or we should write it back 
* to its own backing store. 
*/ 
if (page->mapping) { 

set_page_dirty (page) ; 

goto drop_pte; 


* 


/* 
* This is a dirty, swappable page. First of all, 
* get a suitable swap entry for it, and make sure 
* we have the swap cache set up to associate the 
* page with that swap entry. 
*/ 
entry = get swap page( ); 
if (lentry. val) 
goto out unlock restore; /* No swap space left */ 


/* Add it to the swap cache and mark it dirty */ 
add to swap cache(page, entry); 

set page dirty (page) ; 

goto set swap pte; 


out unlock restore: 
set pte(page table, pte); 
UnlockPage (page) ; 
return 0; 
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这 里 的 pte_dirty( ) 是 一 个 inline 函数 ， 定 义 于 include/asm-i386/pgtable.h: 


269 static inline int pte dirty(pte t pte) V 
{ return (pte). pte low & PAGE DIRTY; } 


AMMAR ^ “D” be&fz € PAGE DIRTYO, i54 CPU 对 才 项 所 指 的 内 存 页 面 进行 了 写 
操作 ， 就 自动 把 该 标志 位 设置 成 1， 表 泵 该 内 存 负 面 已 经 “ 脏 ” 了 。 如 果 此 标志 位 为 0， 就 表示 相应 的 
内 存 页 面 尚 未 被 写 过 。 对 这 样 的 页 面 ， 如 果 很 久 没有 受到 当 访 问 ， 就 可 以 把 映射 解除 《而 个 是 暂时 断 
开 )。 这 是 因为 : 如 果 页 面 的 内 容 是 全 和 白 ， 孝 么 以 后 需要 时 可 以 表 来 建立 屿 射 ; 或 者 ， 如 果 页 面 来 自 通 
过 mmap ) 建 立 起 的 文件 映射 ， 则 在 需要 时 可 以 根据 虚拟 地 址 计算 出 页 面 在 文件 中 的 位 置 〈 相 比 之 下 ， 
交换 设备 上 的 页 面 位 置 不 能 通过 计算 得 到 ， 所 以 必须 把 页 面 的 去 向 存储 企 页 面 表 项 中 )。 所 以 ， 这 里 转 
到 前 面 的 标号 drop. pte 处 。 注意 在 这 种 情况 下 前 面 的 deactivate page( ) 实 际 上 不 起 作用 , 特别 是 页 面 去 
项 已 在 前 面 83 行 清 0， 而 page cache. release( ) 则 只 是 递减 对 空白 页面 的 引用 计数 。 

如 果 所 考察 的 页 面 是 来 自 遂 过 mmap( ) 建 立 起 的 文件 映射 ， 则 其 page 结构 中 的 指针 mapping 指向 
相应 的 address, space 数据 结构 。 对 于 这 样 的 负面， 如 果 决 定 解除 映射 ， 而 页 面 表 项 中 的 _ PAGE_DIRTY 
标志 位 为 lL METHA] drop pte 处 之 前 ， 先 把 page 结构 中 的 PG. dirty 标志 位 设 成 1， 并 把 页 面 转移 
到 该 文件 映射 的 “ 胜 ” 页 面 队 列 中 。 有 关 的 操作 set page dirty( ) 定 义士 include/linux/mm.h 以 及 
mm/filemap.c: 


[kswapd( ) » do to free pages( ) > refill inactive () > swap out( ) > swap. out, mm ) 


»swap out vma( ) > swap out pgd()» swap out pmd( ) > try to swap out( ) > set page dirty( )] 


187 static inline void set page dirty (struct page * page) 


i88 { 

189 if ()test and set bit(PG dirty, &page—>flags)) 
190 set page dirty (page) ; 

191 } 

134 /* 

135 * Add a page to the dirty page list. 

136 x/ 

137 void | set page dirty (struct page *page) 

138 | 

139 struct address space *mapping = page->mapping; 
140 

141 spin lock (&pagecache lock); 

142 list del (&page >list): 

143 list_add(&page—>list, &mapping->dirty_pages) ; 
144 spin_unlock (&pagecache_lock) ; 

145 

146 mark inode dirty pages (mapping >host); 

147 } 


再 往 下 看 try_to_swap_out( ) 的 代码 。 当 程序 执行 到 这 里 时 ， 所 考察 的 页 而 必然 是 个 很 入 没有 受到 
访问 , 又 不 住 swapper_space 的 换 入 / 换 出 队列 中 , 也 不 属于 文件 映射 ， 但 却 是 个 受到 过 写 访 问 的 “ 脏 ” 
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负面。 对 十 这 样 的 页 面 必须 要 为 之 分 配 一 个 盘 上 页 面 ， 并 将 其 内 容 写 到 盘 上 页 面 中 去 。 首 先 通过 
get swap page( ) 分 配 一 个 盘 上 页面， 这 是 个 安 操作 : 


150 #define get swap page( ) __get swap page(1) 


就 是 说 ， 通 过 __get_swap_page(1) 从 交换 设备 上 分 配 一 个 页 面 。 其 代码 在 mm/swapfile.c 中 ， 由 于 
比较 简单 ， 我 们 把 它 留 给 读者 。 盘 上 页 面 的 使 用 计数 在 分 配 时 设置 成 1， 以 后 每 当 有 进程 参与 共享 同 - 
内 存 页 面 时 就 通过 swap_duplicate( ) 递 增 ， 此 外 在 有 进程 断 开 对 此 页 面 的 喘 射 时 也 要 递增 《〈 见 99 4T); 
反之 则 通过 swap free( ) 递 减 。 如 果 分 配 盘 上 页 面 失败 ， 就 转 到 out. unlock. restore 处 恢复 原 有 的 映射 。 

分 配 了 盘 上 页 面 以 后 , 就 通过 add to swap. cache( ) 将 页 面 链 入 swapper_space 的 队列 中 ， 以 及 活跃 
页 面 队列 中 , 这 个 消 数 的 代码 以 前 已 经 看 到 过 了 。 然 后, 再 通过 set_page_dirty( ) 将 页 面 转 到 不 活跃 “ 脏 ” 
页 面 队列 中 。 至 十 实际 的 写 出 ， 则 前 面 已 经 看 到 是 page_launder( ) 的 事 。 

至 此 ， 对 一 个 进程 的 用 户 空间 抽 面 的 扫 找 处 理 就 完成 了 。swap_out( ) 是 在 一 个 for 循环 中 调用 
swap_out_mm( ) 的 ， 所 以 每 次 调用 swap_out( ) 都 会 换 出 若干 进程 的 若干 负面 ,而 refill inactive( ) X. 是 在 
RER while 循环 中 调用 swap_out( ) 的 , 一直 要 到 系统 中 可 供 分 配 的 页 面 , 包括 潜在 可 供 分 配 的 页 面 在 
内 不 再 短缺 时 为 止 。 到 那 时 ，do_try_to_free_pages( ) 就 结束 了 。 回 到 kswapd( ) 的 代码 中 ， 此 时 活跃 页 
面 队列 的 情况 可 能 已 经 有 了 较 大 的 改变 ， 所 以 还 要 再 调用 … 次 refill inactive scan( )。 这 样 ，kswapd( ) 
的 一 次 例 行 路 线 就 基本 走 完了 。 如 前 所 述 ，kswapd( ) 除 定期 的 执行 外 ， 也 有 可 能 是 被 其 他 进程 唤醒 的 ， 
所 以 可 能 有 进程 正在 睡 虐 中 等 待 其 完成 ， 因 此 道 过 wake_up_all( ) 唤 醒 这 些 进程 。 

读者 也 许 在 想 ， 通 过 swap_out_mm( ) 对 每 个 进程 页 面 表 的 打 描 并 不 保证 - 定 能 有 页 面 转 入 不 活跃 
状态 ,这 样 refill_inactive( ) 岂 不 是 要 无 穷 无 信 地 循环 下 去 ?事实 上 , 一 来 程序 中 对 循环 的 次 数 有 个 限制 ， 
二 来 对 页 面 表 的 #| 描 是 个 站 适应 的 过 程 。 如 果 在 对 所 有 进程 的 一 轮 扫 描 后 转 入 不 活跃 状态 的 页 面 数量 
AE, 那么 refill_inactive( ) 就 会 又 回 过 头 来 开始 第 二 轮 扣 摘 。 而 扫描 次 数 的 增加 会 使 页 面 老化 的 速度 也 
增加 ， 因 为 页 面 的 寿命 实际 上 是 以 扫描 的 次 数 为 单位 的 。 这 样 ， 存 第 一 轮 扫描 中 不 符合 条 件 的 页 面 在 
第 二 轮 扫 撒 中 就 可 能 符合 条 件 了 。 最 后 ， 在 很 特殊 的 情况 下 ， 可 能 最 终 还 是 达 不 到 要 求 ， 此 时 就 调用 
oom_kill() 从 系统 中 杀 掉 一 个 进程 ， 通 过 牺牲 局 部 来 保障 全 局 。 


最 后 ， 再 来 看 看 线程 kreclaimd 的 代码 , 这 是 在 mm/vscan.c 中 ; 


1095 DECLARE WAIT QUEUE HRAD (kreclaimd_wait) ; 


1096 /* 

1097 * Kreclaimd will move pages from the inactive clean list to the 
1098 * free list, in order to keep atomic allocations possible under 
1099 * all circumstances. Even when kswapd is blocked on IO. 

1100 */ 

1101 int kreclaimd(void *unused) 

1102 { 

1103 struct task struct *tsk - current; 

1104 pg data t *pgdat; 

1105 

1106 tsk-^session = 1; 

1107 tsk-^pgrp = 1; 

1108 strepy(tsk->comm, “kreclaimd”) ; 
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1109 
1110 
lH 
1112 
1113 
1114 
1115 
1116 
1117 
1118 
1119 
1120 
1121 
1122 
1123 
1124 
1125 
1126 
1127 
1128 
1129 
1130 
1131 
1132 
1133 
1134 
1135 
1136 
1137 
1138 
1139 
1140 
1141 
1142 
1143 


} 





sigfillset(&tsk-^blocked); 
current->flags |= PF MEMALLOC; 


while (1) { 
/* 
* We sleep until someone wakes us up from 
* page alloc.c:: | alloc pages( ). 
*/ 


interruptible sleep on(&kreclaimd wait); 


/* 
* Move some pages from the inactive clean lists to 
* the free lists, if it is needed. 


*/ 
pgdat - pgdat list; 
do { 
int i; 


for(i = 0; i < MAX NR ZONES; i++) { 
zone t *zone = pgdat-5node zones + i; 
if (!zone-»size) 
continue; 


while (zone—^free pages < zone->pages low) { 
struct page * page; 
page > reclaim page (zone); 
if (lpage) 
break; 
. free page(page); 


} 
pgdat = bgdat->node next; 


} while (pgdat) ; 


对 照 一 上 kswapd AUS, 就 可 以 看 出 二 者 的 初始 化 部 分 是 一 样 的 ， 程 序 的 结构 也 相似 。 注意 一 


者 都 把 其 task. struct 结构 中 flags 字段 的 PF MEMALLOC 标志 位 设 成 1， 表 不 这 上 山 个 内 核 线程 都 起 负 
面 管理 机 制 的 维护 者 。 事 实 上 ， 在 以 前 的 版 本 中 只 有 一 个 线程 kswapd， 在 2.4 版 中 才 把 其 中 的 - -部 分 
独立 出 来 成 为 “个 线程 。 不 过 ， 这 一 次 是 通过 reclaim_page( ) 扫 描 各 个 页 面 符 理 区 中 的 不 活跃 “干净 ” 
页 面 队列 ， 从 中 国政 页 面 加 以 释放 。 这 个 函数 的 代码 在 mm/vmscan.c 中 ， 我 们 把 它 留 给 读者 自己 出 读 。 
在 阅读 了 上面 这 些 代码 以 后 ， 读 者 已 经 不 至 于 感到 困难 了 。 


[kreclaimd( ) > reclaim_page( )] 


381 
382 


/** 
* reclaim page -  reclaims one page from the inactive clean list 


- 123. 


Linux 内 核 源 代码 情景 分 析 《〈 上 册 ) 


383 * Ozone: reclaim a page from this zone 

384 * 

385 * The pages on the inactive clean can be instantly reclaimed. 

386 * The tests look impressive, but most of the time we ll grab 

387 * the first page of the list and exit successfully. 

388 */ 

389 struct page * reclaim page (zone_t * zone) 

390  ( 

391 struct page * page = NULL; 

392 struct list_head * page_lru; 

393 int maxscan; 

394 

395 /* 

396 * We only need the pagemap lru lock if we don't reclaim the page, 
397 * but we have to grab the pagecache lock before the pagemap lru lock 
398 * to avoid deadlocks and most of the time we'll succeed anyway. 
399 */ 

400 spin lock(&pagecache lock); 

401 spin lock(&pagemap lru lock); 

402 maxscan = zone->inactive clean pages; 

403 while ((page lru = zone->inactive_clean_list. prev) != 

404 &zone-^inactive clean list && maxscan--) | 

405 page - list entry(page lru, struct page, lru); 

406 

407 /* Wrong page on list?! (list corruption, should not happen) */ 
408 if (IPageInactiveClean(page)) 1 

409 printk (“YM: reclaim page, wrong page on list. n^); 

410 list del(page lru); 

411 page->zone—?inactive_clean_pages—; 

412 continue; 

413 } 

414 

415 /* Page is or was in use? Move it to the active list. */ 
416 if (PageTestandClearReferenced(page) |; page->age > 0 | 

417 ('page->huffers && page count(page) > 1)) 1 

418 del page from inactive clean list(page); 

419 add page to active list(page); 

420 continue; 

421 ] 

422 

423 /* The page is dirty, or locked, move to inactive dirty list. */ 
424 if (page->buffers |: PageDirty(page) || TryLockPage(page)) | 
425 del page from inactive clean list(page); 

426 add page to inactive dirty list (page) ; 

421 continue; 

428 } 

429 

430 /* OK, remove the page from the caches. */ 
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431 if (PageSwapCache(page)) ( 
432 . delete from swap cache (page); 
433 goto found page; 

434 } 

435 

436 if (page->mapping) { 

437 remove_inode_page (page) ; 

438 goto found page; 

439 ] 

440 

441 /* We should never ever get here. */ 
442 printk(KERN ERR “VM: reclaim page, found unknown page\n’) ; 
443 list del(page lru); 

444 zone-^inactive clean pages--; 

445 UnlockPage (page) ; 

446 } 

447 /* Reset page pointer, maybe we encountered an unfreeable page. */ 
448 page = NULL; 

449 golo out; 

450 

451 found page: 

452 del page from inactive clean list(page); 
453 UnlockPage (page) ; 

454 page-^age = PAGE AGE START; 

455 if (page count(page) != 1) 

456 printk(^VM: reclaim page, found page with count %d!\n’, 
457 page count (page) ) ; 

458 out: 

459 spin unlock(&pagemap lru lock); 

460 spin unlock(&pagecache lock); 

461 memory pressure*t*; 

462 return page; 

463 ] 


29 页 面 的 换 入 


在 和 86 CPU 将 个 线性 地 址 映射 成 物理 地 址 的 过 程 中 ， 如 果 该 地 址 的 映射 已 经 建立 ， 但 是 发 现 相 
应 页 而 表 项 或 丹 录 项 中 的 P《〈Present) 标志 位 为 0， 则 表示 相应 的 物理 页 而 不 在 内 存 ， 从 而 无法 完成 本 
次 内 存 访问 。 从 理论 上 说 ， 也 许 应 该 把 这 种 情况 称 为 “受阻 ”而 不 足 “ 失 败 ” 因为 映射 的 关系 毕竟 已 
经 建 芝 ， 理 应 与 尚未 建立 映射 的 情况 有 所 区 别 ， 所 以 我 们 称 之 为 “ 断 开 ” 但 是 ，CPU 的 MMU 硬件 并 
不 区 分 这 两 种 不 同 的 情况 ， 只 此 了 标志 位 为 0 就 部 认为 是 页 面 映 射 失败 ，CPU 就 会 产生 一 次 “页 面 异 
常 ”(Page Fault)。 事 实 上 ，CPU 在 映射 过 程 中 首先 看 的 就 是 页 面 表 项 或 目录 项 中 的 P 标志 位 。 只 要 P 
标志 位 为 0, 其余 各 个 位 段 的 值 就 无 意义 了 。 人 至 于 当 个 页 而 不 在 内 存 中 时 ,利用 负面 表 项 指向 一 个 堆 
上 页 面 ， 洲 是 软件 的 事 。 所 以 ， 区 分 失败 的 原因 到 底 是 因为 页 而 不 在 内 存 ， 还 是 因为 映射 尚未 建立 ， 
乃 是 软件 ,也 就 是 员 面 异常 处 理 程序 的 事 。 在 “越界 访问 ”的 情景 中 ,我 们 曾 看 到 在 水 数 handle_pte_fault( ) 
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中 的 开头 几 行 : 
{do_page_fault( ) > handle mm fault( ) > handle pte fault( )] 


1153 static inline int handle pte fault (struct mm struct *mm, 


1154 struct vm area struct * vma, unsigned long address, 
1155 int write access, pte t * pte) 

1156 { 

1157 pte t entry; 

1158 

1159 /* 

1160 * We need the page table lock to synchronize with kswapd 
1161 * and the SMP-safe atomic PTE updates 

1162 */ 

1163 spin lock(&mm-»page table lock); 

1164 entry = *pte; 

1165 if (!pte present(entry)) | 

1166 /* 

1167 * If it truly wasn’t present, we know that kswapd 
1168 * and the PTE updates will not touch it later. So 
1169 * drop the lock. 

1170 */ 

1171 spin unlock(&mm-»page table lock); 

1172 if (pte none(entry)) 

1173 return do no page(mm, vma, address, write access, pte); 
1174 return do swap page(mm, vma, address, pte, 


pte to swp entry(entry), write access); 
1175 } 


这 里 ， 首 先 区 分 的 是 pte_present( )， 也 就 是 检查 表 项 中 的 P 标志 位 ， 看 看 物理 页 面 是 否 在 内 存 中 。 
to BARGE, MBE IHL pte_none( ) 检 但 表 项 是 否 为 空 ， 即 全 0。 如果 为 空 就 说 明 映 射 尚未 建立 BUDE 
do_no_page( )。 这 在 以 前 的 情景 中 已 经 看 到 过 了 。 反 之 ， 如 果 非 空 ， 就 说 明 映 射 凯 经 建立 ， 只 是 物理 
页 面 不 在 内 存 中 ,所 以 要 通过 do_swap_page( ), 从 交换 设备 上 换 入 这 个 页 面 。 本 情景 侍 handle_pte_fault( ) 
之 前 的 处 理 以 及 执行 路 线 都 与 越界 访问 的 情景 相同 ， 所 以 我 们 直接 进入 do_swap_page( )。 这 个 函数 的 
代码 在 mm/memory.c 中 : 


[do_page_fault( ) > handle_mm_fault( ) > handle_pte_fault( ) > do_swap_page( )] 


1018 static int do swap page (struct mm struct * mm, 


1019 struct vm area struct * vma, unsigned long address, 

1020 pte t * page table, swp entry t entry, int write access) 
1021 { 

1022 struct page *page = lookup. swap, cache (entry) ; 

1023 pte t pte; 

1024 

1025 if (page) { 
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1026 lock kernel( ); 


1027 swapin readahead (entry) ; 

1028 page = read swap cache(entry); 

1029 unlock kernel( ); 

1030 if (!page) 

1031 return -l; 

1032 

1033 flush page to ram(page); 

1034 flush icache,page(vma, page); 

1035 } 

1036 

1037 mm >rsstt; 

1038 

1039 pte = mk pte(page, vma~>vm_page_prot); 

1040 

1041 /* 

1042 * Freeze the “shared”ness of the page, ie page count + swap count. 
1043 * Must lock page before transferring our swap count to already 
1044 * obtained page count. 

1045 */ 

1046 lock page (page) ; 

1047 swap free (entry); 

1048 if (write access && !is_page shared(page)) 

1049 pte = pte mkwrite(pte mkdirty(pte)); 

1050 UnlockPage (page) ; 

1051 

1052 set pte(page table, pte); 

1053 /* No need to invalidate ~ it was non-present before */ 
1054 update mmu cache (vma, address, pte); 

1055 return 1; /* Minor fault */ 

10566 ] 


CAG WERE SPESE REA. | DL AI IRL RU TE ERU AT TEMERE RSS RP, ON 
着 CPU 的 执行 路 线 直 一遍， 搞 清楚 这 些 参数 的 来 龙 太 脉 。 参数 表 中 的 mm, vma 还 有 address 是 一 日 了 
然 的 ,分别 起 指向 当前 进程 的 mm struct 结构 的 指针 、 所 属 虚 存 区 间 的 vm. area. struct 结构 的 指针 以 及 
映射 失败 的 线性 地 址 。 

参数 page table 指向 映射 失败 的 页 面 表 项 ， 而 entry 则 为 该 表 项 的 内 容 。 我 们 以 前 说 过 ， 当 物理 页 
面 在 内 存 中 时 ， 页 面 表 项 是 个 pte_t 结构 ， 指 向 个 内 存 页 面 ; 而 当 物理 页 面 不 在 内 存 中 时 ， 则 是 一 
个 swap_entry_t 结构 ， 指 向 - -个 盘 上 页 面 。 二 者 实际 上 都 是 32 AHR, RTE, BRI “不 
在 内 存 中 ”是 逻辑 意义 上 的 ， 是 对 CPU 的 页 面 映射 硬件 而 言 ， 实 际 上 这 个 页 面 很 串 能 在 不 活跃 页 面 队 
列 中 ， 其 至 在 活跃 页 面 队列 中 。 

还 有 一 个 参数 write_access, 表示 当 映 射 失败 时 所 进行 的 访问 种 类 ( 读 / 写 ), 这 是 在 do page fault( ) 
AY switch fJ CI arch/i386/fault.c) 根据 CPU 产生 的 出 错 代码 error_code 的 bitl WERK CER, 4 
那个 switch 诸 句 中,“default:” 与 “case 2:” 之 间 没 有 break 语句 )。 此 后 便 逐 屋 传 了 下 来 。 

由 才 物 埋 页 而 不 在 内 存 ， 所 以 entry 是 指向 一 个 盘 上 页 面 的 类 似 于 指针 的 索引 项 (加 上 车 干 标 志 
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位 )。 该 指针 逻辑 上 分 成 两 部 分 ;第 一 部 分 是 页 而 交换 设备 〈 或 文件 ) 的 序号 ; 第 二 部 分 是 页 面 在 这 个 
设备 上 《或 文件 中 ， 下 同 ) 的 位 黎 ， 其 实 也 就 是 负面 序号 。 两 部 分 合 在 一 起 就 惟 地 俏 定 了 一 个 各 上 
页 面 。 供 页 面 交换 的 设备 上 第 一 个 页 面 (序号 为 0) 是 保留 不 用 的 ， 所 以 entry 的 值 不 可 能 为 全 0。 这 
样 才 能 与 映射 尚未 建立 时 的 页 面 表 项 相 区 划 。 

处 理 一 次 因 缺 页 而 引起 的 页 面 异常 时 ,首先 要 看 看 相应 的 内 存 页 面 是 个 还 留 在 swapper space 的 换 
入 / 换 出 队列 中 尚未 最 后 释放 。 如 果 是 的 话 那 就 省 事 了 。 所 以 ， 要 先 调用 lookup_swap_cache( )- 这 个 
函数 是 在 swap_state.c 中 定义 的 ， 我 们 把 它 留 给 读者 自己 阅读 。 

如 各 没有 找到 ， 就 是 说 以 前 用 十 这 个 虚 存 页 面 的 内 存 页 面 已 经 释放 ， 现 在 其 内 容 仪 在 在 于 盘 上 了 ， 
那 就 要 通过 read. swap. cache( ) 分 配 一 个 内 存 页 面 ， 并 且 从 和 栓 上 将 其 内 容 读 进 来 。 为 什么 在 此 之 前 要 先 
调用 swapin_readahead( )¥2? 当 从 磁盘 上- 读 的 时 候 ， 每 次 仅仅 读 一 个 页 面 臣 不 经 济 的 ， 因为 每 次 读 盐 都 
要 经 过 在 磁盘 上 寻 道 使 做 头 定 位 ， 而 寻 道 所 需 的 时 间 实 际 上 比 磁头 到 位 以 后 读 一 个 页 面 捆 需 的 时 间 要 
长 得 多 。 所 以 ， 比 较 经 济 的 办 法 是 : 既然 必需 经 过 寻 道 ， 就 干脆 一 次 多 读 儿 个 页 面 进 米 ， 称 为 .个 克 
面 集群 〈cluster)。 由 于 此 时 并 非 每 个 读 入 的 页 面 都 是 立即 需要 的 ， 所 以 是 “ 预 读 ”(read ahead). PIX 
进来 的 页 面 都 暂时 链 入 活跃 页 面 队列 以 及 swapper_space 的 换 入 / 换 出 队列 中 , 如 果实 际 上 确实 个 需要 
就 会 由 进程 kswapd 和 kreclaimd 在 一 段 时 间 以 后 加 以 回收 。 这 样 ， 当 调用 read_swap_cache( ) 时 ， 通 党 
所 需 的 页 面 已 经 在 活跃 页 面 队列 中 而 只 需要 把 它 找到 就 行 了 。 但 是 ， 也 有 可 能 预 读 时 因为 分 配 不 到 足 
够 的 内 存 页 面 而 失败 ， 那 样 就 真 的 要 再 来 读 一 次 ， 人 出 这 一 次 却 真是 只 读 入 “个 页 面 了 。 细 心 的 读者 可 
能 会 问 ， 这 两 行程 序 是 紧 挨 着 的 ， 为 什么 在 前 一 行 语句 中 因 分 配 不 到 足够 的 内 存 页 面 而 失败 ， 到 紧 接 
着 的 下 一 行 就 有 可 能 成 功 呢 ? 这 是 因为 ， 在 分 配 内 存 页 面 失败 时 ， 内 核 可 能 会 调度 其 他 进程 先 运行 ， 
而 被 调度 运行 的 进程 可 能 会 释放 出 一 些 内 存 页 面 , 甚至 被 调度 运行 的 进程 可 能 恰好 就 是 kswapd。 因此， 
第 一 次 分 配 内 存 页 面 失败 并 不 一 定 说 明 紧 接着 的 第 -次 也 会 失败 。 要 明白 这 一 点 ， 我 们 可 以 青 来 看 一 
Kéž — alloc. pages ) 中 的 一 个 片段 : 


382 wakeup_kswapd (0) ; 

383 if (gfp mask & __GFP_WAIT) { 

384 | set current state (TASK RUNNING) ; 
385 current->policy |= SCHED YIELD; 
386 schedule( ); 

387 } 


无 论 是 swapin_readahead( )35 At read. swap cache( ), 在 申请 分 配 内存 页 面 时 都 把 调用 参数 gfp. mask 
中 的 __GFP_WAIT 标志 位 置 成 1， 所 以 当 分 配 不 到 内 存 页 面 时 都 会 自 奈 暂时 礼让 ， 让 内 核 调度 其 他 进 
程 先 运行 。 由 于 在 此 之 前 先 唤醒 Y kswapd， 当 本 进程 被 调度 恢复 运行 时 ， 也 就 是 从 schedule( JAER, 
再 次 试图 分 配 页 面 已 有 可 能 成 功 了 。 即使 在 swapin readahead( ) 踢 又 失败 了 , d£ read_swap_cache( ) 中 再 
来 一 次 ， 也 还 是 有 可 能 〈 而 且 多 半 能 够 ) 成功。 当然 ， 也 有 可 能 二 者 都 失败 了 ， 那 样 do_swap_page( ) 
也 就 失败 了 ， 所 以 在 1031 行 返回 一 1。 这 里 ， 我 们 就 不 深入 到 swapin_readahead( ) 路 去 了 ， 读 老 可 以 
白 行 阅读 。 而 read_swap_cache( ) 实 际 上 是 read_swap_cache_async( )， 只 是 把 调用 参数 wait 设 成 1， 胡 
示 要 等 待 读 入 完成 (所 以 实际 上 是 同步 的 读 入 )。 


125 #define read swap cache(entry) read swap cache async(entry, 1); 


函数 read, swap. cache, async( ) 的 代码 在 mm/swap. state.c 中 : 
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[do. page. fault( ) > handle mm fault( ) > handle_pte_fault( ) > do_swap_page( ) 
»read swap cache, async( )] 


204 
205 
206 
207 
208 
209 
210 
211 
212 
213 
214 
215 
216 
217 
218 
219 
220 
221 
222 
223 
224 
225 
226 
221 
228 
229 
230 
231 
232 
233 
234 
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236 
237 
238 
239 
240 
241 
242 
243 
244 
245 
246 
247 
248 


/* 

* Locate a page of swap in physical memory, reserving swap cache space 
* and reading the disk if it is not already cached. If wait--0, we are 
* only doing readahead, so don't worry if the page is already locked 

* 

* A failure return means that either the page allocation failed or that 
* the swap entry is no longer in use. 


*/ 


struct page * read swap cache async(swp entry t entry, int wait) 
Í 

struct page *found page = 0, **new page; 

unsigned long new pago addr; 


/* 

* Make sure the swap entry is still in use. 

*/ 

if (!swap duplicate(entry)) /* Account for the swap cache */ 
goto out; 

/* 

* Look for the page in the swap cache. 

*/ 


found page - lookup swap cache(entry); 
if (found page) 

goto out free swap; 
new page addr = __ got free page(GFP USER); 
if (!new page addr) 

goto out free swap; /* Out of memory */ 
new page = virt to page(new page addr); 


/* 

* Check the swap cache again, in case we stalled above 
*/ 

found page = lookup swap cache (entry); 

if (found page) 

goto out free page; 

/* 

* Add it to the swap cache and read its contents. 
*/ 

lock page(new page); 
add to swap cache(new page, entry); 

rw swap page(READ, new page, wait); 

reiurn now page; 
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249 out free page: 


250 page cache release(new page); 
251 out free swap: 

252 swap free(entry); 

253 out: 

254 return found page; 

255 } 


读者 也 许 注意 到 了 ， 这 里 两 次 调用 了 lookup swap cache( )。 第 一 次 是 很 好 理解 的 ， 因 为 
swapin readahead( ) 也 许 已 经 把 目标 页 面 读 进来 了 ， 所 以 要 先 从 swapper_space 队列 中 寻找 一 次 。 这 一 
方面 是 为 了 节省 一 次 从 设备 读 入 ; 另 一 方面 ， 更 重要 的 是 防止 同一 个 页 面 在 内 存 中 有 两 个 副本 。 可 是 
为 什么 在 找 不 到 、 因而 为 此 分 配 了 一 个 内 存 页 面 以 后 又 来 寻找 一 次 呢 ? 这 是 因为 分 配 内 存 页 面 的 过 程 
有 可 能 受阻 ， 如 果 - “时 分 配 不 到 页 面 ， 当 前 进 穆 就 会 睡眠 等 待 ， 让 别 的 进程 先 运 行 。 而 当 这 个 进程 再 
次 被 调度 运行 , 并 成 功 地 分 配 到 物理 页 面 从 __get_free_page( ) 返 回 时 ,也 许 另 一 个 进程 已 经 先 把 这 个 页 
面 读 进来 了 ， 所 以 要 再 检查 一 次 。 如 果 确 实 需要 从 交换 设备 读 入 ， 则 通过 add to swap. cache( ) 将 新 分 
配 的 物理 页 面 (确切 地 说 是 它 的 page 数据 结构 ) 挂 入 swapper_space 队列 以 及 active, list 队列 中 ， 这 个 函 
数 的 代码 读者 已 经 看 到 过 了 。 至 于 rw_swap_page( )， 读 者 可 以 在 学 习 了 块 设 备 驱 动 一 章 以 后 回 过 来 阅 
读 。 调 用 read_swap_cache( ) 成 功 以 后 ， 所 要 的 页 面 肯定 已 经 在 swapper_space 队列 以 及 active list 队列 
中 了 ， 并 且 马 上 就 要 恢复 映射 。 

这 里 要 着 重 注意 一 下 对 得 上 页 面 的 共 训 计数。 首先， 一 :开始 时 在 221 行 就 通过 swap_duplicate( ) 递 
增 了 得 上 页 面 的 共享 计数 。 如 果 在 缓冲 队列 中 找到 了 所 需 的 贞 面 而 无 需 从 交换 设备 读 入 ， 则 在 252 fT 
通过 swap. free( ) 抵 消 对 共享 计数 的 递增 。 反 之 ， 如 果 需 要 从 交换 设备 读 入 页 面 , 则 不 调用 swap_free(), 
所 以 盘 上 页 面 的 共享 计数 加 了 1. ATE, LSI do. swap. page( ) 以 后 ,在 1047 行 又 调用 了 一 次 swap_free( ), 
使 盘 上 页 面 的 共享 计数 减 1。 这 么 一 来 ， 情况 就 变 成 了 这 样 : 如 果 从 交换 设备 读 入 页 面 ， 则 盘 上 页 面 的 
共享 计数 保持 不 变 ; 而 如 果 在 缓冲 队列 中 找到 了 所 需 的 页 面 ， 则 共享 计数 减 1。 对 此 ， 读 者 不 妨 回 过 去 
看 -下 try_to_swap_out() 中 的 99 行 。 在 那里 ， 当 断 开 一 个 页 面 的 映射 时 ,通过 swap_duplicate( ) 递 增 了 
盘 上 页 面 的 共享 计数 。 而 现在 恢复 映射 则 使 共享 计数 减 1， -者 是 互相 对 应 的 。 

还 要 注意 对 内 存 页 面 ， 即 其 page 结构 的 使 用 计数 。 首 先 ， 在 分 配 一 个 内 存 贞 面 时 把 这 个 计数 设 成 
1 .然后 ,在 通过 add. to. swap. cache( ) 将 其 链 入 换 入 / 换 出 队列 (或 文件 映射 队列 ?和 LRU BAA] active. list 
时 ,又 在 add. to. page, cache. locked( ) 中 通过 page_cache_get( ) 递 增 了 这 个 计数 ， 所 以 当 有 、 并 且 具 有 一 
个 进程 映射 到 这 个 换 入 / 换 出 页 面 时 ， 其 使 用 计数 为 2。 如果 页 面 来 自 文件 映射 , 则 由 于 同时 叉 与 文件 
读 / 写 绥 冲 区 相 联 系 ， 又 多 -个 “用 户 ” 所 以 使 用 计数 为 3。 但是， 还 有 一 种 特殊 情况 ， 必 就 是 通过 
swapin, readahead( ) 预 读 进 来 的 页 面 。 


[do. page. fault( ) > handle mm, fault( ) > handle pte fault()-» do swap. page( ) > swapin readahead( )] 


990 void swapin readahead (swp entry t entry) 

991 { 

1001 for (i = 0; i < num; offsett+, ic) { 

1009 /* Ok, do the async read-ahead now */ 
1010 new page = read swap cache async( 
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SWP ENTRY(SWP TYPE(entry), offset), 0); 


1011 if (new page !- NULL) 

1012 page cache release(new page); 

1013 swap free(SWP ENTRY (SWP TYPE (entry), offset)); 
1014 } 

1015 return; 

1016 } 


在 swapin readahead( ) 中 ， 循 坏 地 调用 read swap. cache async( ) 分 配 和 读 入 若干 页 面 ， 因 而 在 从 
read swap cache async( ) 返 回 时 ， 每 个 页 面 的 使 用 计数 都 是 2。 但 是 ， 在 循环 中 马上 又 通过 
page cache release( ) 递 减 这 个 计数 ， 因 为 预 读 进来 的 页 面 并 没有 进程 在 使 用 。 于 是 ， 这 些 页 面 就 成 了 
特殊 的 页 面 ， 它 们 在 active list 中 ， 而 使 用 计数 却 是 1]。 以 后 ， 这 些 页 面 或 者 是 被 某 个 进程 “认领 ” 
从 而 使 用 计数 变 成 2;， 或 者 是 在 “ 段 时 间 以 后 仍 无 进程 认领 ， 最 后 被 refill_inactive_scan( ) 移 入 不 活跃 
BA. CR, mm/vmscan.c 的 744 行 )， 郝 才 是 使 用 计数 为 1 的 页 而 应 该 呆 的 地 方 。 

回 到 do swap. page( )AU{RAS'|', 3x B f] flush. page. to. ram( ) 和 flush_icache_page( ) 对 十 1386 Ab 
器 均 为 空 操 作 。 代 码 中 通过 pte mkdirty( ) 将 页 面 表 项 中 的 D 标志 位 置 成 1， 表 示 该 页 面 已 经 “用 ”了 ， 
并 日 通过 pte. mkwrite( ) 将 页 面 表 项 中 的 _PAGE_RW 标志 位 也 置 成 1。 读者 也 许 会 问 : 怎么 可 以 赁 着 当 
前 的 访问 是 次 写 访问 就 拒 页 面 表 项 设置 成 允许 写 ? 万 一 本 来 就 应 该 有 写 保护 的 昵 ? 答案 是 ， 如 果 那 
样 的 话 就 根本 到 达 不 了 这 个 地 方 。 读 者 不 妨 问 过 头 去 看 看 do_page_fault( ) 中 switch 语句 的 case 2. 在 那 
里 ， 如 果 页 面 所 属 的 区 间 不 允许 写 的 话 CVM, WRITE 标志 位 为 0)， 就 转 到 bad area 去 了 。 还 要 注意 ， 
区 间 的 可 写 标 志 VM, WRITE 与 页 面 的 可 写 标志 PAGE. RW 是 不 同 的 ,。 VM. WRITE 是 个 相对 静态 的 标 
志 位 ; M PAGE RW 则 上 网 为 动态 ， 只 表示 当前 这 :个 物理 内 存 页 面 是 否 允 许 写 访问 。 只 有 在 
VM. WRITE 为 1 的 前 提 下 ，_PAGE_RW 才 有 可 能 为 1， 但 却 并 不 一 定 为 1。 所 以 ， 在 1039 行 中 ， 根 
4; vma-»vm page prot 构筑 一 个 页 面 表 项 村 ， 表 项 的 _ PAGE_RW 标志 位 为 0 (注意 VM WRITE 是 
vma-»vm flags 而 不 是 vma->vm_page_prot 中 的 一 位 )。 读 者 还 可 能 会 问 ， 那 样 ，: 来 ， 要 是 当前 的 访问 
恰好 是 读 访问 ， 这 个 页 而 不 就 永远 不 允许 写 了 吗 ? 不 要 紧 ， 发 生 写 访 问 时 会 因 访 问 权 限 不 符 而 引起 另 
一 次 页 面 异 常 。 那 时 ， 就 会 在 handle_pte_fault( ) 中 调用 do_wp_page(), 将 页 面 的 访问 权限 作出 改变 (如 
果 需 要 cows El copy_on_write 的 话 ， 也 是 在 那里 处 理 的 )。 我 们 将 do_wp_page( ) 留 给 读者 ， 一 来 是 因 
为 篇 幅 的 关系 ， 二 来 读者 现在 对 存储 管理 已 经 比较 熟悉 ， 应 该 不 会 有 太 大 的 困难 了 。 

至 于 紧 接 着 的 update mmu cache( )， 对 于 i386 CPU PUES HEE, KOY 1386 的 MMU 是 与 CPU 
让 .成 一 体 的 。 


210 内核 缓冲 区 的 管理 


可 想 而 知 ， 内 核 在 运行 中 常常 会 需要 使 用 一 些 缓冲 区 。 例 如 ， 当 要 建立 一 个 新 的 进程 时 就 要 增加 
个 task struct 结构 ， 而 当 进程 撤销 时 就 要 释放 本 进程 的 task 结构 。 这 些小 块 存 储 空间 的 使 用 并 不 局 
限于 某 一 个 子 程序 ， 和 否则 就 可 以 作为 这 个 子 程序 的 局 部 变量 而 使 用 堆栈 空间 了 。 另 外 ， 这 些小 块 存储 
空间 又 是 动态 变化 的 ， 不 像 用 丁 内 存 页 面 管理 的 page 结构 那样 ， 有 有 多 大 的 内 存 就 有 多 少 个 page 结构 ， 
构成 一 个 静态 的 阵列 。 由 于 事先 根本 无 法 预测 运行 中 各 种 不 同 数据 结构 对 缓冲 区 的 需求 ， 不 适合 为 每 
一 种 可 能 用 到 的 数据 结构 建立 个 “缓冲 池 ”， 因 为 那样 的 话 很 可 能 会 出 现 有 些 缓冲 池 已 经 用 尽 上 身 有 些 
缓冲 池 中 却 有 大 量 缓冲 区 空 亲 的 局 面 。 因 此 ， 只 能 采用 更 其 全 局 性 的 方法 。 
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孝 么 ， 用 什么 样 的 方法 呢 ? 如 果 采 用 像 用 户 守 间 中 的 malloc ) 那 样 的 动态 分 配 浴 法， 从 一 个 统一 
的 存储 空间 “ 堆 ”(heap ) 中 ， 需 要 用 多 少 就 切 下 多 大 一 块 ， 不 用 了 惑 归 还 ， 则 有 几 个 缺点 需要 考虑 改 
进 : 
e 久而久之 ， 会 使 存储 截 “ 碎 片 化 ”， 以 至 虽然 存储 堆 中 空闲 空间 的 总 量 是 够 大 、 却 无 法 分 配 所 
需 大 小 的 连续 空间 。 为 此 ， 一 般 都 采用 按 2" 的 大 小 来 分 配 空 间 ， 以 缓解 碎片 化 。 

e 每 次 分 配 得 到 所 需 大 小 的 缓冲 区 以 后 ， 都 要 进行 初始 化 。 内 核 中 频繁 地 使 用 些 数据 结构 ， 这 
些 数据 结构 中 相当 一 部 分 成 分 需要 某 些 特殊 的 初始 化 〈 例 如 队列 头 部 等 ) 而 并 非 简 单 地 清 成 全 
0。 如 果 释 放 的 数据 结构 可 以 在 下 次 分 配 时 “重用 ”而 无 天 初始 化 ， 那 就 可 以 提高 内 核 的 效率 。 

e 缓冲 区 的 组 织 和 管理 是 密切 相关 的 。 在 有 岛 速 缓存 的 情况 下 ， 这 些 缓冲 区 的 组 织 利 管理 方式 直 
接 影响 到 高 速 缓存 中 的 命中 率 , 进而 影响 到 运行 时 的 效率 。 试 想 , 假定 我 们 运用 最 先 符合 (first 
fit) 的 方法 ， 从 ”个 由 存储 空间 片段 构成 的 队列 中 分 配 缓 部 区 。 在 这 样 的 过 程 中 ， 当 一 个 片段 
不 能 满足 要 求 而 顺 着 指针 往 下 看 下 一 个 片段 的 数据 结构 时 ， 如 果 该 数据 结构 每 次 都 在 不 同 的 页 
面 中 ， 因 而 每 次 都 不 能 命中 ， 而 要 从 内 存 装 入 钊 高 速 缓存 ， 那 么 可 想 而 知 ， 其 效率 显然 就 要 打 
折扣 了 。 

@ 不 适合 多 处 理 器 共用 内 存 的 情况 。 

实际 上 , 如 何 有 效 地 管理 缓冲 区 空间 , 很 久 以 来 就 是 一 个 热门 的 研究 课题 。 90 年 代 前 期 , 在 solaris 
2.4 操作 系统 Unix 的 一 个 变种 ) 中 ， 采 用 了 一 种 称 为 “slab” 的 缓冲 区 分 配 和 管理 方法 〈slab 的 原意 
是 大 块 的 混凝土 )， 在 相当 程度 上 克服 了 上 述 的 缺点 。 而 Linux， 也 在 其 内 核 中 采用 了 这 种 方法 ， 并 作 
了 改进 。 

从 存储 器 分 配 的 角度 讲 ，slab 与 为 各 种 数据 结构 分 别 建立 缓冲 池 相 似 ， 也 与 以 订 我 们 看 到 过 的 按 
大 小 划分 管理 区 (zone) 的 方法 相似 ， 但 是 也 有 重要 的 不 同 。 

在 slab 方法 中 ， 每 种 重要 的 数据 结构 都 有 自己 专用 的 缓冲 区 队列 ， 每 种 数据 结构 者 有 相应 的 “ 构 
造 ”(constructor) 和 “拆除 ”(destmctor) ARM. FI, WHAM ETRE RTE Ai, AR 
称 “ 结 构 ” 而 称 为 “对 象 ”(object)。 缓 冲 区 队列 中 的 各 个 对 象 在 建立 时 用 其 “构造 ”函数 进行 初始 化 ， 
所 以 一 经 分 配 立 即 就 能 使 用 ， 而 在 释放 时 则 恢复 成 原状 。 例 如 ， 对 于 其 中 的 队列 头 成 分 来 说 〈 读 者 可 
BE page 数据 结构 的 定义 ， 结 构 中 有 两 个 struct list head 成 分 )， 当 将 其 从 队列 中 摘除 时 自然 就 恢复 成 
了 原状 。 每 个 队列 中 “对 象 ” 的 个 数 是 动态 变化 的 ， 不 够 时 可 以 增添 。 同 时 ， 又 定期 地 检查 ， 将 有 品 
余 的 队列 加 以 精简 ,我 们 在 kswapd 的 do_try_to_free_pages( ) 中 曾经 看 到 , 调用 函数 Kmem_cache_reap( ), 
为 的 就 是 从 富余 的 队列 回收 物理 页 面 ， 只 是 当时 我 们 没有 细 讲 。 其 实 ， 定 期 地 检查 和 处 理 这 些 缓冲 区 
队列 ， 也 是 kswapd 的 一 项 功能 。 

此 外 ，slab 管理 方法 还 有 -个 特点 ， 每 种 对 象 的 缓冲 区 队列 并 非 山 各 个 对 象 直接 构成 ， 测 是 由 一 
ERR KR” (lab) 构成 ， 而 每 个 人 块 中 则 包含 了 车 十 同 种 的 对 象 。 般 而 言 ， 对 象 分 两 种 ， 一 种 
是 大 对 每 ， 一 种 是 小 对 象 。 所 谓 小 对 象 ， 是 指 在 一 个 页 面 中 可 以 容纳 下 好 几 个 对 象 的 混 一 种 。 例 如 ， 
一 个 inode 的 大 小 约 300 多 个 字 节 ， 央 此 一 个 页 面 中 可 以 容纳 8 个 以 上 的 inode, ME inode 是 小 对 象 。 
内 核 中 使 用 的 大 多 数 数据 结构 都 是 这 样 的 小 对 象 ， 所 以 ， 我 们 先 来 看 对 小 对 象 的 组 织 和 管理 以 及 相应 
的 slab 结构 。 先 看 用 于 某 种 假想 小 对 象 的 一 个 slab 快 的 结构 示意 图 (图 2.8): 
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图 2.8 小 对 象 slab 结构 示 章 图 


此 处 先 对 上 列 示意 图 作 几 点 说 明 ， 详 细 情 况 则 随 着 代码 的 阅读 再 逐步 深入 : 


个 slab 可 能 由 1 个、 2 个、4 个 、… 最 多 32 个 连续 的 物理 页 面 构成 。slab 的 具体 大 小 因 对 
象 的 大 小 而 异 ， 初 始 化 时 通过 计算 得 山 最 合适 的 大 小 。 

在 每 个 slab 的 前 端 是 该 slab 的 描述 结构 slab_t。 用 于 同 - 种 对 象 的 多 个 slab 通过 描述 结构 中 的 
队列 头 形成 一 条 双向 链 队列 。 得 个 slab 双向 链 队列 在 逻辑 上 分 成 三 截 , 第 一 截 是 各 个 slab 上 所 
有 的 对 象 者 已 分 配 使 用 的 ; 第 BULA slab 上 的 对 象 已 经 部 分 地 分 配 使 用 : 最 后 一 截 是 各 个 
slab 上 的 全 部 对 象 都 处 于 空闲 状态 。 

每 个 slab LBA 个 对 象 区 ， 这 是 个 对 象 数据 结构 的 数组 ， 以 对 象 的 序号 为 下 标 就 可 得 到 有 具体 
对 象 的 起 始 地 址 。 


e 每 个 slab 上 还 有 个 对 象 链接 数组 ， 用 来 实现 -个 空间 对 象 链 。 
e 同时 ,每 个 slab 的 描述 结构 中 者 有 一 个 字段 ， 表 明 该 slab 上 的 第 “个 空闲 对 象 。 这 个 字段 与 对 


象 链接 数组 结合 在 -起 形 成 了 -条 空闲 对 象 链 。 

在 slab 描述 结构 中 还 有 一 个 已 经 分 了 配 使 用 的 对 象 的 计数 器 ， 当 将 一 个 空闲 的 对 象 分 配 使 用 时 ， 
就 将 slab 控制 结构 中 的 计数 器 加 1， 并 将 该 对 象 从 空闲 队列 中 脱 链 。 

当 释 放 一 个 对 象 时 ， 只 需要 调整 链接 数组 中 的 相应 元 素 以 及 slab 描述 结构 中 的 计数 器 ， 并 且 根 
据 该 slab 的 使 用 情况 而 调整 其 在 slab 队列 中 的 位 置 ( 例 如 ， 如 果 slab 上 所 有 的 对 象 都 已 分 配 
使 用 ， 就 要 将 该 slab MA BBB RA). 

每 个 slab 的 头 部 有 一 小 小 的 区 域 是 不 使 用 的 ， 称 为 “着 色 区 ”(coloring area)。 着 色 区 的 大 小 使 
slab 中 的 每 个 对 象 的 起 始 地 址 都 按 高 速 缓存 中 的 “缓冲 行 ”(cache line) K- (80386 的 “级 高 
速 缓存 中 缓存 行 大 小 为 16 SF, Pentium 为 32 ATE) 对齐 。 每 个 slab 都 是 从 … 个 页 面 边 
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界 开始 的 ， 所 以 本 来 就 自然 按 高 速 缓存 的 缓冲 行 对 者 ， 和 而 着 色 区 的 设置 只 是 将 第 一 个 对 象 的 起 
始 地 址 往 后 推 到 另 … 个 与 缓冲 行 对 齐 的 边界 ,同一 个 对 象 的 缓冲 队 州 中 的 各 个 slab 的 着 色 区 的 
大 小 尽 可 能 地 安排 成 不 同 的 大 小 , 使 得 不 同 slab 上 同一 相对 位 置 的 对 象 的 起 始 地 址 在 高 速 缓 企 
中 互相 错开 ， 这 样 可 以 改善 高 速 绥 存 的 效率 。 


@ 每 个 slab 上 最 后 一 个 对 象 以 后 也 有 一 个 小 小 的 废料 区 是 不 用 的 ， 这 是 对 着 色 区 大 小 的 补偿 ， 其 


大 小 取决 寺 着 色 区 的 大 小 以 及 slab 与 其 每 个 对 象 的 相对 大 小 ,但 该 区 域 与 着 色 区 的 总 和 对 十 同 
一 种 对 象 的 各 个 slab 是 个 常数 。 


€ 每 个 对 象 的 大 小 基本 上 是 所 需 数据 结构 的 大 小 。 只 有 当 数 据 结构 的 大 小 不 与 高 速 缓存 中 的 组 神 


行 对 齐 时 ， 才 增加 车 十 字 节 使 其 对 齐 。 所以， 个 slab 上 的 所 有 对 象 的 起 始 地 址 都 必然 是 按 高 
速 缓存 中 的 缓冲 行 对 齐 的 。 


下 面 就 是 slab 描述 结构 slab_t 的 定义 ， 在 mnyslab.c 中 : 


f* 
slab t 


* 

* 

* Manages the objs in a slab. Placed either at the beginning of mem allocated 
* for a slab, or allocated from an general cache. 

* Slabs are chained into one ordered list: fully used, partial, then fully 

* 


free slabs. 

*/ 

typedef struct slab s { 
struct list_head list; 
unsigned long colouroff; 
void *s mem; /* including colour offset */ 
unsigned int inuse; /* num of objs active in slab */ 
kmem bufcti t free; 

} slab t; 


这 里 的 队列 头 list 用 来 将 一 块 slab 链 入 一 个 专用 缓冲 区 队列 ，colouroff AA slab 上 着 色 区 的 大 小 ， 
指针 s mem 指向 对 象 区 的 起 点 ，inuse 是 已 分 配对 象 的 计数 占 。 最 后 ，free 的 值 指明 了 空闲 对 象 链 中 的 
第 一 个 对 象 ， 其 实 是 个 整数 : 


kmem bufctl t: 


Bufctl's are used for linking objs within a slab 
linked offsets. 


slab an object belongs to. 

This allows the bufctl structure to be small (one int), but limits 
the number of objects a slab (not a cache) can contain when off-slab 
bufctls are used. The limit is the size of the largest general cache 


* 
* 
* 
* 
* 
* This implementaion relies on "struct page” for locating the cache & 
x 
* 
* 
* 
* that does not use off-slab slabs. 
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122 * For 32bit archs with 4 kB pages, is this 56. 


123 * This is not serious, as it is only for large objects, when it is unwise 
124 * to have too many per slab. 

125 * Note: This limit can be raised by introducing a general cache whose size 
126 * is less than 512 (PAGE_SIZE<<3), but greater than 256. 

127 */ 

128 


129 #define BUFCTL END OxffffFFFF 
130 8define SLAB LTMIT OxffffFFFE 
131 typedef unsigned int kmem bufctl t; 


在 空闲 对 象 链接 数组 中 ， 链 内 每 “` 个 对 象 所 对 应 元 素 的 值 为 上 一 个 对 象 的 序号 ， 最 后 . -个 对 象 所 
对 应 元 素 的 值 为 BUFCTL_END。 

为 每 种 对 象 建立 的 slab 队列 都 有 个 队 头 ， 其 控制 结构 为 kmem_cache_t。 该 数据 结构 中 除 用 来 维持 
slab 队 齐 的 各 种 指针 外 ， 还 记录 了 适用 于 队列 中 每 个 slab 的 各 种 参数 ， 以 及 两 个 函数 指针 : .个 是 对 
象 的 构筑 函数 (constructor)， 男 一 个 是 拆除 函数 (dectructo)。 有 趣 的 是 ， 像 其 他 数据 结构 一 样 ， 每 种 
WR slab 队 头 也 是 在 slab 上 。 系 统 中 有 个 总 的 slab 队列 ， 其 对 象 是 各 个 其 他 对 象 的 slab 队 头 ， 其 队 
头 则 也 是 一 个 kmem_cache_t 结构 ， 称 为 cache_cache. 

这 样 ， 就 形成 了 一 种 层次 式 的 树 形 结构 : 

€ jS cache cache 是 一 个 kmem cache t 结构 ,用 来 维持 第 一 层 slab BAF, 1628 slab 上 的 对 象 都 

是 kmem cache t 数据 结构 。 

€ 每 个 第 一 层 slab 上 的 每 个 对 象 , HU kmem_cache_t 数据 结构 都 是 队 头 , 用 来 维持 一 个 第 二 层 slab 

队列 。 

€ 第 二 层 slab 队列 基本 上 都 是 为 某 种 对 象 ， 即 数据 结构 专用 的 。 

€ 每 个 第 二 层 slab. 上 都 维持 着 一 个 室 闲 对 象 队列 。 

总 体 的 组 织 如 下 页 图 2.9 所 示 。 

从 图 2.9 中 可 以 看 出 ， 最 高 的 层次 是 slab 队列 cache_cache， 队 列 中 的 每 个 slab 载 有 若干 个 
kmem cache t 数据 结构 。 而 每 个 这 样 的 数据 结构 又 是 某 种 数据 结构 《例如 inode、vm_area_struct、 
mm struct, EF IP. 网 络 信息 包 等 等 ) 缓冲 区 的 slab 队列 的 头 部 。 这 样 ， 当 要 分 配 一 个 某 种 数据 结 
构 的 缓冲 区 时 ， 就 只 站 指明 起 从 哪 一 个 队列 中 分 配 ， 而 不 需要 说 明 绥 冲 区 的 大 小 ， 并 且 不 需要 初始 化 
了 。 县 体 的 函数 是 : 


void *kmem cache alloc(kmem cache t x*cachep, int flags); 


void kmem cache free(kmem cache 1 ¥*cachep, void *objp); 
所 以 ， 当 需要 分 配 一 个 具有 专用 slab 队列 的 数据 结构 时 ， 应 该 通过 kmem, cache, alloc( ) 分 配 。 例 


如 ， 我 们 在 本 章 中 看 到 过 的 mm struct 、vm_area_struct、file、dentry、inode 等 常用 的 数据 结构 ， 就 都 
有 专用 的 slab 队列 ， 而 应 通过 kmem, cache. alloc( ) 分 配 。 
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图 2.9 小 对 象 缓冲 区 结构 示意 图 


当 数 据 结构 比较 大 ， 因 而 不 属于 “小 对 篆 ” 时 ，slab 的 结构 略 有 不 同 。 不 同 之 处 是 不 将 slab 的 控 
制 结构 放 在 它 所 代表 的 slab 上 ， 而 是 将 其 游离 出 米 ， 集 中 放任 另 外 的 slab le APE slab 的 控制 结构 
kmem slab t 中 有 一 个 指针 指向 相应 slab 上 的 第 一 个 对 象 ， 所 以 逻辑 上 是 一 样 的 。 其实， 这 就 是 将 控制 
结构 与 控制 对 象 相 分 离 的 一 般 模 式 。 打 个 比方 ， 载 有 “小 对 象 ”的 slab 就 好 像 是 随身 携带 着 的 户口 本 ， 
而 载 有 “大 对 象 ” 的 slab 就 好 像 是 将 户口 本 集中 存放 在 派出 所 里 或 者 是 某 个 代理 机 构 里 。 此 外 ， 当 对 
象 的 大 小 恰好 是 物理 页 面 的 12、1/4 ux 1/8 时 ， 将 依附 才 每 个 对 象 的 链接 指针 紧 欣 着 放 企 一 起 会 造成 
slab 空间 上 的 重大 浪费 ， 所 以 在 这 些 特殊 情况 下 ， 将 链接 指针 也 从 slab 上 游离 出 来 集中 存放 ， 以 提高 
slab 的 空间 使 用 率 。 

不 过 ， 并 非 内 核 中 使 用 的 所 有 数据 结构 都 有 必要 拥有 专用 的 缓冲 区 队列 ，- ` 些 不 太 党 用、 初始 化 
开销 也 不 大 的 数据 结构 还 是 可 以 合用 一 个 通用 的 缓冲 区 分 配 机 制 .所 以 ，Linux 内 核 中 还 有 一 种 既 类 似 
于 物理 页 面 分 配 中 采用 的 按 大 小 分 区 ， 又 采用 slab 方式 管理 的 通用 缓冲 池 ， 称 为 “slab_cache”。 
slab. cache 的 结构 与 cache cache 大 同 小 异 ， 只 不 过 其 顶层 不 是 一 个 队列 而 是 一 个 结构 数组 〈 这 是 由 于 
slab. cache 相对 来 说 比较 静态 )， 数 组 中 的 等 个 元 素 指向 一 个 不 同 的 slab 队列 。 这 些 slab 队 询 的 不 同 
之 处 仅 在 十 所 载 对 象 的 大 小 。 最 小 的 是 32， 然 后 依次 为 64、128、… 直至 128K《〈 也 就 是 32 个 页 面 )。 
从 通用 缓冲 池 中 分 配 和 释放 缓冲 区 的 函数 为 : 


void *kmalloc(size_t size, int flags) ; 


void kfree(const void *objp ) ; 


所 以 ， 当 需要 分 配 一 个 不 具有 专用 slab BA FUIS cs S Fg m CA 2 ZEAE TS IN, Beil 
过 kmalloc( ) 分 配 。 这 一 般 者 是 些 细小 而 又 不 常用 的 数据 结构 ， 例 如 第 5 章 中 安装 文件 系统 时 使 用 的 
vfsmount 数据 结构 就 是 这 样 。 如 果 数 据 结构 的 大 小 接近 于 一 个 贡 面 , 则 也 可 以 干 此 就 通过 alloc pages) 
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为 之 分 配 一 个 页 面 。 
顺便 提 一 下 ， 内 核 中 还 有 一 组 与 内 存 分 配 有 关 的 函数 vmalloc( ) 利 vfree( ): 


void* vmalloc {unsigned long size): 


void vfree(void* addr); 


函数 vmalloc( ) 从 内 核 的 虚 存 空间 (3GB LA EO. 分 配 一 块 虚 存 以 及 相应 的 物理 内 存 ， 类 似 十 系统 调 
用 brk( )。 不 过 brk( ) 是 由 进程 在 用 户 空间 司 动 并 从 放 户 空间 中 分 配 的 ， 而 vmalloc( ) 则 是 在 系统 空间 ， 
也 就 是 内 核 中 启动 ， 从 内 核 空间 中 分 配 的 。 由 vmalloc( ) 分 配 的 空间 不 会 被 kswapd Hoh, RA kswapd 
内 扫描 各 个 进程 的 用 户 空间 , 而 根本 就 看 不 到 通过 vmalloc( ) 分 瑟 的 页 面 表 项 。 至 十 通过 kmalloc( ) 分 配 
的 数据 结构 ， 则 kswapd 只 是 从 各 个 slab 队 鹿 中 寻找 和 收集 空闲 不 用 的 slab, JRE RCRA Moc, 1 
是 不 会 将 尚 在 使 用 中 的 slab 所 占据 的 页 面 换 出 。 由 于 vmalloc( ) 与 我 们 后 面 要 讲 的 ioremap( ) IE EEMEL, 
这 里 就 不 讲 了 。 

在 讲解 内 核 缓冲 区 的 分 配 之 前 ， 我 们 先 介绍 缓冲 区 队列 的 建立 。 


240.4. 专用 缓冲 区 队列 的 建立 


本 来 ， 虚 在 区 间 结 构 vm. area, struct 的 专用 缓冲 区 队 记 是 一 个 很 好 的 实例 , 读者 部 山 经 熟悉 了 这 个 
数据 结构 的 使 用 。 但 是 ， 到 现在 为 止 ，Linux 内 核 中 多 数 专用 缓冲 区 的 建立 都 用 NULL EXTA eg 
(constructor) 的 指针 ， 也 就 是 说 并 没有 充分 利用 slab 管理 机 制 所 提供 的 好 处 《相对 来 说 ，slab 是 比较 
新 的 技术 )， 似 乎 不 够 典型 。 所以， 我 们 从 内 核 的 网 络 驱 动 子 系统 中 选择 了 一 个 例 了 ， 这 是 在 
net/core/skbuff.c 中 定义 的 : 


473 void _ init skb init(void) 


474 d 

415 int i; 

476 

477 skbuff head cache = kmem cache create("skbuff head cache”, 
418 sizeof(struct sk buff), 
419 0, 

480 SLAR HWCACHE ALIGN, 

481 skb_headerinit, NULL); 

482 if (!skbuff head cache) 

483 panic( "cannot create skbuff cache”); 

484 

485 for (i-0; i<NR CPUS; i++) 

486 skb queue head init(&skb head pool li]. list); 
487 ] 


从 代码 中 可 以 看 到 , skb_init( ) 押 做 的 事情 实际 上 就 是 为 网 络 驱动 子 系统 建立 -- 个 sk, buff 数据 结构 

的 专用 缓冲 区 队列 ， 其 名 称 为 “skbuft_head_cache”。 读 者 可 用 命令 “catyproc/slabinfo” 来 观察 这 些 队 

列 的 使 用 情况 。 怎 个 缓冲 区 ， 或 者 说 “对 象 ”的 大 小 是 sizeof(struct sk buff). AMEX offset 为 0， 表 

示 对 第 一 个 缓冲 区 在 slab 中 的 位 移 并 无 特殊 紫 求 。 但 站 参数 flags 为 SLABLHWCACHE_ ALIGN, 表示 

要 求 与 高 速 缓 存 中 的 缓冲 行 边 界 〈16 字 节 或 32 字 节 ) 对 齐 。 对 象 的 构造 函数 为 skb_headerinit( ), mi 
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destructor 则 为 NULL， 也 就 是 说 在 拆除 或 释放 一 个 slab 时 无 需 对 各 个 缓冲 区 进行 特殊 的 处 理 。 


函数 kmem_cache_create( ) 所 做 的 事情 过 于 专门 ， 过 于 冷 亿 ， 这 里 就 不 深入 到 其 代码 中 去 了 ， 只 是 


把 它 的 内 容 概要 介绍 如 下 。 


首先 , 要 从 cache. cache 中 分 配 一 个 kmem_cache_t 结构 ,作为 sk. buff 数据 结构 slab 队列 的 控制 结 


构 。 数 据 结构 类 型 kmem cache. t 是 在 mnyslab.c 中 定义 的 : 


181 
182 
183 
184 
185 
186 
187 
188 
189 
190 
191 
192 
193 
194 
195 
196 
197 
198 
199 
200 
201 
202 
203 
204 
205 
206 
207 
208 
209 
210 
211 
212 
213 
214 
215 
216 
217 
218 
219 
220 
221 


struct kmem_cache_s { 
/* 1) each alloc & free */ 


/* full, partial first, then free */ 
struct list_head slabs; 
struct list_head *firstnotfull; 


unsigned int objsize; 
unsigned int flags; /* constant flags */ 
unsigned int num; /* # of objs per slab */ 
spinlock t spinlock; 

#ifdef CONFIG SMP 
unsigned int batchcount ; 


#endif 


/* 2) slab additions /removals */ 


/* order of pgs per slab (2°n) */ 
unsigned int gfporder; 


/* force GFP flags, e.g. GFP DMA */ 


unsigned int gfpflags; 

size t colour; /* cache colouring range */ 
unsigned int colour off; /* colour offset */ 
unsigned int colour next; /* cache colouring */ 
kmem cache t *slabp cache; 

unsigned int growing; 

unsigned int dflags; /* dynamic flags */ 


/* constructor func */ 
void (*ctor) (void *, kmem cache t *, unsigned long); 


/* de-constructor func */ 
void (#dtor) (void *, kmem cache t *, unsigned long): 


unsigned long failures; 


/* 3) cache creation/removal */ 


char name [CACHE NAMELEN] ; 
struct list head next; 


#ifdef CONFIG SMP 
/* 4) per-cpu data */ 


cpucache t *cpudata[NR CPUS]; 
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222 Hendif 

223 #if STATS 

224 unsigned long num active; 
225 unsigned long num allocations; 
226 unsigned long high mark; 
227 unsigned long grown; 

228 unsigned long reaped; 

229 unsigned long errors; 

230 #ifdef CONFIG SMP 

231 atomic t allochit; 

232 atomic t l allocmiss; 

233 atomic t freehit; 

234 atomic t freemiss; 

235 Hendif 

236 #endif 

237 }; 


f£ kmem cache s 的 基础 上 ， 在 include/linux/slab.h 中 又 定义 了 kmem, cache. t: 


12 typedef struct kmem cache s kmem cache t; 


结构 中 的 队列 头 slabs 用 来 维持 一 个 slab 队列 ， 指 针 firstnotfull 则 指向 队列 中 第 一 个 含有 空闲 对 象 
( 即 缓冲 区 ) 的 slab, (RACE le BASU PAIS 2 段 。 当 这 个 指针 指向 队列 头 slabs 时 就 表明 队列 中 不 存在 
含有 空闲 对 象 slab。 

结构 中 还 有 个 队列 头 next， 则 是 用 来 在 cache_cache 中 建立 一 个 “专用 缓冲 区 slab 队列 的 队列 "， 也 
就 是 slab 队列 控制 结构 的 队列 。 当 slab 的 描述 结构 与 对 象 不 在 同 .…… slab 上 时 ， 即 对 于 大 对 象 sab， 指 
针 slabp_cache 指向 对 方 队列 的 控制 结构 。 

除 这 些 队列 头 和 指针 以 外 ,还 有 一 些 重 要 的 成 分 : objsize 是 原始 的 数据 结构 (对 象 ) 的 大 小 ， 在 这 个 
情景 中 就 是 sizeof(struct sk buff); num 表示 每 个 slab 上 有 几 个 缓冲 |x ; gfporder 则 表示 每 个 slab 的 大 小 。 
每 个 slab 都 是 由 2 个 页 和 面 构成 的 ， 而 gfporder 就 是 n。 

前 面 讲 过 ， 在 每 个 slab 的 前 部 保留 了 一 小 块 区 域 空 着 不 用 ， 那 就 是 “着 色 区 ”(coloring area), X 
作用 是 使 同一 slab 队列 中 不 同 slab 上 对 象 区 的 起 始 地 址 互相 错开 ， 这 样 有 利于 改善 高 速 缓冲 的 效率 。 
所 以 ， 如 果 当 前 slab 的 颜色 为 1， 则 下 “个 slab 的 颜色 将 是 2， 使 下 一 个 slab 中 的 第 - :个 缓冲 区 更 往 
后 推 一 些 。 但 是 ， 不 同 “ 颜 色 ” 的 数量 症 有 限 的 ， 它 取决 于 --- 块 slab 分 割 成 若干 缓冲 区 OTH) 以 及 
所 需 的 其 他 空间 以 后 的 剩余 ， 以 及 高 速 缓存 中 每 个 缓冲 行 〈cache line) 的 大 小 。 所 以 ， 对 每 个 slab BA 
列 都 要 计算 出 它 的 颜色 数量 ， 这 个 数量 就 保存 在 colour 中 ， 而 下 一 个 slab 将 要 使 用 的 颜色 则 保存 在 
colour. next 路 。 当 colour next 达到 最 大 俏 colour 时 ， 就 又 从 0 开始， 如 此 周而复始 。 着 色 区 的 大 小 可 
以 根据 Ccolour offXcolour) 算得 。 

分 配 了 一 个 kmem_cache_t 结 构 以 后 ,kmem_cache_create( ) 就 进行 一 系列 的 计算 , 以 确定 最 佳 的 slab 
构成 ,包括 : 每 个 slab 由 几 个 负面 组 成 , 划分 成 多 少 个 缓冲 区 ( 即 “ 对 象 ”); slab 的 控制 结构 kmem_slab_t 
应 该 在 slab 外 面 集 中 存放 还 是 就 放 在 位 个 slab 的 尾部 ;每 个 缓冲 区 的 链接 指针 应 该 在 slab 外 面 集中 存 
放 还 在 slab 上 与 相应 的 组 名 |X 紧 挨 着 放 在 起， 还 有 “颜色 ”的 数 星 等 等 。 并 根据 调用 参数 和 计算 的 
结果 设置 队列 尖 kmem cache t 结构 中 的 各 个 人 参数， 包括 贞 个 函数 指针 ctor 和 dtor。 
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最 后 ， 将 队 头 kmem_cache_t 结构 链 入 cache_cache 的 next AIIP QER, TÆER slab 队列 中 )。 

函数 kmem_cache_create( ) 只 是 建立 了 所 需 的 专用 缓冲 区 队列 的 基础 设施 ， 所 形成 的 slab 队列 是 个 
室 队 列 。 而 具体 slab 的 创建 则 要 等 需要 分 配 缓冲 区 时 ， 却 发 现 队 列 中 并 无 空闲 的 缓冲 区 可 供 分 起 时 ， 
髓 通过 kmem_cache_grow( ) 来 进行 。 


2.10.2 ”缓冲 区 的 分 配 与 释放 


在 建立 了 一 种 缓冲 区 的 专用 队列 以 后 ， 就 可 以 通过 kmem cache alloc( RAAR T o EH 
建立 的 skbuff head cache 队列 来 说 ， 文 件 neucore/skbuff.c 中 是 这 样 进行 分 配 的 : 


165 struct sk buff *alloc_skb (unsigned int size, int gfp mask) 


166 { 

181 skb = skb head from pool ( ); 

182 if (skb == NULL) { 

183 skb = kmem cache alloc(skbuff head cache, gfp mask): 
184 if (skb == NULL) 

185 goto nohead; 

186 } 

215 } 


函数 alloc_skb( ) 是 具体 设备 驱动 程序 对 kmem_cache_alloc( ) 的 包装 ， 在 此 基础 上 建立 起 自己 的 缓 
冲 区 管理 机 制 ， 包 括 一 个 sk buff 数据 结构 的 缓冲 池 ， 以 加 快 分 配 数据 结构 的 速度 ， 并 防止 内 具 体 驱 动 
程序 分 配 / 释放 缓冲 区 不 当 放 引起 问题 。 这 样 ， 就 把 具体 的 设备 豫 动 程序 与 kmem_cache_alloc( )2) 98 
FE ds 

要 分 配 一 个 sk buff 数据 结构 ， 先 通过 skb_head_from_pool( ) 试 试 缓冲 池 。 如果 在 缓冲 池 中 得 不 到 ， 
那 就 要 进一步 通过 kmem_cache_alloc( ) 分 配 ， 这 就 是 我 们 所 关心 的 。 共 代码 在 mnyslab.c 中 : 


[alloc_skb( ) > kmem_cache_alloc( )] 


1506 void * kmem cache alloc (kmem cache t *cachep, int flags) 


1507 { 
1508 return | kmem cache alloc(cachep, flags); 
1509 } 


[alloc_skb( ) > kmem cache, alloc( ) ».  kmem cache alloc( )] 


1291 static inline void * . kmem cache alloc (kmem cache t *cachep, int flags) 
1292 { 

1293 unsigned long save flags; 

1294 void* objp; 

1295 

1296 kmem cache alloc head(cachep, flags); 


1297 try again: 
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1298 local irq save(save flags); 
1299 #ifdef CONFIG SMP 


1319 #else 


1320 objp = kmem_cache_alloc_one (cachep) ; 
1321 Hendif 

1322 local irq restore(save flags); 

1323 return objp; 


1324 alloc new slab: 
1325 #ifdef CONF1G_SMP 


1328 Hendif 


1329 local irq restore(save flags); 

1330 if (kmem cache grow(cachep, flags)) 

1331 /* Someone may have stolen our objs. Doesn't matter, we'll 
1332 * just come back here again. 

1333 */ 

1334 goto try again; 

1335 return NULL; 

1336 } 


Ti^. alloc skb( ) 中 的 指针 skbuff head cache 是 个 全 局 量 ， 指 向 相应 的 slab 队列 《这 里 是 sk. buff 
结构 的 slab 队列 ) 的 队 头 ， 因 而 这 里 的 参数 cachep 也 指向 这 个 队列 。 

程序 中 的 kmem_cache_alloc_head( ) 是 为 调试 而 设 的 ， 在 实际 运行 的 系统 中 是 空 函数 。 我 们 在 这 时 
也 不 关心 多 处 理 器 SMP 结构 , 所 以 这 里 关键 性 的 操作 就 是 kmem_cache_alloc_one( ), 这 是 一 个 宏 操作 ， 
其 定义 为 : 


1246 /* 

1247 * Returns a ptr to an obj in the given cache. 

1248 * caller must guarantee synchronization 

1249 * define for the goto optimization 8) 

1250 */ 

1251 define kmem cache alloc one (cachep) \ 
1252 ({ \ 

1253 slab t *slabp; \ 

1254 \ 

1255 /* Get slab alloc is to come from. */ \ 
1256 { \ 

1257 struct list head* p = cachep->firstnotfull; V 
1258 if (p == &cachep-^slabs) \ 

1259 goto alioc new slab; N 

1260 slabp = list entry(p,slab t, list); \ 

1261 } \ 

1262 kmem cache alloc one tail(cachep, slabp); \ 
1263 }) 


上 面 _kmem_cache_alloc() 的 代码 一 定 要 和 这 个 宏 定 义 结 合 起 来 看 才能 明月 。 从 定义 中 可 以 看 到 ， 
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第 一 步 是 通过 slab 队列 头 中 的 指针 firstnotfull， 找 到 该 队列 中 第 一 个 含有 空 亲 对 象 的 slab。 如 果 这 个 指 
针 指 向 slab 队列 的 链 头 (不 是 链 中 的 第 一 个 slab)， 那 就 表示 队列 中 已 经 没有 含有 空 闪 对 每 的 slab， 所 以 
WEEE kmem_cache_alloc( ) 中 的 标号 alloc_new_slab 处 (1324 行 )， 进 一 步 扩充 该 slab 队列 。 

如 果 找 到 了 含有 空闲 对 象 的 slab,， 就 调用 kmem cache alloc one tail( ) 分 配 -个 空闲 对 象 并 返回 其 
指针 : 


{alloc_skb( ) > kmem, cache alloc( ) > kmem_cache_alloc( ) > kmem cache. alloc one tail( )] 


1211 static inline void * kmem cache alloc one tail (kmem cache t *cachep, 


1212 slab t *slabp) 

1213 { 

1214 void *ob jp; 

1215 

1216 STATS_INC_ALLOCED (cachep) ; 

1217 STATS INC ACTIVE (cachep) ; 

1218 STATS. SET HICH(cachep) ; 

1219 

1220 /* get obj pointer */ 

1221 slabp->inuset+t; 

1222 objp = slabp-^s mem + slabp-^free*cachep-»objsize; 
1223 slabp—free=slab_bufct] (slabp) [slabp->free] ; 

1224 

1225 if (slabp->free == BUFCTL_END) 

1226 /* slab now full: move to next slab for next alloc */ 
1227 cachep->firstnotfull = slabp->list. next; 


1228 #if DEBUG 


1242 Hendif 
1243 return objp; 
1244 ] 


如 前 所 述 ， 数 据 结 构 slab_t 中 的 free 记录 着 卜 一 次 可 以 分 配 的 空 闪 对 象 的 序号 ， 而 s mem 则 指向 
slab 中 的 对 象 区 ， 所 以 根据 这 些 数据 和 本 专用 队列 的 对 象 大 小 ， 就 叮 以 计算 出 该 空闲 对 象 的 起 始 地 址 。 
然后 ， 就 通过 宏 操 作 slab_bufctl( ) 改 变 字段 free 的 信 ， 使 它 指 明 下 一 个 空闲 对 象 的 序号 。 


154 #define slab bufctl(slabp) \ 
155 ((kmem bufctl t *) (((slab_t*) slabp) +1)) 


这 个 宏 操作 返回 一 个 kmem_bufetLt 数组 的 地 址 ， 这 个 数组 就 在 slab 中 数据 结构 slab. c9 ED, E 
挨 着 数据 结构 slab, c. 该 数组 以 当前 对 和 象 的 序号 为 下 标 , 而 数组 元 素 的 值 则 表明 下 一 :个 空 闪 对象 的 序号 。 
改变 了 slab t 中 free 字段 的 值 ， 就 隐 含 着 当前 对 象 已 被 分 配 。 

如 果 达 到 了 slab 的 末尾 BUFCTL_END， 就 要 调整 该 slab 队 询 的 指针 firstmnotfull， 使 它 指向 队列 中 
的 下 一 个 slab。 

不 过 ， 我 们 假定 slab 队列 中 已 经 不 存在 含有 空闲 对 象 的 slab， 所 以 要 转 到 前 面 代码 中 的 标号 
alloc new. slab 处 ， 通 过 kmem cache grow( ) 来 分 配 一 块 新 的 slab， 使 缓冲 区 的 队列 “生长 ”起 米 。 函 
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数 kmem cache, grow( ) 的 代码 也 在 mm/slab.c F: 


[alloc skb( ) > kmem_cache_alloc( ) >__kmem_cache_alloc( ) > kmem cache grow( )] 


1066 /* 
1067 * Grow (by 1) the number of slabs within a cache. This is called by 
1068 * kmem cache alloc( ) when there are no active objs left in a cache. 
1069 */ 


1070 static int kmem cache grow (kmem cache t * cachep, int flags) 
1071 ( 


1072 slab t *slabp; 

1073 struct page *page; 

1074 void *ob jp; 

1075 size t offset; 

1076 unsigned int i, local flags; 

1077 unsigned long ctor flags; 

1078 unsigned long save flags; 

1079 

1080 /* Be lazy and only check for valid flags here, 

1081 * keeping it out of the critical path in kmem cache alloc( ). 
1082 */ 

1083 if (flags & "(SLAB DMA|SLAB LEVEL MASK|SLAB NO GROW)) 

1084 BUG( ) ; 

1085 if (flags & SLAB NO GROW) 

1086 return 0; 

1087 

1088 /* 

1089 * The test for missing atomic flag is performed here, rather than 
1090 * the more obvious place, simply to reduce the critical path length 
1091 * in kmem cache alloc( ). If a caller is seriously mis-behaving they 
1092 * will eventually be caught here (where it matters). 

1093 */ 

1094 if (in interrupt ( ) && (flags & SLAB LEVEL MASK) != SLAB ATOMIC) 
1095 BUG( ) ; 

1096 

1097 ctor flags = SLAB CTOR CONSTRUCTOR; 

1098 local flags = (flags & SLAB LEVEL MASK); 

1099 if (local flags == SLAB ATOMTC) 

1100 /* 

1101 * Not allowed to sleep. Need to tell a constructor about 
1102 * this - it might need to know... 

1103 */ 

1104 ctor flags |= SLAB CTOR ATOMIC; 

1105 

1106 /* About to mess with non-constant members - lock. */ 

1107 spin lock irqsave(&cachep-^spinlock, save flags); 

1108 

1109 /* Get colour for the slab, and cal the next value. */ 
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1110 
1111 
1112 
1113 
1114 
1115 
1116 
1117 
1118 
1119 
1120 
1121 
1122 
1123 
1124 
1125 
1126 
1127 
1128 
1129 
1130 
1131 
1132 
1133 
1134 
1135 
1136 
1137 
1138 
1139 
1140 
1141 
1142 
1143 
1144 
1145 
1146 
1147 
1148 
1149 
1150 
1151 
1152 
1153 
1154 
1155 
1156 
1157 
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offset = cachep->colour_next; 

cachep-—>colour_nexttt+; 

if (cachep->colour_next >= cachep->colour) 
cachep—>colour_next = 0; 

offset *- cachep->colour_off; 

cachep-»dflags |= DFLGS, GROWN; 


cachep—>growingt+; 
spin_unlock_irqrestore (&cachep->spinlock, save flags); 


/* A serios of memory allocations for a new slab. 

* Neither the cache-chain semaphore, or cache-lock, are 

* held, but the incrementing c growing prevents this 

* cache from being reaped or shrunk. 

* Note: The cache could be selected in for reaping in 

* kmem cache reap( ), but when the final test is made the 
* growing value will be seen. 


/* Get mem for the objs. */ 
if (!(objp = kmem getpages(cachep, flags))) 
goto failed; 


/* Get slab management. */ 
if (!(slabp = kmem cache slabmgmt(cachep, objp, offset, local flags))) 
goto oppsl; 


i = 1 << cachep->gfporder; 

page = virt to page(objp); 

do { 
SET PAGE CACHE(page, cachep); 
SET PAGE SLAB(page, slabp); 
PageSetS lab (page) ; 
paget+ ; 

} while (~-i); 


kmem cache init objs(cachep, slabp, ctor flags); 


spin lock irqsave(&cachep-^spiniock, save flags); 
cachep-^growing--; 


/* Make slab active. */ 

list add tail(&slabp— list, &cachep-^slabs); 

if (cachep-^firstnotfull == &cachep-^slabs) 
cachep->firstnotfull = &slabp list; 

STATS 1NC GROWN(cachep); 

cachep->failures = 0; 
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1158 

1159 spin unlock irqrestore(&cachep-^spinlock, save flags); 
1160 return J; 

1161 oppsl: 

1162 kmem freepages(cachep, objp): 

1163 failed: 

1164 spin lock irqsave(&cachep-^spinlock, save flags); 

1165 cachep-?growing--; 

1166 spin unlock irqrestore(&cachep-^spinlock, save flags); 
1167 return 0; 

1168 } 


函数 kmem_cache_grow( ) 根 据 队列 头 中 的 参数 gfporder 分 配 若 十 连续 的 物理 内 存 页 面 ， 并 将 这 些 
页 面 构造 成 slab， 链 入 给 定 的 slab 队列 。 对 参数 进行 了 一 些 检查 以 后 ， 就 计算 出 下 一 块 slab 应 有 的 着 
色 区 大 小 。 然 后 ， 通 过 kmem_getpages( ) 分 配 用 于 其 体 对 象 缓冲 区 的 页 面 ， 这 个 函数 最 终 调用 
alloc_pages( ) 分 陋 空 用 页 面 。 分 配 了 用 于 对 象 本 身 的 内 存 页 面 后 ， 还 要 通过 kmem cache slabmgmt( ) 
建立 起 slab 的 管理 信息 。 其 代码 在 mnyslab.c 中 : 


[alloc skb( ) > kmem_cache_alloc( ) >__kmem_cache_alloc( ) > kmem cache grow( ) > 
kmem cache slabmgmt( )] 


996 /* Get the memory for a slab management obj. */ 
997 static inline slab t * kmem cache slabmgmt (kmem cache t *cachep, 


998 void *objp, int colour off, int local flags) 
999 { 

1000 slab t *slabp; 

1001 

1002 if (OFF SLAB(cachep)) { 

1003 /* Slab management obj is off-slab. */ 

1004 slabp = kmem cache alloc(cachep— slabp cache, local flags); 
1005 if (!slabp) 

1006 return NULL; 

1007 } else { 

1008 /* FIXME: change to 

1009 slabp = objp 

1010 * if you enable OPTIMIZE 

1011 */ 

1012 slabp = objp*colour off; 

1013 colour off += L1 CACHE ALIGN(cachep-^num * 

1014 sizeof (kmem bufctl t) + sizeof(slab t)); 
1015 } 

1016 slabp-^inuse = 0; 

1017 slabp->colouroff = colour. off; 

1018 slabp-5s mem = objp*colour off; 

1019 

1020 return slabp; 

1021 } 
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如 前 所 述 ， 小 对 象 的 slab 控制 结构 slab t 与 对 象 本 身 共 存 于 同一 slab 上 ， 而 大 对 象 的 控制 结构 则 
游离 于 slab 之 外 。 但 是 ， 大 对 象 的 控制 结构 也 是 slab t， 人 存在 于 为 这 种 数据 结构 专 设 的 slab 上 ， 也 有 
其 专用 的 slab 队列 。 所 以 ， 如 果 是 大 对 象 就 通过 kmem_cache_alloc( ) 分 配 一 个 slab_t， 否 则 就 用 小 对 象 
slab 低 端 的 部 分 空间 用 作 其 控制 结构 ,不 过 在 此 之 前 要 空 出 一 小 块 着 色 区 。 注意 这 里 1012 行 和 1017 
行 所 引用 的 colour. off 不 是 同一 个 数值 ， 这 个 变量 的 值 已 在 1013 行 作 了 调整 ， 在 原来 的 数值 上 增加 了 
对 象 链接 数组 的 人 小 以 及 控制 结构 slab t 的 大 小 。 所以，slabp->s_mem 总 是 指向 slab 上 对 象 区 的 起 点 。 

对 分 配 用 于 slab 的 每 个 页 而 的 pagee 数据 结构 ， 要 通过 宏 操 作 SET PAGE CACHE 和 
SET PAGE SLAB, 设置 其 链接 指针 prev 和 next， 使 它们 分 别 指 向 所 属 的 slab 和 slab 队列 。 同 时 ， 还 
要 把 page 结构 中 的 PG. slab 标志 位 设 成 1， 以 表明 该 页 面 的 用 途 。 

最 后 ， 通 过 kmem_cache_init_objs( ) 进 行 slab 的 初始 化 : 


[alloc_skb( ) > kmem cache alloc( ) > ___ kmem cache alloc( ) > kmem cache, grow( ) > 
kmem cache init objs( )] 


1023 static inline void kmem cache init objs (kmem cache, t * cachep, 


1024 slab t * slabp, unsigned long ctor flags) 
1025 { 

1026 int i: 

1027 

1028 for (i = 0; i € cachep-num; i++) { 

1029 void* objp = slabp->s_memtcachep—>ob jsize*i; 


1030 #if DEBUG 


1037 Hendif 


1038 

1039 fk 

1040 * Constructors are not allowed to allocate memory from 
1041 * the same cache which they are a constructor for 

1042 * Otherwise, deadlock. They must also be threaded 

1043 */ 

1044 if (cachep->ctor) 

1045 cachep-?ctor(objp, cachep, ctor flags); 


1046 Hif DEBUG 


1059 #endif 


1060 slab bufctl(slabp)[i] = i*1; 

1061 } 

1062 slab bufctl(slabp)[i-1] = BUFCTL END; 
1063 slabp-^free = 0; 

1064  ] 


这 里 的 初始 化 包括 了 对 具体 对 象 构造 函数 的 调用 。 对 十 sk buff 数据 结构 ， 这 个 函数 就 是 
skb_headerinit( )。 此 外 ， 代 码 中 的 1060 行 是 对 链接 数组 中 各 个 元 素 的 初始 化 。 

缓冲 区 队列 “成 长 ”了 ”: 些 以 后 ， 就 一 定 有 空闲 缓冲 区 可 供 分 配 了 。 所 以 转 同 标号 try again 处 再 
wim CUL — kmem cache alloc( ) 中 的 1334 行 )。 
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这 样 ， 就 构成 了 一 个 多 层次 的 缓冲 区 分 配 机 制 。 位 于 最 锅 层 的 是 缓冲 区 的 分 配 ， 在 我 们 这 个 情景 
中 就 是 alloc_skb( )， 有 具体 则 是 先 通 过 skb_head_from_pool( )， 从 缓冲 池 ， 即 已 经 分 配 的 slab 块 中 分 配 。 
如 果 失 败 的 话 ， 就 往 下 跑 一 层 从 slab 队列 中 通过 kmem_cache_alloc( ) 分 配 。 要 是 slab 队列 中 已 经 没有 
载 有 空闲 缓冲 区 的 slab， 那 就 再 往 下 跑 一 层 ， 通 过 kmem cache grow( )， 分 配 若干 页 面 而 构筑 出 “个 
slab 块 。 

那么 ， 缓 冲 区 队列 是 否 单调 地 成 长 而 不 缩小 呢 ? 我 们 在 以 前 提 到 过 ，kswapd 定时 地 调用 
kmem_cache_reap( ) 来 “收割 ”” 也 就 是 说 ， 依 次 检查 让 干 专用 缓冲 区 slab MS, eB ASE A 
的 slab 存在 。 有 的 话 就 将 这 些 slab 占用 的 内 存 页 面 释 放 。 


冉 来 看 专用 缓冲 区 的 释放 ， 这 是 由 kmem cache free( ) 完 成 的 。 其 代码 在 mnvslab.c "P: 


1554 void kmem cache free (kmem cache t *cachep, void *objp) 
1555 { 

1556 unsigned long flags; 

1557 #if DEBUG 


we! ES un xe, Sar te 


1561 #endif 


1562 

1563 local_irg_save (flags) ; 

1564 __kmem_cache_free(cachep, objp) ; 
1565 local irq restore(flags); 

1566  ] 


显然 ， 拘 作 的 主体 症 _kmem_cache_free()， 这 里 只 是 在 探 作 期 间 把 中 断 暂 时 关闭 。 


[kmem cache free( ) > __ kmem_cache_free( )] 


1466 /* 

1467 x — kmem cache free 

1468 * called with disabled ints 

1469 */ 

1470 static inline void kmem cache free (kmem cache t *cachep, void* objp) 
1471 { 


1472 #ifdef CONFIG SMP 


1493 #else 


1494 kmem cache free one(cachep, objp) ; 
1495 #endif 
1496 } 


我 们 在 这 里 不 关心 多 处 埋 器 SMP 结构 ， 而 函数 kmem_cache_free_one( ) 的 代码 也 在 同一 文件 中 : 
[kmem cache free( ) > | kmem cache free( ) > kmem_cache_free_one( )] 


1367 static inline void kmem cache free one (kmem cache t *cachep, void *objp) 
13688 { 
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slab t* slabp; 


CHECK PAGE(virt to page(objp)); 
/* reduces memory footprint 
* 
if (OPTIMIZE (cachep)) 
slabp = (void*) ((unsigned long) ob jp&(~ (PAGE SIZE-1))) ; 
else 
*/ 
slabp = GET PAGE SLAB(virt to page(objp)); 


#if DEBUG 


unsigned int objnr = (objp-slabp—>s_mem) /cachep->objsize; 


slab bufctl(slabp)[objnr] = slabp->free; 
slabp->free = objnr; 

} 

STATS DEC ACTIVE (cachep) ; 


/* fixup slab chain */ 

if (slabp-^inuse-- == cachep-^num) 
goto moveslab partial; 

if (!slabp—>inuse) 
goto moveslab free; 

return; 


moveslab partial: 
/* was full. 
* Even if the page is now empty, we can set c firstnotfull to 
* slabp: there are no partial slabs in this case 
*/ 
{ 


struct list head *t = cachep->firstnotfull; 


cachep->firstnotfull = &slabp->list; 
if (slabp->list. next == t) 
return; 

list del (&slahp-^list); 
list add tail(&slabp-^list, t); 
return; 

) 

moveslab free: 

/* 

* was partial, now empty. 

* c firstnotfull might point to slabp 
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1437 * FIXME: optimize 

1438 */ 

1439 { 

1440 struct list hcad *t = cachep->firstnotfull->prev; 
1441 

1442 list del(&slabp-^list); 

1443 list add tail(&slabp-^list, &cachep->slabs) ; 
1444 if (cachep->firstnotfull == &slabp->list) 
1445 cachep->firstnotfull = t-^next; 

1446 return; 

1447 } 

1448} 


代码 中 的 CHECK PAGE 只 用 于 程序 调试 ， 丰 实际 运行 的 系统 中 为 空 语句 。 根 据 待 释放 对 象 的 地 
址 可 以 算出 其 所 在 的 页 面 。 进 一 步 ， 如 前 所 述 ( 见 kmem_cache_grow( ) 中 的 1142 47), WHI page 结构 
中 链 头 list 内 ， 原 用 于 队列 链接 的 指针 prev， 指 向 页 面 所 属 的 slab, 所 以 通过 宏 操作 GET_PAGE_SLAB 
就 可 以 得 到 这 个 slab 的 指针 。 找 到 了 对 象 所 在 的 slab, 就 串 以 通过 共 链 接 数组 释放 给 定 对 和 象 了 ( 见 1404~ 
1407 行 )。 同 时 ， 还 要 递减 所 属 slab 队列 控制 结构 中 非 空 闲 对 象 的 计数 。 递 减 以 后 有 三 种 林 能 : 
@ OK slab 上 没有 空闲 对 象 ， 侧 现在 有 了 ， 所 以 要 转 到 moveslab_partial 处 ， 把 slab 从 队列 中 原 
来 的 位 置 移 到 队列 的 第 二 截 ， 即 由 指针 firstnotfull 所 指 的 地 方 。 
e 原来 slab 上 就 有 空闲 对 象 ， 而 现在 所 有 对 象 都 空闲 了 ， 所 以 要 转 到 moveslab free 处 ， 把 slab 
从 队列 中 原来 的 位 置 移 到 队列 的 第 三 截 ， 即 队列 的 末尾 。 
€ JAX sab 上 就 有 空闲 对 象 ， 现 在 只 不 过 是 多 了 一 个 ， 但 也 并 没有 全 部 空间 ， 所 以 个 需 归 什 何 
改动 。 
可 见 ， 分 配 和 释放 专用 缓冲 区 的 开销 都 是 很 小 的 。 这 里 还 要 指出 ， 组 冲 区 的 释放 并 不 导致 slab 的 
释放 ， 空 闲 slab 的 释放 是 由 kswapd 等 内 核 线程 周期 地 调用 kmem_cache_reap( ) 完 成 的 。 
看 完了 专用 缓冲 区 的 分 配 和 和 释放， 再 看 看 通用 缓冲 区 的 分 配 。 前 面 讲 过 ， 除 各 种 专用 的 缓冲 区 队 
列 外 ， 内 核 中 还 有 :个 通用 的 缓冲 池 cache_sizes， 里 蚀 根 据 缓冲 区 的 人 小 而 分 成 若干 队列 。 用 丁 通用 
缓冲 区 分 配 的 函数 kmalloc( ) 是 在 mm/slab.c 中 定义 的 : 


1511 fk 

1512 * kmalloc - allocate memory 

1513 x size: how many bytes of memory are required. 

1514 * flags: the type of memory to allocate 

1515 * 

1516 * kmalloc is the normal method of allocating memory 

1517 * in the kernel. The @flags argument may be one of: 

1518 * 

1519 * %GFP BUFFER - XXX 

1520 * 

1521 * *GFP ATOMIC - allocation will not sleep. Use inside interrupt handlers 
1522 * 

1523 * WGFP USER - allocate memory on behalf of user. May sleep. 
1524 * 
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* XGFP KERNEL - allocate normal kernel ram. May sleep. 
* 


* %GFP_NFS - has a slightly lower probability of sleeping than %GFP_KERNEL. 
* Don’ t use unless you're in the NFS code. 


* 
* %GFP_KSWAPD - Don't use unless you're modifying kswapd. 
*/ 

oid * kmalloc (size t size, int flags) 


cache sizes t *csizep - cache sizes; 


for (; csizep-?cs size; csizeptt+) { 
if (size > csizep-?cs size) 
continue; 
return ^ kmem cache alloc(flags & GFP DMA ? 
csizep-2cs dmacachep : csizep-?cs cachep, flags): 
} 
BUG( ); // too big size 
return NULL; 


这 里 通过 一 个 for 循环 ， 在 cache sizes 结构 数组 中 由 小 到 大 扫描 ， 找 到 第 一 个 能 满足 缓冲 区 大 小 
要 求 的 队列 ,然后 就 调用 函数 __kmem_cache_alioc( ) 从 该 队列 中 分 配 -个 缓冲 区 。 而 kmem_cache_alloc() 
的 作用 我 们 在 前 面 已 经 简要 地 介绍 过 了 。 


最 后 ， 我 们 来 看 看 空闲 slab 的 “收割 ” 即 对 构成 空 附 slab 的 负面 的 回收 。 以 前 我 们 看 到 过 ， 内 核 
线程 kswapd 在 周期 性 的 运行 中 会 调用 kmem_cache_reap( ) 回 收 这 些 页 面 。 这 个 函数 的 代 但 在 mm/slab.c 


/ 


V 


{ 
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*k 
* kmem cache reap - Reclaim memory from caches. 
* Ggfp mask: the type of memory required. 

* 

* Called from try to free page( ). 

*/ 


oid kmem cache reap (int gfp mask) 


slab t *slabp; 

kmem cache t *searchp; 
kmem cache t *best cachep; 
unsigned int best pages; 
unsigned int best len; 
unsigned int scan; 


if (gfp mask & GFP WAIT) 
down(&cache chain sem); 
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scan 
best 
best 
best 
sear 
do { 
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if (down trylock(&cache chain sem)) 
return; 


= REAP_SCANLEN; 
_len = 0; 
pages = 0; 
_cachep = NULL; 
chp = clock searchp; 


unsigned int pages; 
struct list head* p; 
unsigned int full free; 


/* It's safe to test this without holding the cache-lock. 


if (searchp->flags & SLAB NO REAP) 
goto next; 

spin lock irq(&searchp-^spinlock); 

if (searchp-^growing) 
goto next unlock; 

if (searchp-^dflags & DFLGS GROWN) | 
searchp->dflags &= ~DFLGS GROWN; 
goto next_untock; 

} 

ONFIG_SMP 


Hendif 


full free = 0; 

p = searchp->slabs. prev; 

while (p != &searchp->slabs) | 
slabp = list entry(p, slab t, list); 
if (slabp—inuse) 


break; 
full freet+: 
p = p-»prev; 


} 


/* 
* Try to avoid slabs with constructors and/or 
* more than one page per slab (as it can be difficult 
* to get high orders from gfp( )). 
*/ 
pages = full free * (IX4searchp-^gfporder):; 
if (searchp->ctor) 
pages = (pages*4+1)/5; 
if (searchp->gfporder) 
pages = (pages*4+1}/5; 


*/ 
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if (pages > best pages) { 
best cachep - searchp; 
best len = full frec; 
best pages 7 pages; 
if (full free >= REAP PERFECT) ( 
clock searchp = list entry(searchp-^next. next, 
kmem cache t, next); 
goto perfect; 


} 
next_unlock: 
spin_unlock_irg (@searchp->spinlock) : 
next: 
searchp = list_entry(searchp->next. next, kmem cache t, next) ; 
| while (--scan && searchp != clock searchp); 


clock searchp - searchp; 


if (!best cachep) 
/* couldn't find anything to reap */ 
goto out; 


spin lock irq(&best cachep-^spinlock); 
perfect: 
/* free only 80* of the free slabs */ 
best len = (best len*4 + 1)/5; 
for (scan = 0; scan € best len: scant) | 
struct list head *p; 


if (best cachep— growing) 
break; 
p = best cachep-?slabs. prev; 
if (p == &best cachep->slabs) 
break; 
slabp - list entry(p, slab t, list); 
if (slabp—inuse) 
break; 
list del(&slabp-^list); 
if (best_cachep->firstnotfull == &slabp~>list) 
best_cachep->firstnotfull = &best cachep->slabs; 
STATS INC REAPED(best cachep); 


/* Safe to drop the lock. The slab is no longer linked to the 
* cache. 

*/ 

spin unlock irg(&best  cachep-?spinlock); 

kmem slab destroy(best cachep, slabp); 

spin lock irq(&best cachep-Pspinlock); 
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spin_unlock_irg(&best_cachep->spinlock) ; 
out: 

up(&cache chain sem); 

return; 


} 


措 的 起 点 ， 这 就 是 clock_searchp: 


360 
361 


/* Place maintainer for reaping. */ 
static kmem cache t *clock searchp = &cache cache; 


[kmem, cache, reap( ) > kmem slab destroy( )] 
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这 个 函数 扫描 slab 队列 的 队列 cache_cache， 从 中 发 现 可 供 “ 收 割 ” 的 slab 队列 。 不 过 ， 并 不 是 每 
次 都 扫描 整个 cache_cache， 而 只 是 扫描 其 中 的 一 部 分 slab 队列 ， 所 以 需 此 有 个 全 局 量 来 记录 下 一 次 扫 


找到 了 可 以 “收割 ”的 slab 队列 ， 也 不 是 把 它 所 有 空 闪 的 slab 都 全 部 回收 ， 出 是 回收 其 中 的 大 约 
80%。 对 于 要 同 收 的 slab, WA kmem_slab_destroy( ) 释 放 其 各 个 页 面 ， 我 们 把 这 个 消 数 留 给 读者 自己 
阅读 。 


/* Destroy all the objs in a slab, and release the mem back to the system. 


* Before calling the slab must have been unlinked from the cache. 


* The cache-lock is not held/needed. 
*/ 


static void kmem slab destroy (kmem cache t *cachep, slab t *slabp) 


{ 
if (cachep->dtor 


#if DEBUG 
|| cachep->flags & (SLAB POISON | SLAB RED ZONE) 
Hendif 
) d 
int i; 


for (i = 0; i < cachep->num; i++) { 
void* objp = slabp->s_memtcachep—>ob jsize*i; 


#if DEBUG 
Bendif 
if (cachep— dtor) 
(cachep->dtor) (objp, cachep, 0); 
#if DEBUG 
#endif 


} 





kmem freepages(cachep, slabp->s_mem-slabp->colouroff) ; 
if (OFF SLAB(cachep)) 
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579 kmem cache free(cachep-^slabp cache, slabp); 
580 j 


2.11 外 部 设备 存储 空间 的 地 址 映射 


任何 系统 都 免不了 要 有 输入 / 输出 ， 所 以 对 外 部 设备 的 访问 是 CPU 设计 中 的 一 个 重 时 问题 。 一 般 
来 说， 对 外 部 设备 的 访问 有 两 种 不 同 的 形式 ， 一 种 叫 内 存 映 射 式 (memory mapped), 5j— fiu 1/0 Bk 
射 式 (IO mapped)。 在 采用 内 存 映 射 方式 的 CPU 中 ， 外 部 设备 的 存储 单元 ， 如 控制 寄存 器 、 状 态 寄存 
器 、 数 据 寄存 器 等 等 ， 是 作为 内 存 的 -部 分 出 现在 系统 中 的 。CPU 可 以 像 访 问 一 个 内 存单 元 一 样 的 访 
问 外 部 设备 的 存储 单元 ， 所 以 不 天 要 专门 淡 立 用 于 外 设 VO 的 指令 。 从 前 的 PDP-11、 后 来 的 M68K、 
Power PC 等 CPU 都 采用 这 种 方式 。 而 在 采用 IO 映射 方式 的 系统 中 则 不 同 ， 外 部 设备 的 存储 单元 与 内 
存 分 属 两 个 不 同 的 体系 。 访 问 内 存 的 指令 不 能 用 来 访问 外 部 设备 的 存储 单元 ， 所 以 在 X86 CPU 中 设立 
了 专门 的 IN 和 OUT 指令 ， 但 是 用 于 VO 指令 的 “地 址 空间 ”相对 来 说 是 很 小 的 。 事 实 上 ， 现 在 X86 
的 IO 地 址 空间 已 经 非常 拥挤 。 

但 是 ， 随 着 计算 机 技术 的 发 展 ， 人 们 发 坝 单纯 的 UO 映射 方式 是 不 能 满足 要 求 的 。 此 种 方式 只 适 
合 于 早期 的 计算 机 技术 ， 那 时 候 一 个 外 设 通常 都 具有 几 个 寄存 器 ， 通 过 这 几 个 寄存 器 就 可 以 完成 对 外 
设 的 所 有 操作 了 。 而 现在 的 情况 却 大 不 一 样 。 例 如 ， 在 PC 机 上 可 以 插 上 一 块 图 像 卜 ， 上 常 有 2MB 的 存 
储 器 ， 甚 至 还 可 能 带 有 … 块 ROM， 里 面 装 有 可 执行 代码 。 自 从 PCI 总 线 出 现 以 后 ， 这 个 问题 就 更 突出 
So FI. AE CPU 的 设计 采用 VO 映射 或 是 存储 器 映射 ， 都 必须 要 有 将 外 设 卡 上 的 存储 器 映射 到 内 
存 空间 ， 实 际 上 是 虚 存 空间 的 手段 。 在 Linux ARP, ROPER ADOS TK ioremap( ) 来 建立 的 。 

对 寺内 存 页 面 的 管理 ， 通 常 我 们 都 是 先 在 虚 存 空间 分 配 一 个 虚 存 区 间 ， 然 后 为 此 区 间 分 配 相应 的 
物理 内 存 页 面 并 建立 起 上 映射。 而且 这 样 的 映射 也 并 个 是 一 次 就 建立 完毕 ， 可 以 在 访问 这 些 虚 存 页 面 引 
起 页 面 异常 时 冰 步 地 建立 。 但 是 ，ioremap( ) 则 不 同 ， 首 先 ， 我 们 先 有 一 个 物理 存储 区 间 ， 其 地 址 就 是 
外 设 上 本 上 的 存储 器 出 现在 总 线 上 的 地 址 。 这 地 址 未 必 就 是 这 些 存储 单元 在 外 设 卡 上 局 部 的 物理 地 址 ， 
而 起 在 总 线 上 出 CPU 所 “看 到 ”的 地 址 ， 这 中 间 很 可 能 已 经 经 历 了 一 次 地 址 映射 ， 但 这 种 映射 对 于 
CPU 来 说 是 透明 的 。 所 以 有 时 把 这 种 地 址 称 为 “总 线 地 址 ”。 举 个 例 来 说 ， 如 朵 有 …- 块 “智能 图 形 卡 ”， 
卡 上 有 个 微 处 埋 器 。 对 于 卡 上 的 微 处 理 器 来 说 ， 卡 上 的 存储 器 是 从 地 址 0 开始 的 ， 这 就 是 卡 上 局 部 的 
物理 地 址 。 但 是 将 这 块 图 形 卡 插 到 PC 的 - -个 PCI E£füfé LIN, rm PC 的 CPU 所 看 到 的 这 片 物理 在 
储 区 间 的 地 址 可 能 是 从 0x0000 f000 0000 0000 开始 的 ， 这 中 间 已 经 有 了 一 次 映射 。 可是， 从 系统 (PC) 
的 CPU 的 角度 来 说 ， 它 只 知道 这 片 物理 存储 区 间 是 从 Ox 0000 f000 0000 0000 开始 的 ， 这 就 是 该 区 间 
的 物理 地 址 ， 或 者 说 “总 线 地 址 ”。 TD Linux 系统 中 ，CPU 不 能 按 物理 地 址 来 访问 存储 空间 ， 而 必须 使 
用 虚拟 地 址 ， 所 以 必需 “ 反 向 ”地 从 物理 地 址 出 发 找到 一 片 虚 存 空间 并 建立 起 上 映射。 其次， 这 样 的 需 
求 上 只 发 生 于 对 外 部 设备 的 操作 ， 而 这 是 内 核 的 事 ， 所 以 相应 的 虚 存 区 间 是 在 系统 空间 (3GB 以 上 )。 在 
以 前 的 Linux 内 核 版 本 中 ， 这 个 盟 数 称 为 vremap( )， 后 来 改 成 了 ioremap( )， 也 突出 地 反映 了 这 一 点 。 
还 有 ， 这 样 的 页 面 当 然 不 服从 动态 的 物理 内 存 页 而 分配， 也 不 服从 kswapd 的 换 出 。 

先 看 ioremap( )， 这 是 一 个 inline 函数， 定义 于 include\asm-i386\io.h: 


140 extern inline void * ioremap (unsigned long offset, unsigned long size) 
141 { 
142 return __ioremap (offset, size, 0); 


143 


mou 存储 管理 
} 


实际 的 操作 由 __ioremap( ) 完 成 ， 是 在 arch/i386/mmvioremap.c 中 定义 的 : 


[ioremap( ) > __ioremap( )] 


92 

93 

94 

95 

96 

97 

98 

99 
100 
101 
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104 
105 
106 
107 
108 
109 
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ill 
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113 
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115 
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133 


/* 

* Remap an arbitrary physical address space into the kernel virtual 

* address space. Needed when the kernel wants to access high addresses 

* directly. 

x 

* NOTE! We need to allow non-page-aligned mappings too: we will obviously 
* have to convert them into an offset in a page-aligned mapping, but the 
* caller shouldn't need to know that small detail. 

*/ 


void * __ioremap (unsigned long phys addr, unsigned long size, unsigned long flags) 


void * addr; 
struct vm struct * area; 
unsigned long offset, last addr; 


/* Don't allow wraparound or zero size */ 
last addr = phys addr + size - 1; 
if (!size || last addr < phys addr) 
return NULL; 
/* 
* Don’t remap the low PCI/LSA area, it's always mapped.. 
*/ 


if (phys_addr >= 0xA0000 && last addr < 0x100000) 
return phys to virt(phys addr); 
/* 
* Don’ t allow anybody to remap normal RAM that we’ re using. 
*/ 


if (phys addr € virt to phys(high memory)) ( 
char *t addr, *t end; 
struct page *page; 


t addr = | va(phys addr); 
t end = t addr + (size - 1); 


for(page = virt to page(t addr); page <= virt to page(ti end); page**) 
if (!PageReserved (page) ) 
return NULL; 


/* 
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134 * Mappings have to be page-aligned 

135 */ 

136 offset = phys_addr & "PAGE MASK; 

137 phys addr &- PAGE MASK; 

138 size = PAGE ALIGN(last addr) - phys addr; 
139 

140 /* 

141 * Ok, go for it.. 

142 */ 

143 area = get vm area(size, VM IOREMAP):; 

144 if (larea) 

145 return NULL; 

146 addr = area-—>addr: 

147 if (remap area pages(VMALLOC VMADDR(addr), phys addr, size, flags)) { 
148 vfree (addr) ; 

149 return NULL; 

150 } 

151 return (void *) (offset + (char *) addr); 
152- i 


首先 是 一 些 例 行 检查 ， 常 常 称 为 “sanity check”， 或 者 说 “健康 检查 ”、“ 卫 生 检 查 ”。 其 中 109 行 
检查 的 是 区 间 的 大 小 既 不 为 0， 也 不 能 太 大 测 越 出 了 32 位 地 址 空间 的 限制 。 物 理 地 址 0xa0000 至 
0x100000 用 十 VGA FM BIOS， 这 是 在 系统 初始 化 时 就 映射 好 了 的 ， 不 能 侵犯 到 这 个 区 间 中 去 。121 
行 中 的 high memory 是 在 系统 初始 化 时 ， 根 据 检测 到 的 物理 内 存 大 小 设置 的 物理 内 存 地 址 的 上 限 〈 所 
对 应 的 虚拟 地 址 )。 如 果 所 要 求 的 phys_addr 小 于 这 个 上 限 的 话 ， 就 表示 与 系统 的 物理 内 存 有 冲突 了 ， 
除非 相应 的 物理 页 面 原 米 就 是 保留 着 的 空洞 。 在 通过 这 些 检查 以 后 ， 还 要 保证 该 物理 地 址 总 按 页 面 边 
界 对 齐 的 〈136 一 138 行 )。 

完成 了 这 些 准备 以 后 ， 这 才 “ 言 归 正 传 ” 首先 症 要 找到 “ 片 虚 存 地 址 区 间 。 前 面 讲 过 ， 这 片区 间 
属于 内 核 ， 而 不 属于 任何 “个 特定 的 进程 ， 所 以 不 是 在 某 个 进程 的 mm struct. 结构 中 的 虚 存 区 间 队 列 
中 去 寻找 , 而 是 从 属于 内 核 的 虚 存 区 间 队 列 中 去 寻找 。 函 数 get. vm. area( ) 是 在 mm/vmalloc.c 中 定义 的 : 


[ioremap( ) > __ioremap( ) > get vm area( )] 


168 struct vm struct * get vm area(unsigned long size, unsigned long flags) 
169 { 


170 unsigned long addr; 

171 struct vm struct **p, *tmp, ‘*area; 

172 

173 area = (struct vm struct *) kmalloc(sizeof(*area), GFP_KERNEL) ; 
174 if (!area) 

175 return NULL; 

176 size += PAGE SIZE; 

177 addr = VMALLOC START; 

178 write lock(&vmlist lock); 

179 for (p = &vmlist; (tmp = *p) ; p = &tmp->next) | 
180 if ((size + addr) < addr) 1 
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181 write unlock(&vmlist lock); 
182 k free (area); 

183 return NULL; 

184 } 

185 if (size + addr < (unsigned long) tmp->addr) 
186 break; 

187 addr = tmp->size + (unsigned long) tmp->addr; 
188 if (addr > VMALLOC END-size) { 
189 write unlock(&vmlist lock); 
190 kfree (area) ; 

191 return NULL; 

192 } 

193 } 

194 area—>flags = flags; 

195 area-^addr = (void *)addr; 

196 area->size = size; 

197 area—>next = *p; 

198 *p = area; 

199 write unlock(&vmlist lock); 

200 return area; 

20  ] 


内 核 为 自己 保持 一 个 虚 存 区 间 队 列 vmlist， 这 是 由 一 串 vm struct 数据 结构 组 成 的 个 单 链 队列 。 
这 里 的 vm struct 和 vmlist 都 是 由 内 核 专 用 的 。vm_struct 从 概念 上 说 类 似 于 供 进程 使 用 的 
vm_area_struct， 但 要 简单 得 多 ， 定 义 于 include/linux/vmalloc.h 和 mm/vmalloc.c 中 ， 


14 struct vm struct | 

15 unsigned long flags; 

16 void * addr; 

17 unsigned long size; 

18 struct vm struct * next; 
19 oh 


18 struct vm struct * vmlist; 


DART DELL. ALARA US SR AES IRURE DONE 5 VI FERRE de] TE ZEE — Ph RA XC AR, FE TEM 
地 址 上 加 上 一 个 3GB I itd HS BIT VALERE M OU RE. TEE high memory 标志 着 具体 物理 内 存 的 
十 限 所 对 应 的 虚拟 地 址 ， 这 是 在 系统 初始 化 时 设置 好 的 。 当 内 核 需要 一 片 虐 存 地 址 空间 时 ， 就 从 这 个 
地 址 以 上 8MB 处 分 配 。 为 此 ， 在 include/asm-i386/pgtable.h 中 定义 了 VMALLOC_START 等 有 关 的 常 
t. 


132 /* just any arbitrary offset to the start of the vmalloc VM area: the 


133 * current 8MB value just means that there will be a 8MB "hole" after the 
134 * physical memory until the kernel virtual memory starts. That means that 
135 * any out-of-bounds memory accesses will hopefully be caught. 

136 * The vmalloc( ) routines leaves a hole of 4kB between cach vmalloced 
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137 * area for the same reason. ;) 

138 */ 

139 #define VMALLOC OFFSET (8*1024*1024) 

140 Hdefine VMALLOC START (((unsigned long) high memory + 2*VMALLOC OFFSET-1) &\ 
141 "(VMALLOC OFFSET-1)) 

142 #define VMALLOC VMADDR(x) ((unsigned long) GO) 

143 #define VMALLOC END (FIXADDR START) 


源 代码 中 的 注解 对 于 为 什么 要 留 下 一 个 8MB 的 空洞 , 以 及 在 每 次 分 配 虚 存 区 间 时 也 要 禄 下 一 个 页 
面 的 空洞 ( 见 132 行 ) 解释 得 很 清楚 : 是 为 了 便于 捕 提 可 能 的 越界 访问 。 

这 里 读者 可 能 会 有 个 问题 ，185 行 的 if 语句 检查 的 是 当前 的 起 始 地 址 加 上 区 问 大 小 筑 小 于 下 -个 
区 间 的 起 始 地 址 ， 这 是 很 好 理解 的 。 可 是 176 行 在 区 间 大 小 上 又 加 了 一 个 页 面 作为 空洞 。 这 个 空 润 页 
面 难道 不 可 能 与 下 一 个 区 间 的 起 始 地 址 冲突 吗 ? 这 里 的 奥妙 在 于 185 行 判定 的 条 件 是 “< "而 不 是 "<=”， 
并 且 size 和 addr 都 是 按 页 面 边 界 对 齐 的 ， 所 以 185 行 的 条 件 已 经 隐 含 着 其 中 有 - -个 页 面 的 空洞 。 从 
get vm area( ) 成 功 返回 时 ， 就 标志 着 所 需要 的 一 片 虚 存 空间 已 经 分 配 好 了 ， 从 返回 的 数据 结构 可 以 得 
到 这 片 空间 的 起 始 地 址 。 下 面 就 是 建立 映射 的 事 了 。 

宏 定义 VMALLOC_VMADDR 我 们 已 经 在 前 面 看 到 过 了 ， 实 际 上 不 做 什么 事情 ， 只 是 类 型 转换 。 
函数 remap, area. pages( ) 的 代码 也 在 arch/1386/mm/ioremap.c "H: 


[ioremap( ) > __ioremap( ) > remap area pages( )] 


62 static int remap area pages (unsigned long address, unsigned long phys addr, 


63 unsigned long size, unsigned long flags) 
64 { 

65 pgd t * dir; 

66 unsigned long end = address + size; 

67 

68 phys addr -= address; 

69 dir = pgd offset (&init_mm, address); 

70 flush cache all( ); 

71 if (address >= end) 

72 BUG ( ) ; 

73 do | 

74 pmd t *pmd; 

75 pmd - pmd alloc kernel(dir, address); 

76 if (!pmd) 

77 return —FNOMEM; 

78 if (remap area pmd(pmd, address, end - address, 
79 phys addr * address, flags)) 

80 return -ENOMEM; 

81 address = (address + PGDIR SIZE) & PGDTR MASK; 
82 dirt*; 

83 } while (address && (address < end)); 

84 flush tlb all( ); 

85 return 0; 

86 } 
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我 们 讲 过 ， 每 个 进程 的 task. struct 结构 中 部 有 一 个 指针 指向 mm_strcuct 结构 ， 从 中 可 以 找到 相应 
的 页 面 日 录 。 但 是 ,内 核 空 间 不 属于 任何 一 个 特定 的 进程 , 所 以 单独 设置 了 一 个 内 核 专用 的 mm, struct, 
称 为 init_mm。 当 然 ， 内 核 也 没有 代表 它 的 task. struct 结构 ， 所 以 69 行 根据 起 始 地 址 从 init_ mm 中 找 
到 所 属 的 目录 项 ， 然 后 就 根据 区 间 的 大 小 走 遍 所 有 涉及 的 目录 项 。 这 里 的 68 行 看 似 奇 怪 。 从 物理 地 址 
中 减 去 虚拟 地 址 得 出 一 个 负 的 位 移 量 , 这 个 位 移 量 在 78 ~79 行 又 与 虚拟 地 址 相 加 , 仍旧 得 到 物理 地 址 。 
由 十 在 循环 中 虚拟 地 址 address 在 变 ( 见 81 行 ), 物理 地 址 也 就 相应 而 变 。 第 75 行 的 pmd_alloc_kernel( ) 
对 十 1386 CPU 就 是 pmd_alloc( )， 定 义 于 include/asm-i386/pgalloc.h : 


151 #define pmd alloc kernel pmd alloc 


iij inline PAL pmd_alioc() 的 定义 则 有 两 个 ， 分 别 用 于 二 级 和 三 级 映射 。 对 于 -级 映射 这 个 定义 
AY (JL include/asm-i386/pgtable 2level.h?: 


[ioremap( ) > __ioremap( ) > remap. area. pages( ) > pmd alloc( )] 


16 extern inline pmd t * pmd alloc(pgd t *pgd, unsigned long address) 
17 { 


18 if (!pgd) 

19 BUG( ) ; 

20 return (pmd t *) pgd; 
21 O} 


可 见 ， 对 于 i386 OA, RA RAR APRN, 5 “aad” Kies 
无 关系 。 即 使 对 于 采用 了 物理 地 址 扩充 (PAE) 的 Pentium CPU, 虽然 实现 三 级 映射 , 其 作用 也 只 是 “ 找 
到 ”中 间 目 颈项 而 已 ， 只 有 人 在 中 间 目 录 项 为 空 时 才 真 的 分 配 一 个 。 

这 样 ，remap_area_pages( ) 中 从 73 行 升 始 的 do while 循环 ， 对 涉及 到 的 答 个 页 面 日 录 表 项 调用 
remap_area_pmd( )。 而 remap area pmd( ) 几 乎 完全 一 样 ， 对 涉及 到 的 每 个 页 面 表 (对 1386 的 二 级 映射 ， 
每 个 中 间 肯 录 项 实际 上 就 是 个 页 面 表 项 ， 也 中 以 理解 为 中 间 上 月 录 表 的 大 小 为 1) 调用 
remap_area_pte( )， 这 也 是 在 arch/i386/mnyioremap.c 中 定义 的 : | 


[ioremap( ) > __ioremap( ) > remap area pages( ) > remap area pmd ( ) > remap area pte( )] 


15 static inline void remap area pte(pte t * pte, unsigned long address, 
unsigned long size, 


16 unsigned long phys addr, unsigned long flags) 
17 { 

18 unsigned long end; 

19 

20 address &= ~PMD MASK; 
21 end = address + size; 
22 if (end > PMD SIZE) 
23 end = PMD SIZE; 
24 if (address >= end) 
25 BUG( ) ; 

26 do { 
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27 if (!pte none(*pte)) { 
28 printk (“remap area pte: page already existsW^); 
29 BUG( ) ; 
30 } 
31 set pte(pte, mk pte phys (phys_addr, 
. pgprot( PAGE PRESENT | PAGE RW | 
32 PAGE DIRTY | PAGE ACCESSED | flags))); 
33 address *- PAGE SIZE; 
34 phys addr *- PAGE SIZE; 
35 ptett+; 
36 } while (address && (address < end)); 
a 


这 里 只 是 简单 地 在 循环 中 设置 页 面 表 中 所 有 涉及 的 页 面 表 项 (31 行 )。 每 个 表 项 都 被 预 设 成 
_PAGE DIRTY. PAGE, ACCESSED 和 _PAGE. PRESENTED: 

££ kswapd 换 出 页 面 的 情景 中 ， 我 们 已 经 看 到 kswapd 定期 地 、 循 环 地 、 依 次 地 从 task 结构 队列 中 
找 出 占用 内 存 页 面 最 多 的 进程 ， 然 后 就 对 该 进程 调用 swap out mm( ) 换 出 一 些 页 面 。 而 内 核 的 
mm, struct 结构 init mm 是 单独 的 ， 从 任何 一 个 进程 的 task 结构 中 都 到 达 不 了 init mm. ATUL, kswapd 
根本 就 看 不 到 init. mm 中 的 虚 存 区 间 ， 这 些 区 间 的 页 面 就 自然 不 会 被 换 出 而 长 驻 于 内 存 。 


2.12 系统 调用 brk() 


尽管 “可 见 度 ” 不 高 ，brk( ) 也 许 是 最 常 使 用 的 系统 调用 了 ， 用 户 进程 通过 它 向 内 核 申 请 空间 。 人 
们 常常 并 不 意识 到 在 调用 brk( )， 原 因 在 于 很 少 有 人 会 直接 使 用 系统 调用 brk( ) 向 系统 申请 空间 ， 而 总 
是 通过 像 malloc( ) 一 类 的 C 语言 库 函 数 〈 或 诸 言 成 分 ， 如 C++ 中 的 new) 间接 地 用 到 brk( )。 如 果 把 
malloc( ) 想 像 成 零售 ，brk( ) 则 是 批发 。 库 函数 malloc( ) 为 用 户 进程 《malloc 本 身 就 是 该 进程 的 一 部 分 ) 
维持 .个 小 仓库 ， 当 进程 需要 使 用 更 多 的 内 存 空间 时 就 身 小 仓库 虎 ， 小 仓库 中 存量 不 足 时 就 通过 brk) 
加 内 核 批 发 。 

前 面 讲 过 ， 得 个 进程 拥有 3G 字 节 的 用 户 虚 存 空间 。 但 是 ， 这 并 不 意味 着 用 户 进程 在 这 3G 宁 节 的 
范围 里 可 以 任意 使 用 ， 因 为 典 存 空间 最 终 得 映射 到 某 个 物理 存储 空间 (内 在 或 磁盘 空间 )， 才 真正 可 以 
使 用 ， 而 这 种 映射 的 建立 和 管理 则 由 内 核 处 理 。 所 谓 向 内 核 申 请 - : 块 空 间 ， 是 指 请 求 内 核 分 配 Aike 
存 区 间 和 相应 的 若干 物理 页 面 ， 并 建立 起 映射 关系 。 由 于 每 个 进程 的 虚 存 空间 者 很 大 〈3G)， 而 实际 需 
要 使 用 的 又 很 小 ， 内 核 不 可 能 在 创建 进程 时 就 为 整个 虚 存 空间 都 分 配 好 相应 的 物理 空间 并 建立 映射 ， 
而 只 能 是 需要 用 多 少 才 “ 分 配 ” 多 少 。 

MA, 内核 怎 样 管理 每 个 进程 的 3G 字 节 虚 存 空间 呢 ? 粗略 地 说 ,用 户 程序 经 过 编译 、 连 接 形 成 的 
映 象 文件 中 有 一 个 代码 段 和 一 个 数据 段 (包括 data PRA bss 段 }， 其 中 代码 段 在 下 ， 数 据 段 在 上 。 数 据 
段 中 包括 了 所 有 静态 分 配 的 数据 空间 , 包括 全 局 变量 和 说 明 为 static 的 局 部 变量 。 这 些 空间 是 进程 所 必 
须 的 基本 要 求 ， 所 以 内 核 在 建立 一 个 进程 的 运行 映 象 时 就 分 配 好 这 些 空间 ， 包 括 虚 存 地 丰 区 间 和 物理 
页 面 ， 放 建立 好 :者 间 的 映射 。 除 此 之 外 ， 堆 栈 使 用 的 空间 也 届 于 基本 要 求 ， 所 以 也 是 华 建 立 进程 时 
就 分 配 好 的 《但 可 以 扩 双 )。 所 不 同 的 是， 扒 酚 空间 安置 在 虚 存 空间 的 顶部 ， 过 行 时 由 项 前 下 延伸 ; 代 
码 段 和 数据 段 则 在 底部 〈 注 意 ， 不 要 与 X86 系统 结构 中 由 段 寄 存 器 建立 的 “代码 段 ” 及 “数据 段 ” 相 
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WA), 在 运行 时 并 不 向 上 伸展 。 而 从 数据 段 的 顶部 end. data 到 堆栈 段 地 址 的 下 沿 这 个 中 间 区 域 则 是 一 
个 巨大 的 空洞 ， 这 就 是 可 以 在 运行 时 动态 分 配 的 空间 。 晤 初 ， 这 个 动态 分 配 空 间 是 从 进程 的 end data 
开始 的 ， 这 个 地 址 为 肉 核 和 进程 所 共 知 。 以 后 ， 每 次 动态 分 配 一 块 “ 内 存 ” 这 个 边界 就 往 上 推进 一 段 
距离 ， 同 时 内 核 和 进程 都 要 记 下 当前 的 边界 在 哪里 。 在 进程 这 ULL malloc( ) 或 类似 的 库 际 数 管理 ， 
而 全 内核 中 则 将 当前 的 边界 记录 住 进程 的 mm. struct 结构 中 。 县 体 地 说 ，mm_struet 结构 中 有 一 个 成 分 
brk， 表 示 动 态 分 配 区 当前 的 底部 。 当 个 进程 需要 分 本 内 存 时 ， 将 要 求 的 大 小 与 其 当前 的 动态 分 配 区 
底部 边界 机 加 ， 所 得 的 就 是 所 覃 求 的 新 边界 ， 也 就 是 brk( ) 调 用 寺 的 参数 btk。 当 内 核能 满足 要 求 时 ， 
系统 调用 brk( ) 返 同 0， 此 后 新 旧 贞 个 边 内 之 问 的 虚 存 地 址 就 都 可 以 使 用 了 。 当 内 核发 现 无 法 满足 上 要 求 
《例如 物理 空间 已 经 分 配 完 ), 或 者 发 现 新 的 边界 已 经 过 杆 副 近 设 十 顶部 的 堆栈 时 ， 就 拒绝 分 配 而 返回 
= 1 

系统 调用 brk ) 在 内 核 中 的 实现 为 sys_brk( )， 其 代码 在 mm/mmap.c 中 。 这 个 函数 既 可 以 用 来 分 配 
空间 ， 即 把 动态 分 配 区 底部 的 边界 往 上 推 ， 也 可 以 用 来 释放 ， 即 归还 空间 。 因 此 ， 它 的 代码 也 大 致 上 
可 以 分 成 两 部 分 。 我 们 先 读 第 “部 分 : 








[sys. brk( )] 


113 /* 

114 * sys brk( ) for the most part doesn't need the global kernel 
115 * lock, except when an application is doing something nasty 
116 * like trying to un-brk an area that has already been mapped 
117 * to a regular file. in this case, the unmapping will need 
118 * to invoke file system routines that need the global lock. 
[19 */ 

120 asmlinkage unsigned long sys brk(unsigned long brk) 

121 { 

122 unsigned long rlim, retval; 

123 unsigned long newbrk, oldbrk; 

124 struct mm struct *mm = current-^mm; 

125 

126 down (&mm ^mmap som); 

127 

128 if (brk < mm-^end code) 

129 goto out; 

130 newbrk = PAGE ALIGN (brk) ; 

131 oldbrk = PAGE ALIGN (nm->brk) ; 

132 if (oldbrk -- newbrk) 

133 goto set brk; 

134 

135 /* Always allow shrinking brk. */ 

136 if (brk <= mm->brk) { 

137 if (!do munmap(mm, newbrk, oldbrk-newbrk)) 

138 goto set brk; 

139 goto out; 

140 } 

141 


- 161. 


Linux 内 核 源 代码 情景 分 析 EW) 


参数 brk 表示 所 要 求 的 新 边界 ， 这 个 边界 不 能 低 十 代码 段 的 终点 ， 并 且 必 须 与 页 面 大 小 对 齐 。 如 
果 新 边界 低 于 老 边 界 ， 那 就 不 是 申请 分 配 空间 ， 而 是 释放 空间 ， 所 以 通过 do_munmap( ) 解 除 一 部 分 区 
间 的 映射 ， 这 是 个 重要 的 函数 。 其 代码 在 mm/mmap.c 中 : 


[sys_brk( ) > do_munmap( )] 


664 
665 
666 
667 
668 
669 
670 
671 
672 
673 
674 
675 
676 
677 
678 
679 
680 
681 
682 
683 
684 
685 
686 
687 
688 
689 
690 
691 
692 
693 
694 
695 
696 


/* Munmap is split into 2 main parts -- this part which finds 


* what needs doing, and the areas themselves, which do the 
* work. This now handles partial unmappings. 
* Jeremy Fitzhardine <jeremy@sw. oz. au? 


int do munmap(struct mm struct *mm, unsigned long addr, size t len) 


{ 


struct vm area struct *mpnt, *prev, **npp, *free, *extra; 


if ((addr & "PAGE MASK) || addr > TASK STZE || len > TASK SIZE-addr) 
return -EINVAL; 


if (Cen = PAGE ALIGN(len)) == 0) 
return -EINVAL; 


/* Check if this memory area is ok ~ put it on the temporary 
* list if so.. The checks here are pretty simple 一 
* every area affected in some way (by any overlap) is put 
* on the list. If nothing is put on, nothing is affected 
*/ 
mpnt = find_vma_prev(mm, addr, &prev) ; 
if (!mpnt) 
return 0; 
/* we have addr < mpnt->vm_end */ 


if (mpnt-^vm start >= addrt+len) 
return 0; 


/* If we' ll make “hole”, check the vm areas limit */ 
if ((mpnt->vm start < addr && mpnt-^vm end > addr+len) 
&& mm->map count >= MAX MAP COUNT) 
return —ENOMEM; 


函数 find. vma. prev ) 的 作用 与 以 前 在 “ 几 个 重要 的 数据 结构 和 函数 ”一 节 中 读 过 的 find. vma( ) 基 
本 相同 ， 它 扫描 当前 进程 用 户 空间 的 vm_area_struct 结构 链表 或 AVL 树 ， 试 图 找到 结束 地 址 高 于 addr 
的 第 一 个 区 间 ， 如 果 找 到 ， 则 函数 返回 该 区 间 的 vm, area, struct 结构 指针 。 不 同 的 是 ， 必 同时 还 道 过 参 
数 prev 返回 其 前 一 区 间 结 构 的 指针 。 等 -下 我 们 就 将 看 到 为 什么 需要 这 个 指针 。 如 果 返 岂 的 指针 为 0， 
或 者 该 区 间 的 起 始 地 址 也 高 于 addr+len， 那 就 表示 想 旧 解除 映射 的 那 部 分 空间 由来 就 没有 映射 ， 所 以 
直接 返 同 0。 如 果 这 部 分 空间 洲 在 某 个 区 间 的 中 间 ， 则 在 解除 这 部 分 空间 的 映射 以 后 会 造成 一 个 空洞 而 
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使 原来 的 区 间 一 分 为 二 。 可 十， 一 个 进程 时 以 搜 有 的 虚 存 区 间 的 数量 是 有 限制 的 ， 所 以 车 这 个 数量 达 
到 了 上 限 MAX_MAP_COUNT， 就 不 再 允许 这 样 的 操作 。 


我 们 继续 往 下 看 : 


[sys_brk( ) > do_munmap( )] 


697 
698 
699 
700 
701 
702 
703 
704 
705 
706 
707 
708 
709 
710 
711 
112 
713 
714 
715 
716 
717 


/* 
* We may need one additional vma to fix up the mappings ... 
* and this is the last chance for an easy error exit. 


*/ 
extra = kmem cache alloc(vm area cachep, SLAB KERNEL); 
if (lextra) 


return —ENOMEM; 


npp = (prev ? &prev->vm next : &mm—>mmap) ; 
free = NULL; 
spin_lock (&mm->page table lock); 
for ( ; mpnt && mpnt->vm start < addrtlen; mpnt = *npp) | 
*npp = mpnt-2vm next; 
mpnt-^vm next = free; 
free - mpnt; 
if (mm-^mmap avi) 
avl remove(mpnt, &mm-^mmap avl); 
} 
mm-»mmap cache = NULL; /* Kill the cache. */ 
spin unlock(&mm-^page table lock); 


E T fe E — 88 2) 1 [8] (I I FE mI fé AEM OK A DC IR] — 4 28 —. HDI E OE — A 


vm area struct 结构 extra。 男 一 方面 ， 要 解除 映射 的 那 部 分 空间 也 有 可 能 跨越 好 几 个 区 间 ， 所 以 通过 一 
个 for 循环 把 所 有 涉及 的 区 间 吉 转移 到 -个 临时 队列 free 中 ， 如 果 建 立 了 AVL 树 ， 则 也 要 把 这 些 区 间 
的 vm. area, struct 结构 从 AVL 树 中 删除 。 以 前 讲 过 ，mm_struct 结构 中 的 指针 mmap_cache 指向 上 -次 
find vma( ) 操 作 的 对 和 象 ， 因 为 对 虚 存 区 间 的 操作 往往 是 有 连续 性 的 《 见 find. vma( ) 的 代 人 码 )， 而 现在 用 
户 空间 的 结构 有 了 变化 ,多 半 已 经 打破 了 这 种 连续 性 , 所 以 把 它 清 成 0。 至 此 , 已 经 守成 了 所 有 的 准备 ， 
下 面 就 要 具体 解除 映射 了 。 


[sys_brk( ) > do_munmap( )] 


718 
719 
720 
721 
722 
723 
724 
725 


/* Ok - we have the memory areas we should free on the ’ free’ list, 
* so release them, and unmap the page range.. 

* If the one of the segments is only being partially unmapped, 

* it will put new vm area struct(s) into the address space. 

* In that case we have to be careful with VM DENYWRITE. 

*/ 
while ((mpnt = free) !- NULI) { 

unsigned long st, end, sizo; 
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726 struct file *file = NULL; 

727 

728 free = free->vm_next; 

729 

730 st = addr < mpnt~>vm_start ? mpnt-?vm start : addr; 
731 end = addr+len; 

732 end = end > mpnt->vm_end ? mpnt-^vm end : end; 

733 size = end - st; 

134 

135 if (mpnt->vm flags & VM DENYWRITE && 

736 (st != mpnt->vm start || end !- mpnt-^vm end) && 
731 (file = mpnt->vm file) !- NULL) { 

738 atomic dec(&file-^f dentry-^d inode—^i writecount); 
739 } 

740 remove shared vm struct (mpnt) ; 

741 mm-^map count--; 

742 

743 flush cache range(mm, st, end); 

144 zap page range(mm, st, size); 

745 flush tlb range(mm, st, end); 

146 

TAT /* 

148 * Fix the mapping, and free the old area if it wasn't reused 
749 */ 

750 extra = unmap fixup(mm, mpnt, st, size, extra); 

151 if (file) 

752 atomic inc(&file— f dentry-^d inode-^i writecount); 
753 j 

754 

755 /* Release the extra vma struct if it wasn’t used */ 

756 if (extra) 

757 kmem cache free(vm area cachep, extra); 

798 

759 free pgtables(mm, prev, addr, addr+len) ; 

760 

761 return 0; 

762 } 


这 里 通过 一 个 while 循环 逐个 处 理 所 涉及 的 区 间 ， 这 些 区 间 的 vm. area. struct 结构 都 链接 在 一 个 临 
时 的 队列 free 中 。 在 下 一 节 中 读者 将 看 到 ，- -个 进程 可 以 通过 系统 调用 mmap( ) 将 一 个 文件 的 内 容 映 射 
到 其 用 户 空间 的 某 个 区 间 ， 然 后 就 像 访 问 内 存 - 一 样 来 访问 这 个 文件 。 但 是 ， 如 果 这 个 文件 同时 又 被 别 
的 进程 打开 ， 并 通过 常规 的 文件 操作 访问 ， 则 在 二 者 对 此 文件 的 两 种 不 同形 式 的 写 操作 之 间 要 加 以 互 
斥 。 如 果 要 解除 映射 的 只 是 这 样 的 区 间 的 一 部 分 (735—737 行 )， 那 就 相当 于 对 此 区 间 的 写 操 作 ， 所 以 
要 递减 该 文件 的 inode 结构 中 的 一 个 计数 器 i_writecount, 以 保证 互 斥 , 到 操作 完成 以 后 再 予 恢复 (751 一 
752 行 )。 同 时 ， 还 此 通过 remove, shared. vm struct(. ) 看 看 所 处 理 的 区 间 是 否 是 这 样 的 区 间 ， 如 果 是 ， 
就 将 其 vm. area. struct 结构 从 目标 文件 的 inode 结构 内 的 i. mapping 队列 中 脱 链 。 
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代码 中 的 zap_page_range( ) 解 除 若干 连续 页 面 的 映射 ， 并 且 释 放 所 映射 的 内 存 真 面 , 或 对 交换 设备 
上 物理 页 面 的 引用 ， 这 才 丰 我们 在 这 里 所 主 归 关 心 的 。 其 代码 在 mm/memory.c 中 : 


[sys_brk( ) > do_munmap( ) > zap. page range( )] 


348 /* 

349 * remove user pages in a given range. 

350 */ 

351 void zap page range(struct mm struct *mm, unsigned long address, 
unsigned long size) 

352 d 

353 pgd t * dir; 

354 unsigned long end = address + size; 

355 int freed = 0; 

356 

357 dir - pgd offset(mm, address); 

358 

359 f* 

360 * This is a long-lived spinlock. That's fine. 

361 * There's no contention, because the page table 

362 * lock only protects against kswapd anyway, and 

363 * even if kswapd happened to be looking at this 

364 * process we want it to get stuck. 

365 */ 

366 if (address >= end) 

367 BUG( ) ; 

368 spin lock(&mm-^page table lock); 

369 do ! 

370 freed *- zap pmd range(mm, dir, address, end - address); 

371 address = (address + PGDIR SIZE) & PGDIR MASK; 

372 dirt; 

373 } while (address && (address € end)); 

374 spin unlock(&mm-^page table lock): 

375 /* 

376 * Update rss for the mm struct (not necessarily current-^mm) 

377 * Notice that rss is an unsigned long. 

378 */ 

379 if (mm—rss > freed) 

380 mm-^rss -= freed; 

381 else 

382 mm-^rss = 0; 

383 } 


这 个 函数 解除 一 块 虚 存 区 间 的 页 面 映射 。 首 先 通过 ped_offset( ) 在 第 一 层 页 面目 录 中 找到 起 始 地 址 
所 属 的 目录 项 ， 然 后 就 通过 一 个 do-while 循环 从 这 个 目 外 项 开始 处 理 涉及 的 所 有 上 日 录 项 。 


312 Hdefine pgd index(address) ((address >> PGDIR_SHIFT) & (PTRS PER PGD-1)) 
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316 #define pgd offset(mm, address) ((mm)-^pgd*pgd index (address)) 


对 于 涉及 的 每 一 个 目录 项 ， 通 过 zap_pmd_range( ) 处 理 第 二 层 的 中 间 日 录 表 。 


[sys_brk( ) > do_munmap( ) > zap. page. range( ) > zap_pmd_range( )] 


321 static inline int zap pmd range(struct mm struct *mm, pgd t * dir, 
unsigned long address, unsigned long size) 

322 | 

323 pmd t * pmd; 

324 unsigned long end; 

325 int freed; 

326 

327 if (pgd none(*dir)) 

328 return 0; 

329 if (pgd bad(*dir)) | 

330 pgd ERROR (*dir) ; 

331 pgd clear (dir); 

332 return 0; 

333 } 

334 pmd = pmd offset (dir, address); 

335 address &- "PGDIR MASK; 

336 end = address + size; 

337 if (end > PGDIR SIZE) 

338 end = PGDIR SIZE; 

339 freed = 0; 

340 do { 

341 freed += zap pte range(mm, pmd, address, end - address); 

342 address = (address + PMD SIZE) & PMD MASK; 

343 pmd++; 

344 } while (address < end); 

345 return freed; 

346} 


同样 ， 先 通过 pmd_offset(), FBIBARR PRAIA RM. WTR Awa A i386 结构 ， 
中 间 目 录 表 这 一 层 是 空 的 。pmd_offset( ) 的 定义 在 include/asm-i386/pgtable-2level.h 中 ， 


53 extern inline pmd t * pmd offset(pgd t * dir, unsigned long address) 
54 { 

55 return (pmd t *) dir; 

56} 


H[ X, pmd_offset( ) 把 指向 第 一 层 目 录 项 的 指针 原封 不 动 地 作为 指向 中 间 日 录 项 的 指针 返回 来 了 ， 
也 就 是 说 把 第 一 层 目录 当成 了 中 间 目 录 。 所 以 ， 对 于 二 级 映射 ，zap_pmd_range( ) 在 某 种 意义 上 只 是 把 
zap page range( ) 所 做 的 事 重复 了 : 遍 。 不 过 ， 这 一 次 重复 调用 的 是 zap_pte_range( )， 处 理 的 是 底层 的 
页 面 映 射 表 了 。 


: 166 . 


第 2 章 存储 管理 


[sys brk( } > do, munmap( ) > zap_page_range( ) > zap omd range( ) > zap_pte_range( )] 


289 static inline int zap pte range(struct mm struct *mm, pmd t * pmd, 
unsigned long address, unsigned long size) 


290 | 

291 pte t * pte: 

292 int freed; 

293 

294 if (pmd none (*pmd) ) 

295 return 0; 

296 if (pmd badGkpmd)) ( 

297 pmd ERROR (*pmd) ; 

298 pmd clear (pmd) ; 

299 return 0; 

300 ] 

301 pte = pte offset(pmd, address); 
302 address &- "PMD MASK; 

303 if (address + size > PMD SIZE) 
304 size = PMD SIZE - address; 
305 size >>= PAGE SHIFT; 

306 freed = 0; 

307 for (;;) f 

308 pte_t page; 

309 if (!size) 

310 break; 

311 page - ptep get and clear(pte); 
312 ptet*; 

313 size -; 

314 if (pte none(page)) 

315 continue; 

316 freed += free pte(page); 
317 ) 

318 return frced; 

319  ] 


还 是 先 找到 在 给 定 页 面 表 中 的 起 始 表 项 , 与 pte. offset( ) 有 关 的 定义 在 include/asm-i386/pgtable.h 1: 


324 /* Find an entry in the third-level page table.. */ 
325 #define | pte offset (address) \ 


326 ( (address >> PAGE SHIFT) & (PTRS PER PTE - 1)) 
327 "define pte_offset (dir, address) ((pte t *) pmd_page(*(dir)) + \ 
328 _ pte offset (address) ) 


然后 就 是 在 “个 for 循 坏 中 ， 对 需 归 解除 映射 的 页 面 调用 ptep_get_and_clear( ) 将 页 面 表 项 清 成 0: 


57 #define ptep get and clear (xp) . pte(xchg(&(xp)-^pte low, 0)) 
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最 后 通过 free_pte( ) 解 除 对 内 存 页 面 以 及 盘 圭 页面 的 使 用 ， 这 个 函数 的 代码 在 mm/memory.c H: 


[sys_brk( ) > do_munmap( ) > zap page. range( ) > zap omd range( ) > zap. pte range( ) > free_pte( )] 


259 /* 

260 * Return indicates whether a page was freed so caller can adjust rss 
261 */ 

262 static inline int free pte(pte t pte) 

263 | 

264 if (pte present(pte)) { 

265 struct page *page = pte page (pte); 

266 if ((IVALID PAGE(page)) || PageReserved(page)) 
267 return 0; 

268 fk 

269 * free page( ) used to be able to clear swap cache 
270 * entries. We may now have to do it manually 
271 */ 

272 if (pte dirty(pte) && page-^mapping) 

213 set page dirty (page) ; 

274 free page and swap cache (page); 

215 return 1; 

276 } 

277 swap free(pte to swp entry(pte)) ; 

278 return 0; 

279} 


dn Ht 5t RTRA BREESE TE, USE I RR 

所 以 只 需 调 用 swap. free ) 解 除 对 交换 设备 上 的 “ 盘 上 页 面 ” 的 使 用 。 当 然 ，swap_free( H AEEA 
上 商 面 的 使 用 计数 ， 只 有 当 这 个 计数 达到 0 时 才 真 正 地 释放 了 这 个 盘 上 页面 。 如 果 当 前 进程 是 这 个 盘 
上 页 面 的 最 后 一 个 用 户 〈 或 惟一 的 用 户 )， 则 该 计数 递减 后 为 0。 反之， 则 要 通过 
free_page_and_swap_cache( ) 解 除 对 盘 上 页 面 和 内 存 页 面 -者 的 使 用 。 此 外 ， 如 果 页 面 在 最 近 一 次 
try_to_swap_out( ) 以 后 已 被 写 过 ， 则 还 要 通过 set_page_dirty( ) 设 置 该 页 面 page 结构 中 的 PG. dirty 标志 
位 , 并 在 相应 的 address_space 结构 中 将 其 移入 dirty. pages 队列 。 函数 free. page. and. swap. cache( ) 的 代 
码 在 mm/swap. state.c 中 : 


[sys brk( ) > do munmap( ) > zap_page_range( ) > zap omd range( ) > zap_pte_range( ) > free_pte( ) > 
free_page_and_swap_cache( )] 


133 /* 

134 * Perform a free page( ), also freeing any swap cache associated with 
135 * this page if it is the last user of the page. Can not do a lock_page, 
136 * as we are holding the page table lock spinlock. 

137 */ 

138 void free page and swap cache (struct page *page) 

139 { 

140 /* 
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141 * [f we are the only user, then try to free up the swap cache. 
142 */ 

143 if (PageSwapCache(page) && !TryLockPage(page)) { 

144 if (lis page shared(page)) { 

145 delete from swap cache nolock (page); 

146 } 

147 UnlockPage (page) ; 

148 } 

149 page_cachc_release (page) ; 

150} 


以 前 讲 过 ， 一 个 有 用 户 空间 映射 、 可 换 出 的 内 存 页 而 《确切 地 说 是 它 的 page 数据 结构 )， 同 时 在 
三 个 队列 中 。 一 是 通过 其 队列 头 list 链 入 某 个 换 入 / 换 出 队列 ， 即 相应 address space. 结构 中 的 
clean pages. dirty pages 以 及 locked pages 二 个 队列 之 --;， 二 起 通过 其 队列 头 Iru 链 入 某 个 LRU 队列 ， 
即 active list, inactive dirty. list 或 者 某 个 inactive clean list 之 一 ， 最 后 就 是 通过 指针 next hash 链 入 一 
个 杂 竣 队列 。 当 个 页 面 企 某 个 换 入 / 换 出 队列 中 时 ， 其 page 结构 中 的 PG. swap. cache 标志 位 为 1， 
如 果 当 前 进程 是 这 个 页 而 的 最 后 一 个 用 户 ( 或 惟一 用 户 ), 此 时 便 要 调用 delete, from, swap. cache, nolock( ) 
将 页 面 从 上 述 队 列 中 脱离 出 来 。 





[sys brk( ) > do_munmap( ) > zap. page range( ) > zap omd range( ) > zap pte, range( ) 
> free_pte( ) > free page and swap cache( ) > delete from swap cache. nolock( )] 





103 /* 

104 * This will never put the page into the free list, the caller has 
105 * a reference on the page. 

106 */ 

107 void delete from swap_cache nolock (struct page *page) 
108 { 

109 if (!PageLocked (page) ) 

110 BUG ( ) ; 

111 

112 if (block flushpage(page, 0)) 

113 lru cache del(page); 

114 

115 spin lock(&pagecache lock); 

116 ClearPageDirty (page) ; 

117 delete from swap, cache (page) ; 

118 spin unlock (&pagecache_lock) ; 

119 page cache relcase (page) ; 

120 } 


和 完 通 过 block flushpage( ) 把 页 面 的 内 容 “ 冲 刷 ” 到 块 设备 上 , 不 过 实际 上 这 种 冲 删 仅 在 页 面 来 自 
个 映射 到 用 户 空间 的 义 件 时 才 进 行 ， 办 为 对 于 交换 设备 上 的 页 面 ， 此 时 的 内 容 已 经 没有 意义 了 。 完 成 
了 冲刷 以 后 ， 就 通过 lru_cache_del( ) 将 负面 从 其 所 在 的 LRU 队列 中 脱离 出 来 。 然 后 ， 上 再 通过 
__delete_from_swap_cache( )， 使 页 面 脱离 其 他 两 个 队列 。 
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[sys_brk( ) > do munmap( ) > zap page range( ) > zap omd range( ) > zap. pte range( ) 
> free pte( ) > free page and swap cache()- delete from swap cache nolock( ) 
> . delete from swap cache( )] 


86 /* 

87 * This must be called only on pages that have 
88 * been verified to be in the swap cache. 

89 */ 

90 void | delete from swap cache (struct page *page) 
91 { 

92 swp_entry_t entry; 

93 

94 entry. val = page->index; 

95 

96 #ifdef SWAP CACHE iNFO 

97 swap cache del total++; 

98 Hendif 

99 remove from swap cache (page); 

100 swap_free (entry) ; 

101 } 


这 里 的 remove from swap. cache( ) 将 页 面 的 page 结构 从 换 入 / H HA FIATA BÀ P A HK. 
然后 ， 也 是 通过 swap free( ) 释 放 盘 上 页 面 ， 回 到 delete from swap cache nolock( )。 最 后 是 
page cache release( )， 即 递减 page 结构 中 的 使 用 计数 。 由 于 当前 进程 是 负面 的 最 后 一 个 用 户 ， 并 日 在 
解除 映射 之 前 贡 面 在 内 存 中 ( 见 Hii free_pte( ) 中 的 264 行 ), 所 以 页 面 的 使 用 计数 应 该 是 2, 这 里 (119 
行 ) 调用 了 -次 page_cache_release( ) 就 使 其 变 成 了 1。 肯 返回 惠 free_page_and_swap_cache( ) 中 ， 这 里 

(149 fr). 义 调用 了 一 次 page cache release( )， 这 一 次 就 使 其 变 成 了 0， 十 是 就 最 终 把 页 面 释放 ， 让 它 
同 到 了 空 闪 页 面 队列 中 。 

“4/512 do_munmap( ) 中 的 时 候 ， 忆 经 完成 了 对 一 个 虚 存 区 间 的 操作 。 此 时 ， 一 方面 要 对 虚 存 区 间 
的 vm area struct 数据 结构 和 进程 的 mm_struct 数据 结构 作出 调整 ， 以 反映 已 经 发 生 的 变化 ， 如 果 整 个 
区 问 都 解除 了 映射 , 则 要 释放 原 有 的 vm. area stet 数据 结构 ; 另 -方面 原来 的 区 间 还 可 能 要 一 分 为 二 ， 
因而 需要 插入 个 新 的 vm, area struct. 数据 结构 。 这 些 操作 是 由 unmap fixup( ) 完 成 的 ， 其 代码 在 
mm/mmap.c HH: 


[sys brk( ) > do munmap( ) > unmap. fixup( )] 


516 /* Normal function to fix up a mapping 

517 * This function is the default for when an area has no specific 
518 * function. This may be used as part of a more specific routine. 
519 * This function works out what part of an area is affected and 
520 * adjusts the mapping information. Since the actual page 

521 * manipulation is done in do mmap( ), none need be done here, 

522 * though it would probably be more appropriate. 

523 * 

524 * By the time this function is called, the area struct has been 
525 * removed from the process mapping list, so it needs to be 


. 170 . 


526 
527 
528 
529 
930 
931 
532 
533 
534 
535 
536 
537 
538 
539 
540 
541 
542 
543 
544 
545 
546 
547 
548 
549 
550 
dol 
552 
553 
554 
555 
556 
997 
958 
599 
560 
561 
562 
563 
564 
565 
566 
567 
568 
569 
570 
971 
912 
573 


* 
* 
* 
* 
* 
* 
* 
* 
* 
* 
* 
* 


*/ 


sta 


reinserted if necessary. 


The 4 main cases are: 
Unmapping the whole area 
Unmapping from the start of the segment to a point in it 
Unmapping from an intermediate point to the end 
Unmapping between to intermediate points, making a hole. 


Case 4 involves the creation of 2 new areas, for each side of 
the hole. If possible, we reuse the existing area rather than 
allocate a new one, and the return indicates whether the old 
area was reused. 


tic struct vm area struct * unmap fixup(struct mm struct *mm, 
struct vm area struct *area, unsigned long addr, size t len, 
struct vm area struct *extra) 


struct vm area struct *mpnt; 
unsigned long end - addr * len; 


area-»vm mm->total vm -= len >> PAGE SHTFT; 
if (area->vm flags & VM LOCKED) 
area-»vm mm: »locked vm -= len >> PAGE SHIFT; 


/* Unmapping the whole area. */ 
if (addr == area-^»vm start && end == area—^vm end) { 
if (area-^vm ops && arca-^vm ops-?close) 
area->vm_ops~>close (area); 
if (arca-^vm file) 
fput(area-^vm file); 
kmem cache free(vm area cachep, area); 
return extra; 


) 


/* Work out to one of the ends. */ 

if (end == area— vm end) { 
area-?vm end = addr; 
lock vma mappings (area); 
spin lock(&mm-^page table lock); 

} else if (addr == area—»vm start) { 
area-»vm pgoff += (end - area-?vm start) >> PAGE SHIFT; 
area-»vm start = end; 
lock vma mappings (area) ; 
spin lock(&mm-^page table lock); 

) else { 

/* Unmapping a hole: area— vm start < addr <= end < area-?vm end */ 
/* Add end mapping — leave beginning for below */ 
mpnt = extra; 
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574 extra = NULL; 
575 
576 mpnt-»vm mm = area->vm mm; 
577 mpnt~>vm start = end; 
578 mpnt—>vm_end = area->vm_end; 
579 mpnt—>vm page prot = area-?vm page prot; 
580 mpnt-?vm flags = area-?vm flags; 
581 mpnt-?vm raend = 0; 
582 mpnt-?»vm ops = area-?vm ops; 
583 mpnt-»vm pgoff = area-?vm pgoff + 
((end - area-^vm start) >> PAGE SHIFT); 
584 mpnt-»vm file = area—^vm file; 
585 mpnt-^vm private data = area-?vm private data; 
586 if (mpnt-^vm file) 
587 get file (mpnt->vm file); 
588 if (mpnt->vm ops && mpnt~—>vm_ops—>open) 
589 mpnt-»vm, ops—>open (mpnt) ; 
590 area-»vm end = addr; /* Truncate area */ 
591 
592 /* Because mpnt->vm_ file == area->vm file this locks 
593 * things correctly. 
594 */ 
595 lock, vma mappings (area) ; 
596 spin lock(&mm-^page table lock); 
597 . insert vm struct (mm, mpnt); 
598 } 
599 
600 __insert_vm_struct (mm, area); 
601 spin_unlock (&mm—->page_table lock); 
602 unlock vma mappings (area); 
603 return extra; 
604  ] 


我 们 把 这 段 代码 留 给 读者 。 最 后 ， 当 循 坏 结束 之 时 ， 由 于 已 经 解除 了 一 些 页 面 的 映射 ， 有 些 页 十 
轴 射 表 可 能 整个 都 己 经 空白 ， 对 于 这 样 的 页 面 表 《〈 所 占 的 页 而 )》 也 要 加 以 释放 。 这 是 山 free_pgtables( ) 
完成 的 。 我 们 也 把 它 的 代码 留 给 读者 (mm/mmap.c)。 


[sys_brk( ) > do munmap( ) > free pgtables( )] 


606 /* 

607 * Try to free as many page directory entries as we can, 
608 * without having to work very hard at actually scanning 
609 * the page tables themselves. 

610 * 

611 * Right now we try to free page tables if we have a nice 
612 * PGDIR-aligned area that got free'd up. We could be more 
613 * granular if we want to, but this is fast and simple, 
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614 * and covers the bad cases. 
615 * 
616 * "prev", if it exists, points to a vma before the one 
617 * we just free'd - but there's no telling how much before. 
618 */ 
619 static void free pgtables (struct mm struct * mm, 
struct vm area struct *prev, 
620 unsigned long start, unsigned long end) 
621 { 
622 unsigned long first - start & PGDIR MASK; 
623 unsigned long last = end + PGDIR SIZE - 1; 
624 unsigned long start index, end index; 
625 
626 if (!prev) { 
627 prev = mm-?mmap; 
628 if (prev) 
629 goto no_mmaps; 
630 if (prev->vm_end > start) { 
631 if (last > prev—->vm_start) 
632 last = prev-^vm start; 
633 goto no mmaps; 
634 ) 
635 ) 
636 for (1:;) { 
637 struct vm area struct *next = prev-»vm next; 
638 
639 if (next) { 
640 if (next->vm start < start) { 
641 prev = next; 
642 continue; 
643 } 
644 if (last > next-—>vm_start) 
645 last = next-?vm start; 
646 ] 
647 if (prev-^vm end > first) 
648 first = prev-^vm end + PGDIR SIZE - 1; 
649 break; 
650 } 
651 no_mmaps: 
652 /* 
653 * If the PGD bits are not consecutive in the virtual address, the 
654 * old method of shifting the VA >> by PGDIR SHIFT doesn’ t work. 
655 */ 
656 start index = pgd index(first); 
657 end index = pgd index(last); 
658 if (end index > start index) { 
659 clear page tables(mm, start index, end index - start index); 
660 flush tlb pgtables(mm, first & PGDIR MASK, last & PGDIR MASK); 
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661 } 
662 ] 


[FI 8 sys_brk( ) 的 代码 中 ， 我 们 已 经 完成 了 通过 sys_brk( ) 释 放空 间 的 情景 分 析 。 
如 果 新 边界 高 于 老 边 界 ， 就 表示 此 分 配 空 间 ， 这 就 是 sys brk( ) 的 后 一 部 分 。 我 们 继续 往 下 看 
(mm/mmap.c ): 


[sys. brk( )] 


142 /* Check against rlimit.. */ 

143 rlim = current-^rlim[RLIMIT DATA]. rlim cur; 

144 if (rlim < RLIM INFINITY && brk - mm-^start data > rlim) 
145 goto out; 

146 

147 /* Check against existing mmap mappings. */ 

148 if (find vma intersection(mm, oldbrk, newbrk*PAGE SIZE)) 
149 goto out; 

150 

151 /* Check if we have enough memory.. */ 

152 if (!vm enough memory((newbrk-oldbrk) >> PAGE SHIFT)) 
153 goto out; 

154 

155 /* Ok, looks good - let it rip. */ 

156 if (do brk(oldbrk, newbrk-oldbrk) !- oldbrk) 

157 goto out; 

158 set brk: 

159 mn->brk = brk; 

160 out: 

161 retval = mm~>brk: 

162 up (&mm—>mmap_sem) ; 

163 return retval; 

164 } 


首先 检查 对 进程 的 资源 限制 ， 如 果 所 要 求 的 新 边界 使 数据 段 的 大 小 超过 了 对 当前 进程 的 限制 ， 就 
拒绝 执行 。 此 外 ， 还 要 通过 find_vyma_intersection( )， 检 查 所 要 求 的 那 部 分 空间 是 否 与 已 经 存在 的 某 …- 
区 间 相 冲突 ， 这 个 inline 函数 的 代码 在 include/linux/mm.h H: 


[sys_brk( ) > find vma, intersection( )] 


511 /* Look up the first VMA which intersects the interval 
start addr..end addr-1, 
512 NULL if none. Assume start addr < end addr. */ 
513 static inline struct vm area struct * 
find vma intersection (struct mm struct * mm, 
unsigned long start addr, unsigned long end addr) 
514 { 
515 struct vm area struct * vma = find vma (mm, start addr); 
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516 
517 
518 
519 
520 


EEk 


mox (m 


if (vma && end addr <= vma—>vm start) 
vma = NULL; 
return vma; 


) 


这 里 的 start addr 是 老 的 边界 ， 如 果 find vma( ) 返 回 一 个 非 0 指针， 就 表示 在 它 之 上 已 经 有 了 一 个 
射 区 间 ， 因 此 有 冲突 的 可 能 。 此 时 新 的 边界 end_addr 必须 落 在 这 个 区 间 的 起 点 之 下 ， 也 就 是 让 从 


start_addr 到 end_addr 这 块 空间 落 在 空洞 中 ， 否 则 便 是 有 了 冲突 。 在 查 明 了 不 存在 冲突 以 后 ， 还 要 通过 
vm enough memory( ) 看 看 系统 中 是 否 有 是 够 的 空闲 内 仓 页 面 。 


[sys brk( ) > vm, enough memory( )] 


41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
99 
60 
61 
62 
63 
64 
65 
66 
67 


/* Check that a process has enough memory to allocate a 

* new virtual mapping. 

*/ 

int vm enough memory (long pages) 

{ 
/* Stupid algorithm to decide if we have enough memory: while 
* simple, it hopefully works in most obvious cases.. Easy to 
* fool it, but this should catch most mistakes 
*/ 
/* 23/11/98 NJC: Somewhat less stupid version of algorithm, 
* which tries to do “TheRightThing”. Instead of using half of 


* (bufferstcache), use the minimum values. Allow an extra 2% 
* of num physpages for safety margin 

*/ 

long free; 


/* Sometimes we want to use more memory than we have. */ 
if (sysctl overcommit memory) 
return 1; 


free - atomic read(&buffermem pages); 
free += atomic read(&page cache size); 
free += nr free pages( ); 

free += nr swap pages; 

return free > pages; 


通过 了 这 些 检查 ， 接 着 就 是 操作 的 主体 do, brk() T . XC b CRAS ZE mm/mmap.c 中 ， 


{sys_brk( ) > do_brk( )] 


775 
776 


/* 


* this is really a simplified "do mmap”. it only handles 
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711 
778 
779 
780 
781 
782 
783 
784 
785 
786 
787 
788 
789 
790 
791 
792 
793 
794 
795 
796 
797 
798 
799 
800 
801 
802 
803 
804 
805 
806 
807 
808 
809 
810 
811 
812 
813 
814 
815 
816 
817 
818 
819 
820 
821 
822 
B23 
824 
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* anonymous maps. eventually we may be able to do some 
* brk-specific accounting here. 


unsigned long do brk(unsigned long addr, unsigned long len) 


{ 
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struct mm struct * mm = current—>mm; 
struct vm area struct * vma; 
unsigned long flags, retval; 


len = PAGE ALIGN(len); 
if (!len) 
return addr; 


/* 

* mlock MCL FUTURE? 

*/ 

if (mm->def flags & VM LOCKED) { 
unsigned long locked = mm—>locked_vm << PAGE SHIFT; 
locked += len; 
if (locked > current->rlim{RLIMIT_MEMLOCK]. rlim_cur) 

return -EAGAIN; 
} 


/* 
* Clear old maps. this also does some error checking for us 
*/ 
retval = do munmap(mm, addr, len); 
if (retval != 0) 
return retval; 


/* Check against address space limits *after* clearing old maps... 


if ((mm-^total vm << PAGE SHIFT) + len 
> current rlim[RLIMIT AS]. rlim cur) 
return -ENOMEM; 


if (mm->map count > MAX MAP COUNT) 
return -ENOMEM; 


if (!vm enough memory (len >> PAGE SHIFT)) 
return -ENOMEM ; 


flags = vm flags (PROT READ|PROT WRTTE|PROT. EXEC, 
MAP FIXED|MAP PRIVATE) | mm->def flags: 


flags |= VM MAYREAD | VM MAYWRITE | VM MAYEXEC: 


/* Can we just expand an old anonymous mapping? */ 


*/ 
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825 if (addr) { 

826 struct vm area struct * vma = find vma(mm, addr-1); 
827 if (vma && vma-^vm end == addr && !vma->vm_file && 
828 vma-»vm flags == flags) { 

829 vma-?vm end = addr + len; 

830 goto out; 

831 } 

832 } 

833 

834 

835 /* 

836 * create a vma struct for an anonymous mapping 
837 */ 

838 vma = kmem cache alloc(vm area cachep, SLAB KERNEL); 
839 if (!vma) 

840 return -ENOMEM; 

841 

842 vma-^vm mm = mm; 

843 vma-»vm start = addr; 

844 vma-»vm end = addr + len; 

845 vma-^vm flags = flags; 

846 vma-^vm page prot = protection map[flags & OxOf]; 
847 vma-»vm ops = NULL; 

848 vma-?vm pgoff = 0; 

849 vma-?»vm file = NULL; 

850 vma—>vm private data = NULL; 

851 

852 insert vm struct(mm, vma); 

853 

854 out: 

855 mm-»total vm += len >> PAGE SHIFT; 

856 if (flags & VM LOCKED). { 

857 mm-^locked vm += len >> PAGE SHIFT; 

858 make pages present(addr, addr + len); 

859 } 

860 return addr; 

861} 


参数 addr 为 需要 建立 映射 的 新 区 间 的 起 点 ，len 则 为 区 间 的 长 度 。 前 面 我 们 已 经 看 到 
find_vma_intersection( ) 对 冲突 的 检查 ， 吕 是 不 知 读 者 是 否 注意 到 ， 实 际 上 检查 的 只 是 新 区 间 的 高 端 ， 
对 于 其 低 端的 冲突 则 并 未 检 合 。 例 如 ， 老 的 边界 是 否 恰好 是 一 个 已 映射 区 间 的 终点 昵 ?如 果 不 是 ， 那 
就 说 明 在 低 端 有 了 冲突 。 不 过 ， 对 于 低 端的 冲突 是 允许 的 ， 解 次 的 方法 是 以 新 的 映射 为 准 ， 先 通过 
do munmap( ) 把 原 有 的 映射 解除 〈 见 803 行 )， 再 来 建立 新 的 映射 。 读 省 大 概要 问 了 ， 为 什么 对 新 区 间 
的 访 端 和 低 端 有 如 此 不 同 的 容忍 度 利 对 待 昵 ?读者 最 好 先 想 一 想 ， 然 后 再 往 上 下 看 。 

以 前 说 过 ， 用 户 空 间 的 顶端 是 进程 的 用 户 空 间 堆 栈 。 不 管 什 么 进程 ， 在 那 电 总 是 有 一 个 已 映射 区 
间 存 在 着 的 ， 所 以 find_vma_intersection( ) 中 的 find vma( ) 其 实 不 会 返回 0， 因 为 至 少 用 于 堆栈 的 那个 
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区 间 总 是 存在 的 。 当 然 ， 在 堆栈 以 下 也 可 能 还 有 通过 mmap( ) 或 ioremap( ) 建 立 的 映射 区 间 。 所 以 ， 如 
果 新 区 间 的 高 端 有 冲突 ， 那 就 可 能 是 与 堆栈 的 冲突 ， 市 低 端 的 冲突 则 只 能 是 与 数据 段 的 冲突 。 所 以 ， 
对 寺 低 端 可 以 让 进程 自己 对 可 能 的 错误 负责 ， 出 对 寺 堆 栈 可 就 不 能 采取 把 原 有 的 映射 解除 ， 另 行 建 立 
新 的 映射 这 样 的 方法 了 。 
建立 新 的 映射 时 ， 先 看 看 是 否 可 以 跟 版 有 的 区 问 合并 ， 即 通过 扩展 版 有 区 间 来 覆盖 新 增 的 区 间 


(826~831 行 )。 如 果 不 行 就 得 另行 建立 一 个 区 间 C838—852 ÍF). 
最 后 ， 通 过 make pages present( )， 为 新 增 的 区 则 建立 起 对 内 存 页 面 的 映射 。 其 代码 见 


mm/memory.c: 


[sys brk() > do brk( ) > make pages present( )] 


1210 /* 

1211 * Simplistic page force-in.. 

1212 */ 

1213 int make pages present (unsigned long addr, unsigned long end) 
1214 1 

1215 int write; 

1216 struct mm struct *mm = current-?mm; 

1217 struct vm area struct * vma; 

1218 

1219 vma = find vma(mm, addr): 

1220 write = (vma—>vm flags & VM WRITE) !- 0; 

1221 if (addr >= end) 

1222 BUG( ) ; 

1223 do { 

1224 if (handle mm fault (mm, vma, addr, write) < 0) 
1225 return —1; 

1226 addr += PAGE_SIZE; 

1227 } while (addr < end); 

1228 return 0; 

1229 } 


这 里 所 用 的 方法 很 有 趣 ， 那 就 是 对 新 区 河中 的 每 PSU RS. DORUM. Ti 
从 do_brk( ) 返 回 , 进而 从 sys brk( ) 返 回 之 时 ， 这 些 抽 面 表 项 的 映射 是 怎样 的 ? 如 果 进 程 从 新 分 配 的 区 / 
间 中 读 ， 读 出 的 内 容 该 是 什么 ? 往 里 面 写 ， 情 况 义 会 怎样 ? 


2.13 系统 调用 mmap) 


一 个 进程 可 以 通过 系统 调用 mmap). 将 一 个 已 打 升 文件 的 内 容 映 射 到 它 的 用 户 空 间 , 其 用 户 界 而 


mmap (void *start,size t length, int prot, int flags, int fd, off t offset) 


参数 fd 代表 着 一 个 已 打开 文件 ，offset 为 文件 中 的 起 点 ， 而 start 为 映射 到 用 户 空 间 中 的 起 始 地 址 
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lenth 则 为 长 度 。 还 有 两 个 参数 prot Al flags, 前 者 用 本 对 所 映射 区 间 的 访问 模式 , 如 可 写 、 可 执行 等 等 ; 
后 者 则 用 于 其 他 控制 目的 ,从 应 用 程序 设计 的 角度 来 说 , 比 之 常规 的 文件 操作 , 如 read( )、write( ) .lseek() 
等 等 ， 将 文件 映射 到 用 户 空间 后 像 访问 内 存 一 样 地 访问 文件 显然 要 方便 得 多 〈 读 者 不 妨 设想 一 下 对 数 
据 库 文件 的 访问 )。 

在 阅读 本 节 之 前 ， 读 者 应 先 看 下 前 一 节 sys_brk( ) 的 代码 和 有 关 说 明 ， 并 月 在 阅读 的 过 程 中 注意 
与 sys_brk( ) 互 相 参 照 比 较 。 有 些 内 容 可 能 要 到 阅读 了 后 面 儿 章 以 后 ， 特 别 是 “文件 系统 ”以 后 ， 上 南 回 
过 来 阅读 才能 弄 懂 。 

在 2.4.0 版 的 内 核 中 实现 这 个 调用 的 函数 为 sys_mmap2( )， 但 是 在 老 一些 的 版 本 中 另 有 一 个 着 数 
old_mmap( )， 这 两 个 函数 对 应 着 不 同 的 系统 调用 号 。 为 保持 对 老 版 本 的 兼容 ，2.4.0 版 中 仍 保留 老 的 系 
统 调用 号 和 old_mmap( )， 由 不 同 版 本 的 C 诸 言 库 程序 决定 采用 哪 一 个 系统 调用 号 。 二 者 的 代码 部 在 
arch/i386/kernel/sys_i386.c 中 : 





68 asmlinkage long sys_mmap2 (unsigned long addr, unsigned long len, 
69 unsigned long prot, unsigned long flags, 

70 unsigned long fd, unsigned long pgoff) 

71 { 

72 return do_mmap2(addr, len, prot, flags, fd, pgoff); 

73 3 


91 asmlinkage int old mmap (struct mmap arg struct *arg) 


92 { 

93 struct mmap arg struct a; 

94 int err - -EFAULT; 

95 

96 if (copy from user(&a, arg, sizeof(a))) 

97 goto out; 

98 

99 err = -EINVAL; 

100 if (a.offset & "PAGE MASK) 

101 goto out; 

102 

103 err = do mmap2(a.addr, a. len, a.prot, a.flags, a. fd, 
a.offset >> PAGE SHIFT); 

104 out: 

105 return err; 

106 ] 


可 见 ， 二 者 的 区 别 仅 在 十 传递 参数 的 方式 ， 它 们 的 主体 都 是 do_mmap2( )， 其 代码 在 同一 文件 中 : 
[sys_mmap2( ) > do_mmap2( )] 
42 /* common code for old and new mmaps */ 
43 static inline long do mmap2( 


44 unsigned long addr, unsigned long len, 
45 unsigned long prot, unsigned long flags, 
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46 unsigned long fd, unsigned long pgoff) 
47 { 

48 int error = -EBADF; 

49 struct file * file = NULL; 

50 

51 flags &- "(MAP EXECUTABLE | MAP DENYWRITE); 
52 if (!(flags & MAP ANONYMOUS)) 1 

53 file = fget (fd); 

54 if (!file) 

55 goto out; 

56 } 

57 

58 down (&current—>mm->mmap_sem) ; 

59 error = do mmap pgoff(file, addr, len, prot, flags, pgoff); 
60 up(&current-?mm-^mmap sem); 

61 

62 if (file) 

63 fput (file); 

64 out: 

65 return error; 

66  ] 


一 般 而 言 ， 系 统 调用 mmap( ) 将 已 打开 文件 映射 到 用 户 空 间 。 但 是 有 个 例外 ， 那 就 是 可 以 在 调用 参 
数 flags 中 把 标志 位 MAP. ANONYMOUS 设 成 1， 表 示 没 有 文件 ， 实 际 上 只 是 用 来 “ 圈 地 ”， 即 在 指定 
的 位 置 上 分 配 空间 。 除 此 之 外 ， 操 作 的 主体 就 是 do_mmap_pgoff( )。 

内 核 中 还 有 个 inline 函数 do_mmap( )， 是 供 内 核 自 己 用 的 ， 它 也 是 将 已 打开 文件 映射 到 当前 进程 
的 用 户 空 间 。 以 后 ， 在 阅读 系统 调用 sys_execve( ) 的 代码 时 ， 在 函数 load_aout_binary( ) 中 可 以 看 到 通 
过 do_mmap( ) 将 可 执行 程序 《二 进 制 代码 映射 到 当前 进程 的 用 户 空间 。 此 外 ，do_mmap( ) 还 用 来 创 
建 作 为 进程 间 通 信 手 段 的 “共享 内 存 区 ” 这 个 inline 函数 是 在 include/linux/mm.h 中 定义 的 ; 


428 static inline unsigned long do mmap(struct file *file, unsigned long addr, 
429 unsigned long len, unsigned long prot, 

430 unsigned long flag, unsigned long offset) 

431 { 

432 unsigned long ret = -EINVAL; 

433 if ((offset + PAGE ALIGN(len)) < offset) 

434 goto oul; 

435 if (! (offset & "PAGE MASK)) 


436 ret - do mmap pgoff(file, addr, len, prot, flag, 
offset >> PAGE SHIFT); 


437 out: 
438 return ret; 
439 } 


与 do_mmap2() 作 一 比较 ， 就 可 发 现 一 者 基 本 上 相同 ， 都 是 通过 do_mmap_pgoff( ) 完 成 操作 。 不 同 
的 只 是 do_mmap( ) 不 支持 MAP_ANONYMOUS， 另 一 方面 由 于 在 进入 do_mmap( ) 之 前 已 经 在 临界 区 
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内 ， 所 以 也 不 再 需 娄 通过 信和 号 量 操作 down( ) 和 up( ) 加 以 保护 。 
tK Zi do_mmap_pgoff( ) 的 代码 在 mm/mmap.c F: 


[sys_mmap2( ) > do mmap2( ) > do_mmap_pgoff( )] 


188 unsigned long do mmap pgoff (struct file * file, unsigned long addr, 
unsigned long len, 


189 unsigned long prot, unsigned long flags, unsigned long pgoff) 
190 d 

191 struct mm struct * mm = current-^mm; 

192 struct vm area struct * vma; 

193 int correct wcount = 0; 

194 int error; 

195 

196 if (file && (!file—^f op || !file-^f op-^mmap)) 

197 return -ENODEY ; 

198 

199 if ((len = PAGE ALIGN(len)) == 0) 

200 return addr; 

201 

202 if (len > TASK SIZE || addr > TASK_SIZE-len) 

203 return —EINVAL; 

204 

205 /* offset overflow? */ 

206 if ((pgoff + (len >> PAGE SHIFT)) € pgoff) 

207 return -EINVAL; 

208 

209 /* Too many mappings? */ 

210 if (mm-^map count > MAX MAP COUNT) 

211 return -ENOMEM; 

212 

213 /* mlock MCL FUTURE? */ 

214 if (mm->def flags & VM LOCKED) { 

215 unsigned long locked - mm-^locked vm << PAGE SHIFT; 

216 locked *- len; 

217 if (locked > current rlim[RLIMIT MEMLOCK]. rlim cur) 

218 return -EAGAIN; 

219 } 

220 

221 /* Do simple checking here so the lower-level routines won’ t have 
222 * to. we assume access permissions have been handled by the open 
223 * of the memory object, so we don't do any here. 

224 x/ 

225 if (file != NULL) { 

226 switch (flags & MAP_TYPE) { 

227 case MAP SHARED: 

228 if ((prot & PROT WRITE) && !(file-^f mode & FMODE WRITE)) 
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229 return -EACCES; 
230 
231 /* Make sure we don’t allow writing to an append-only file. */ 
232 if (IS APPEND(file->f_dentry—>d_inode) && 
(file-^f mode & FMODE WRITE)) 
233 return -EACCES; 
234 
235 /* make sure there are no mandatory locks on the file. */ 
236 if (locks verify locked(file-^f dentry-^d inode)) 
237 return —EAGAIN; 
238 
239 /* fall through */ 
240 case MAP PRIVATE: 
241 if (!(file->f_mode & FMODE READ)) 
242 return ~EACCES; 
243 break; 
244 
245 default: 
246 return -EINVAL; 
247 } 
248 } 
249 


首先 对 文件 和 区 间 两 方面 都 作 一 些 检查 ， 包 括 起 始 地 址 与 长 度 、 届 经 映射 的 次 数 等 等 。 指 针 file 
F 0 表示 映射 的 是 具体 的 文件 〈 而 不 是 MAP_ANONYMOUS)， 所 以 相应 file 结构 中 的 指针 f_op 必须 
指向 个 file operations 数据 结构 ,其 中 的 涵 数 指针 mmap 又 必须 指向 其 体 文件 系统 所 提供 的 mmap 操 
作 ( 详 风 第 5 章 “ 文 件 系 统 ”)。 从 某 种 意义 上 说 ，do_mmap( ) 和 do_mmap2( ) 提 供 的 只 是 一 个 高 层 的 框 
负 ， 低 层 的 文件 操作 是 由 具体 的 文件 系统 提供 的 。 

此 外 ， 还 昌 对 文件 和 区 间 的 访问 权限 进行 检查 ， 二 者 必须 相符 。 读 者 可 以 在 阅读 了 第 S 章 以 后 加 
过 来 仔细 看 这 些 代码 。 这 里 我 们 继续 往 下 看 : 


[sys mmap2( ) > do mmap2( ) > do mmap pgoff( )] 


250 /* Obtain the address to map to. we verify (or select) it and ensure 
251 * that it represents a valid section of the address space. 
252 */ 

253 if (flags & MAP FIXED) { 

254 if (addr & "PAGE MASK) 

255 return -EINVAL; 

256 | else { 

257 addr - get unmapped area(addr, len); 

258 if (laddr) 

259 return -ENOMFEM; 

260 } 

261 
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调用 do mmap. pgoff( ) 时 的 参数 基本 上 就 是 系统 调用 mmap( ) 的 参数 ， 如 果 参 数 flags 中 的 标志 位 
MAP FIXED 为 0， 就 表示 指定 的 映射 地 址 只 是 个 参考 值 ， 不 能 满足 时 可 以 由 内 核 给 分 配 一 个 。 所 以 ， 
就 通过 get_unmapped_area( ) 在 当前 进程 的 用 户 空间 中 分 配 一 个 起 始 地 址 。 其 代码 在 mm/mmap.c 路 


[sys_mmap2( ) > do mmap2( ) > do mmap pgoff( ) > get unmapped area( )] 


374 /* Get an address range which is currently unmapped. 

375 * For mmap( ) without MAP FIXED and shmat( ) with addr=0. 

376 * Return value 0 means ENOMEM. 

377 */ 

378 #ifndef HAVE ARCH UNMAPPED AREA 

379 unsigned long get unmapped area (unsigned long addr, unsigned long len) 


380 { 

381 struct vm area struct * vmm; 

382 

383 if (len > TASK SIZE) 

384 return 0: 

385 if (taddr) 

386 addr = TASK UNMAPPED BASE; 

387 addr = PAGE ALIGN (addr) ; 

388 

389 for (vmm = find vma(current-^?mm, addr); ; vmm = vmm—vm next) { 
390 /* At this point: (!vmm || addr < vmm-vm end). */ 
391 if (TASK SIZE - len < addr) 

392 return 0; 

393 if (!vmm || addr + len <= vmm-?vm start) 

394 return addr; 

395 addr = vmm-^vm end; 

396 } 

397} 

398 #endif 


读者 上 自行 阅读 这 段 程序 应 该 不 会 有 困难 。 常 数 TASK UNMAPPED BASE 是 在 
include.asm-i386/processor.h P EX HJ: 


263 /* This decides where the kernel will search for a free chunk of vm 
264 * space during mmap’ s. 

265 */ 

266 #define TASK UNMAPPED BASE (TASK SIZE / 3) 


(LIBI. See GE ORM, ARM (TASK_SIZE/3) 即 1GB 处 开始 向 上 看 当前 进程 的 
虚 存 空间 中 寻找 一 块 足以 容纳 给 定 长 度 的 区 间 。 而 当 给 定 的 目标 地 址 不 为 0 时 ， 则 从 给 定 的 地 址 开始 
HEFIR. PAX find vma( ) 华 当前 进程 已 经 映射 的 虚 存 空间 中 找到 第 个 满足 vma -> vm end 大 于 给 
定 地 址 的 区 间 。 如 果 找 不 到 这 么 一 个 区 间 ， 那 就 说 明 给 定 的 地 址 尚未 映射 ， 因 而 可 以 使 用 。 

至 此 ， 只 时 返回 的 地 址 非 0, addr 就 已 经 是 一 个 符合 各 种 要 求 的 虚 存 地 址 了 。 我 们 回 到 
do mmap. pgoff( ) 嘻 继续 入 下 看 Cmm/mmap.c): 


- 183 . 


Linux 内 核 源 代码 情景 分 析 CLAD 
[sys mmap2( ) > do mmap2( ) > do_mmap_pgoff( )] 


262 /* Determine the object being mapped and call the appropriate 

263 * specific mapper. the address has already been validated, but 

264 * not unmapped, but the maps are removed from the list. 

265 */ 

266 vma = kmem cache alloc(vm area cachep, SLAB KERNEL); 

267 if (!vma) 

268 return —ENOMEM; 

269 

270 vma-»vm mm = mm; 

271 vma-»vm start = addr; 

272 vma-»vm end = addr + len; 

273 vma—>vm_flags = vm_flags(prot, flags) | mm-^def flags; 

274 

275 if (file) { 

276 VM_ClearReadHint (vma) ; 

277 vma-?vm raend = 0; 

218 

219 if (file-»f mode & FMODE READ) 

280 vma->vm flags |= VM MAYREAD | VM MAYWRITE : VM MAYEXEC; 

281 if (flags & MAP SHARED) { 

282 vma—>vm flags |= VM SHARED | VM MAYSHARE; 

283 

284 /* This looks strange, but when we don't have the file open 
285 * for writing, we can demote the shared mapping to a simpler 
286 * private mapping. That also takes care of a security hole 
287 * with ptrace( ) writing to a shared mapping without write 
288 * permissions. 

289 * 

290 * We leave the VM MAYSHARE bit on, just to get correct output 
291 * from /proc/xxx/maps. 

292 */ 

293 if (!(file-^f mode & FMODE WRITE)) 

294 vma-»vm flags &- ~ (YM MAYWRITE | VM SHARED); 

295 ) 

296 ) else { 

297 vma-»vm flags |= VM MAYREAD | VM MAYWRITE | VM MAYEXEC; 

298 if (flags & MAP SHARED) 

299 vma-»vm flags := VM SHARED | VM MAYSHARE; 

300 } 

301 vma->vm_page_prot = protection map[vma-^vm flags & OxOf]; 

302 vma-?vm ops = NULL; 

303 vma-?vm pgoff = pgoff; 

304 vma-2vm file ~ NULL; 

305 vma-?vm private data = NULL; 

306 

307 /* Clear old maps */ 
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308 error = -ENOMEM; 

309 if (do munmap(mm, addr, len)) 

310 goto free vma; 

311 

312 /* Check against address space limit. */ 

313 if ((mm->total_vm << PAGE SHIFT) + len 

314 > current-^rlim[RLIMIT AS]. rlim_cur) 

315 goto free vma; 

316 

317 /* Private writable mapping? Check memory availability. */ 
318 if ((vma— vm flags & (VM SHARED | VM WRITE)) -- VM WRITE && 
319 ! (flags & MAP. NORESERVE) && 

320 !'vm enough memory (len >> PAGE SHIFT)) 

321 goto free vma; 

322 


f XE SEC TH] AU A 7 vm. area. struct 数据 结构 , 所 以 通过 kmem. cache. alloc( ) 为 待 映 射 的 区 间 分 
配 一 个 ， 并 加 以 设置 。 我 们 不 妨 与 前 一 节 中 do brk( ) 的 代 但 作 一 比较 ， 在 圭 时 只 是 在 新 增 的 区 间 不 能 
与 已 有 的 区 间 合 并 时 , 才 分 配 了 一 个 vm area struct 数据 结构 ,上 而 这 里 却 是 无 条 件 的 。 以 前 我 们 提 到 过 ， 
属性 不 辣 的 区 段 不 能 共存 丁 同一 逻辑 区 间 中 ， 而 映射 到 一 个 特定 的 文件 也 是 一 种 属性 ， 所 以 总 是 要 为 
之 单独 建立 个 迪 辑 区 间 。 

如 果 调 用 do_mmap_pgoff( ) 时 的 file 结构 指针 为 0， 则 目的 仅 在 于 创建 虚 存 区 间 ， 或 者 说 仅 在 于 建 
立 从 物理 空间 刘 虚 存 区 间 的 上 映射。 而 旭 果 月 的 在 于 建立 从 文件 到 虚 存 区 间 的 映射 ， 那 就 要 把 为 文件 设 
置 的 访问 权限 考虑 进去 〈 见 275—296 行 )。 

注意 代码 中 的 303 行将 参数 pgoff 设置 到 vm, area, struct 数据 结构 中 的 vm_pgoff 字段 。 这 个 参数 代 
表 着 所 映射 内 容 在 文件 中 的 起 点 。 有 了 这 个 起 点 ， 发 生 缺 页 异常 时 就 可 以 根据 虚 存 地 址 计算 出 相应 页 
面 华文 件 中 的 位 置 。 所 以 ， 当 汤 并 映射 时 ， 对 于 文件 映射 页 面 不 需要 像 普 通 换 入 / 换 出 页 面 那样 在 页 
而 衣 项 中 指明 其 去 向 。 另 一 方面 ， 这 也 说 明了 为 什么 这 样 的 区 间 必 须 是 独立 的 。 

全 此 ， 代 老者 我 们 所 需 虚 人 存 区 间 的 数据 结构 已 经 创建 了 ， 只 是 尚未 插入 代表 当前 进程 虚 存 空 间 的 
mm struct 结构 中 。 可 是 ， 在 某 些 条 件 下 却 还 不 竺 不 将 它 撤 销 。 为 仁 么 呢 ? 这 里 调用 了 :个 函数 
do munmap( )。 它 检查 晶 标 地 址 在 当前 进程 的 虚 存 空间 是 省 已 经 在 使 用 ， 如 果 已 经 在 使 用 就 要 将 老 的 
映射 撤销 。 要 是 这 个 操作 失败 ， 邢 当然 不 能 重复 峡 射 同一 个 妥 标 地 址 ， 所 以 就 得 转移 种 free_vma， 把 
已 经 分 配 的 vm. area, struct 数据 结构 撤销 。 我 们 已 经 在 前 一 节 中 读 过 do_munmap( ) 的 代码。 也 许 读者 
会 感到 奇怪 ， 这 个 区 间 不 是 在 前 面 调 用 get_unmapped_area( ) 找 到 的 吗 ? 怎么 会 原来 就 已 映射 昵 ? [ebat 
头 去 注意 看 一 下 号 可 知道 ， 那 只 是 当 调用 参数 flags 中 的 标志 位 MAP_FIXED WOR, if “iby 
1 于 则 尚未 对 此 加 以 检查 。 除 此 之 外 , 还 有 两 个 情况 也 会 导致 撤销 已 经 分 配 的 vm. area. struct 数据 结构 : 
一 个 起 如 时 当前 进程 对 虚 存 空间 的 使 用 超出 了 为 其 设置 的 上 限 ; 田 -- 个 是 在 要 求 建立 山 当 前 进程 专用 
的 可 写 区 间 ， 而 物 埋 页 面 的 数量 已 经 CAIN) 不 是 。 

读者 也 许 还 柴 问 : 为 什么 不 把 对 所 有 条 件 的 检验 放 在 分 配 vm. area. struct 数据 结构 之 前 呢 ? 问题 在 
十 ， 在 通过 kmed cache alloc( ) 分 配 vm. area, struct 数据 结构 的 过 程 中 ， 有 可 能 会 发 生 供 这 种 数据 结构 
专用 的 slab 已 经 用 完 ， 而 不 得 不 分 配 更 多 物理 页 面 的 情 彤 。 出 分 印 物 理 页 面 的 过 程 ， 则 又 有 可 能 因 一 
时 不 能 满足 要 求 而 只 好 先 调度 别 的 进程 运行 。 这 样 ， 由 十 可 能 已 经 有 别 的 进程 或 线程 ， 特 别 是 由 本 进 
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Fe clone( ) 出 来 的 线程 ( 见 第 4 章 〉 运 行 过 了 ， 就 不 能 排除 这 些 条 件 已 经 改变 的 可 能 。 所 以 ， 读 者 在 内 
核 中 常常 可 以 看 到 先 分 配 某 项 资源 ， 然 后 检测 条 件 ， 如 果 条 件 不 符 再 将 资源 释放 〔 而 不 是 先 检测 条 件 ， 
后 分 配 资源 ) 的 情景 。 关 键 就 在 于 分 配 资源 的 过 程 中 是 否 有 可 能 发 生 调度 ， 以 及 其 他 进程 或 线程 的 运 
行 有 否 可 能 改变 这 些 条 件 。 以 这 里 的 第 三 个 条 件 为 例 ， 如 果 发 生 调度 ， 那 就 明显 是 可 能 改变 的 。 
继续 往 下 看 do_mmap_pgoff( ) 的 代码 《mm/mmap.c): 


[sys_mmap2( ) > do mmap2( ) > do mmap pgoff( )] 
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343 
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if (file) { 
if (vma-^vm flags & VM DENYWRITE) { 
error - deny write access(filo); 
if (error) 
goto free vma; 
correct wcount = 1; 
) 
vma-^?vm file = file; 
get file(file); 
error = file-^f op—mmap(file, vma); 
if (error) 
goto unmap and free vma; 
} else if (flags & MAP SHARED) { 
error - shmem zero setup(vma); 
if (error) 
goto free vma; 


} 


/* Can addr have changed?? 


* 

* Answer: Yes, several device drivers can do it in their 
* f_op->mmap method. -DaveM 

*/ 


flags = vma—>vm_ flags; 
addr = vma->vm start: 


insert vm struct (mm, vma); 
if (correct wcount) 
atomic inc(&file-^f dentry-^d inode-^i writecount); 


mm-^total vm += len >> PAGE SHIFT; 
if (flags & VM LOCKED) { 
mm-»locked vm += len >> PAGE SHIFT; 
make pages present(addr, addr + len); 
} 


return addr; 


unmap and free vma: 


if (correct wcount) 
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362 atomic_inc (&file->f_dentry—>d_inode->i_writecount) ; 
363 vma->vm file = NULL; 

364 fput (file); 

365 /* Undo any partial mapping done by a device driver. */ 
366 flush cache range(mm, vma-^vm start, vma-^vm end); 

367 zap page range(mm, vma-^5vm start, vma->vm end - vma->vm start); 
368 flush_tlb_range (mm, vma-^vm start, vma->vm end); 

369 free vma: 

370 kmem cache free(vm area cachep, vma); 

371 return error; 

372 } 


如 果 要 建立 的 是 从 文件 到 虚 存 区 间 的 映射 ， 而 在 调用 do mmap( ) 时 的 参数 flags 中 的 
MAP DENYWRITE 标志 位 为 1 (这 个 标志 位 在 前 面 273 行 引 用 的 宏 操 作 vm_flags( ) 中 转换 成 
VM_DENY WRITE), 那 就 表示 不 允许 通过 常规 的 文件 操作 访问 该 文件 ,所 以 要 调用 deny_write_access( ) 
排斥 常规 的 文件 操作 ， 详 多“ 文件 系统 ” - 章 中 的 有 关内 容 。 至 于 get_file( )， 其 作用 只 是 递增 file 结 
构 中 的 共享 计数 。 

我 们 在 这 里 暂 不 关心 为 共享 内 存 区 而 建立 的 映射 ， 所 以 跳 过 335—339 行 ， 将 来 在 讲 到 共享 内 存 区 
时 ， 还 要 回 过 来 看 shmem_zero_setup( ) 的 代码 。 

每 种 文件 系统 都 有 个 file operations 数据 结构 ， 其 中 的 函数 指针 mmap 提供 了 用 来 建立 从 该 类 文件 
到 虚 存 区 间 的 映射 的 操作 。 那 么 ， 具 体 到 Linux 的 Ext2 LRA, SRB AWE? 我们 米 看 Ext2 
文件 系统 的 file operations 数据 结构 (fs/ext2/file.c): 


100 struct file operations ext2 file operations = { 
105 mmap: generic file mmap, 


当 打开 一 个 文件 时 ,如果 所 打开 的 文件 在 一 个 Ext2 文件 系统 中 , 内 核 就 会 将 file 结构 中 的 指针 f_op 
设置 成 指向 这 个 数据 结构 ， 所 以 上 面 332 行 的 file->f_op->mmap 就 指向 generic file mmap( ). 3X4 £8 
数 的 代码 在 mm/filemap.c P: 


[sys mmap2( ) > do mmap2( ) > do mmap pgoff( ) > generic_file_mmap( )] 


1705 /* This is used for a general mmap of a disk file */ 

1706 

1707 int generic file mmap(siruct file * file, struct vm area struct * vma) 
1708 | 


1709 struct vm operations struct ** ops; 

1710 struct inode *inode = file-^f dentry-5d inode; 

1711 

1712 ops = &file private mmap; 

1713 if ((vma-^vm flags & VM SHARED) && (vma->vm flags & VM MAYWRITE)) { 
1714 if (!inode->i_mapping—>a ops—>writepage) 
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1715 return —EINVAL: 

1716 ops = &file shared mmap; 

1717 ) 

1718 if (linode-^i sb {| !S ISREG(inode-^i mode)) 
1719 return -EACCES; 

1720 if (!inode— i mapping-^a ops-^readpage) 
1721 return -ENOEXEC; 

1722 UPDATE_ATIME (inode) ; 

1723 vma-?vm ops = ops; 

1724 return 0; 

17225 ] 


这 个 函数 很 简单 ， 实 质 性 的 操作 就 是 1723 行将 虚 存 区 间 控 制 结构 中 的 指针 vm. ops 设置 成 ops» 
至 于 ops， 则 根据 映射 为 专 有 或 共享 而 分 别 指向 数据 结构 file private mmap & file shared. mmap. XW 
个 结构 均 定 义 于 mm/filemap.c: 


1686 /* 

1687 * Shared mappings need to be able to do the right thing at 
1688 * close/unmap/sync. They will also use the private file as 
1689 * backing-store for swapping.. 

1690 */ 

1691 static struct vm operations struct file shared mmap = | 
1692 nopage: filemap nopage, 

1693 Jes 

1694 

1695 /* 

1696 * Private mappings just need to be able to load in the map. 
1697 * 

1698 * (This is actually used for shared mappings as well, if we 
1699 * know they can' t ever get write permissions..) 

1700 */ 

1701 static struct vm operations struct file private mmap ~ { 
1702 nopage: filemap nopage, 

1703 }; 


数据 结构 的 初始 化 也 是 gcc 对 C 语言 所 作 改 进 之 -。 这 里 表示 具体 vm. operations struct 结构 中 除 
nopage 以 外 ， 所 有 成 分 的 初始 值 均 为 0 或 NULL， 而 nopage 的 初始 值 则 为 fjemap_nopage。 相 比 之 卜 ， 
在 老 版 本 中 则 必须 写成 INULL, NULL, filemap_nopage}j， 孝 样 ， 一 来 麻烦 ， 二 来 结构 中 各 字段 与 其 初始 
值 的 对 应 关系 也 不 直观 。 

两 个 结构 其 实 是 一 样 的， 都 只 是 为 缺 页 异常 提供 了 nopage 操作 。 此 外 ， 在 generic file mmap( ) 中 
还 检验 了 用 于 页 面 读 / 写 的 函数 是 否 存 在 《 见 1714 和 1720 行 )。 这 两 个 函数 应 该 由 文件 的 inode 数据 
结构 间接 地 提供 。 在 inode 结构 中 有 个 指针 i_mapping， 它 指向 一 个 address_space 数据 结构 ， 读 者 应 该 
回 到 “物理 页 面 的 使 用 和 周转 ” : 节 中 看 一 下 它 的 定义 。 我 们 这 里 关心 的 是 address_space 结构 中 的 指 
针 a_ops， 它 指向 一 个 address_space_operations 数据 结构 。 不 同 的 文件 系统 (页 面 交换 设备 可 以 看 作 龙 
一 种 特殊 的 文件 系统 》 有 不 同 的 address space operations 结构 。 对 于 Ext2 文件 系统 是 ext2_aops， 定 义 
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于 fs/ext2/inode.c |}; 


669 struct address_space_operations ext2_aops = { 
670 readpage: ext2 readpage, 

671 writepage: ext2_writepage, 

672 sync page: block sync page, 

673 prepare write: ext2 prepare write, 

674 commit write: generic commit write, 

675 bmap: ext2_bmap 

676 }; 


这 个 数据 结构 提供 了 用 来 读 / E ext2 文件 页 面 的 函数 ext2_readpage( ) 和 ext2, writepage( )。 这 些 有 
关 的 数据 结构 利 指针 也 是 在 打开 文件 时 设置 好 了 的 。 
完成 了 这 些 检查 和 处 理 ， 把 新 建立 的 vm_area_struct 结构 插入 到 当前 进程 的 mm_struct 结构 中 ， 就 
基本 完成 了 do mmap. pgoff( ) 的 操作 ， 仅 在 要 求 对 区 间 加 锁 时 才 调 用 make_pages_present( )， 建 立 起 初 
始 的 负面 映射 ， 这 个 函数 的 代码 已 经 在 前 一 节 中 看 到 过 了 。 
读者 也 许 感到 困惑 ， 在 文件 与 虚 存 区 间 之 间 建 立 映 射 难道 就 这 么 简单 ? 而 有 卫 我 们 根本 就 没有 看 到 
页 面 映射 的 建立 ! 其 实 ， 具 体 的 映射 是 非常 动态 、 经 常 在 变 的 。 所 谓 文件 与 虚 存 区 间 之 间 的 映射 包含 
着 两 个 环节 ，-… 是 物理 页 面 与 文件 映 象 之 间 的 换 入 / 换 出 ，-… 是 物理 页 面 与 虚 存 页 面 之 问 的 映射 。 这 
-者 都 是 动态 的 。 所 以 ， 重 要 的 并 不 是 建立 起 一 个 特定 的 映射 ， 而 是 建立 起 一 套 机 制 ， 使 得 一 旦 需要 
时 就 可 以 根据 当时 的 其 体 情 况 建立 起 新 的 映射 。 另 一 方面 ， 在 计算 机 技术 中 有 -…- 个 称 为 “lazy 
computation ”的 概念 ， 就 是 说 有 些 为 将 来 作 某 种 准备 而 进行 的 操作 (计算) 可 能 并 无 必要 ， 所 以 应 该 
推迟 到 真正 需要 时 才 进 行 。 这 是 因为 实际 运行 中 的 情况 千变万化 ， 有 时 候 花 了 老大 的 劲 才 完 成 了 准备 ， 
实际 上 却 根本 没有 用 到 或 者 只 用 到 了 很 小 一 部 分 ， 从 而 造成 了 浪费 。 就 以 这 里 的 文件 映射 来 说 ， 也 许 
映射 了 100 个 页 面 ， 而 实际 上 在 相当 长 的 时 间 蜂 只 用 到 了 其 中 的 一 个 负面 ， 而 映射 99 个 页 面 的 开销 却 
是 不 能 忽略 不 计 的 。 何 况 ， 区 期 不 用 的 页 面 述 得 费劲 把 它们 换 出 哩 。 考 虑 到 这 些 因素 ， 还 不 如 到 外 正 
需要 用 到 一 个 页 而 时 再 来 建立 该 负面 的 映射 用 人 到 几 个 页 面 就 映射 几 个 页 商 。 当 然 ， 那 样 很 可 能 会 因 
为 分 散 处 理 而 使 具体 映射 每 一 个 页 面 的 开销 增加 。 所 以 这 里 有 个 利弊 权衡 的 问题 ， 具 体 的 决定 往往 要 
建立 在 统计 数据 的 基础 上 。 这 里 正 是 运用 了 这 个 概念 ， 把 具体 页 而 的 映射 推迟 到 真 止 需要 的 时 候 才 进 
行 。 共 体 地 ， 就 是 为 映射 的 建立 、 物 理 负 面 的 换 入 和 换 出 〈 以 及 映射 的 拆除 》 分别 准 备 … 些 函数 ， 这 
就 是 filemap_nopage( ). ext2 readpage( ) 以 及 ext2 writepage( ). 
那么 ， 什 么 时 候 ， 由 谁 来 调用 这 些 函 数 呢 ? 
(1) 首先 ， 当 这 个 区 闻 中 的 一 个 页 面 首次 受到 访问 时 ， 会 由 于 页 面 无 映射 而 发 生 缺 贞 异 常 ， 相 应 
的 异常 处 理 称 序 为 do_no_page( )。 对 于 Ext2 文件 系统 ，do_no_page( ) 会 通过 ext2_readpage( ) 
分 配 一 个 空闲 内 存 页 而 并 从 文件 读 入 相应 的 页 面 ， 然 后 建立 起 映射 。 
Q) 建立 起 映射 以 后 ， 对 页 面 的 写 操作 使 页 面 变 “ 脏 ” 但 是 页 面 的 内 容 并 不 立即 写 回 文件 中 ， 
而 由 内 核 线程 bdfltush( ) 周 期 性 运行 时 通过 page_launder( ) 问 接地 调用 ext2_writepage( )， 将 页 
面 的 内 容 写 入 文件 。 如 果 负 而 很 长 时 间 没 有 受到 访问 ， 则 页 面 会 耗 尽 它 的 寿命 ， 从 出 在 一 次 
try to swap out( ) 中 被 解除 映射 而 转 入 不 活跃 状态 。 如 果 页 面 是 “及 ”的 ， 则 也 会 在 
page launder( ) 中 调用 ext2_writepage( )。 我 们 在 try. to. swap. out( ) 的 代 僻 中 曾 看 到 ， 对 用 十 
文件 映 册 的 页 面 与 普通 的 换 入 / 换 出 页 面 有 不 同 的 处 理 。 对 于 前 首 是 解除 页 面 映射 ， 拒 页 面 
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表 项 设置 成 0， 市 对 后 者 是 断 并 页 面 映射 ， 使 负面 表 项 指 问 般 上 页 面 。 
解除 了 映射 的 页 面 在 再 次 受到 访问 时 义 会 发 生 缺 页 异常 ， 仍 旧 因 页 面 大 映射 而 进入 
do_no_page( )， 而 不 像 换 入 / HRI DUDA REE A do_swap_page( )。 


我 们 把 这 些 情景 留 给 读者 作为 “家 庭 作 业 ”。 


除 mmap( ) 以 外 ，Linux 内 核 还 提供 了 几 个 与 之 有 关 的 系统 调用 ， 作 为 对 mmap ) 的 补充 。 限 于 篇 
幅 ， 我 们 只 把 它们 列 出 十 下 有 兴趣 或 需要 的 读者 可 自行 阅读 这 些 函 数 的 源 代码 。 


munmap(void *start, size t length) 

解除 由 mmap ) 所 建立 的 文件 映射 。 

mremap(void *old_address, size t old size, size t new, size, unsigned long flags) 

这 是 Linux 所 特有 的 ， 用 来 扩大 或 缩小 已 经 映射 的 一 块 空间 。 

msync(const void *start, size t length, int flags) 

把 一 个 打开 的 文件 映射 到 进程 的 虚 存 空间 并 进行 读 写 之 后 ， 可 以 用 msyne ( ) 将 从 地 址 start FF 
始 的 length 个 字 节 “冲刷 ”到 实际 的 文件 中 ， 使 得 文件 的 内 容 与 内 存 中 的 内 容 一 敏 。 参 数 flag 
中 有 三 个 标志 位 ， 分 别 为 MS_SYNC、MS_ASYNS 和 MS_INVALIDATE。MS_SYNC 表示 冲 
刷 立 刻 进行 ， 并 且 系 统 调用 应 该 等 冲刷 完成 时 才 返 回 。MS_ASYNC 则 表示 冲刷 可 以 异步 地 完 
成 ， 系 统 调用 应 立即 返回 ， 内 核 可 以 在 适当 的 时 机 进行 冲刷 。 而 MS._INVALIDATE， 那 是 为 
同一 文件 被 多 次 (由 多 个 进程 ) 映射 的 情况 而 设置 的 ， 表 示 同 一 文件 的 其 他 映 象 应 被 视 作 无 效 
而 应 加 以 刷新 。 

mlock(const void *addr, size t len) 

虚 存 空间 被 映射 到 物理 空间 以 后 ， 一 般 而 言 是 由 内 核 运用 LRU 算法 来 决定 页 面 的 换 入 或 换 出 
的 。 但 有 时 候 某 些 进 程 因 运 行 效率 的 考虑 党 要 将 某 些 页 面 “ 锁 定 ” 在 内 存 中 ， 这 时 候 就 可 以 用 
mlock( ) 将 虚 存 中 从 addr 开始 的 len 个 字 节 ， 实 际 上 是 这 些 字 节 所 在 的 页 面 锁 定 在 内 存 中 ， 不 
允许 换 出 。 

mprotect (const void *addr, size t len, int prot) 


最 后 ，mprotect( ) 用 米 改 变 一 段 虚 存 空间 的 保护 属性 。 
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Cexception) 处 理 的 原理 和 机 制 不 作 深入 的 介绍 。 缺 乏 这 方面 基础 的 读者 不 妨 先 阅 读 - -些微 处 理 器 方 
而 的 有 关 材 料 。 不 过 ， 我 们 也 并 不 要 求 读者 对 相关 内 容 已 经 具备 了 很 深入 的 理解 。 事 实 上， 随 着 我 们 
的 介绍 和 分 析 ， 特 别 是 随 着 各 个 情景 的 发 展 和 代码 的 阅读 ， 读 者 自 会 逐步 地 加 深 理 解 。 

先 简 妆 提 一 下 ， 中 断 有 两 种 ，- -种 是 由 CPU 外 部 产生 的 ， 另 一 种 是 由 CPU 本 身 在 执行 程序 的 过 
程 中 产生 的 。 

外 部 中 断 ， 就 是 通常 所 讲 的 “中 断 ”(interupD。 对 寺 执 行 中 的 软件 来 说 ， 这 种 中 断 的 发 生 完 全 是 
“ 弄 步 ”的 ， 根 本 无 法 预测 此 类 中 断 会 在 什么 时 候 发 生 。 因 此 ，CPU (或 者 软件 ) 对 外 部 中 断 的 响应 
完全 是 被 动 的 。 不 过 ， 软 件 可 以 通过 “关中 断 ” 指 令 关闭 对 中 断 的 响应 ， 把 它 “反映 情况 ” 的 途径 拘 
断 ， 这 样 就 可 以 眼 不 见 心 不 烦 了 《这 里 不 考虑 “不 可 屏蔽 中 断 写 。 

由 软件 产生 的 中 断 则 不 同 ， 它 是 由 专 设 的 指令 ， 如 X86 中 的 “INT n”"， 在 程序 路 有 意 地 产生 的 ， 
PEA, "Ip" B. HE CPU 执行 了 -条 INT 指令 ， 就 知道 在 开始 执行 下 一 条 指令 之 前 一 定 
要 先进 入 中 断 服 务 程序 。 这 种 主动 的 中 断 称 为 “陷阱 ”(trap)。 

此 外 ， 还 有 一 种 与 中 断 相似 的 机 制 称 为 “异常 ”(exception)， 一 般 也 是 异步 的 ， 多 半 由 于 “不 小 
心 ” 犯 了 斋 才 发 生 。 例 如 ， 当 你 在 程序 中 发 出 一 条 除法 指令 DIV， 而 除数 为 0 时， 就 会 发 生 一 次 异常 。 
这 多 半 是 因为 不 小 心 ， 而 不 是 故意 的 ， 所 以 也 是 被 动 的 。 当 然 ， 也 不 排除 故意 的 可 能 性 。 我 们 在 第 2 
章 中 看 到 过 通过 页 而 异常 扩展 堆栈 区 间 的 情景 ， 那 就 是 故意 安排 的 。 

这 样 ， 一 共 就 有 三 种 类 似 的 机 制 ， 即 中 断 、 陷 阱 以 及 异常 。 

但 研 ， 不 管 是 外 部 产生 的 中 断 还 是 陷阱 ， 或 者 异常 ， 不 管 是 无 意 的 、 被 动 的 ， 还 是 故意 的 、 主 动 
的 ，CPU 的 响应 过 程 却 基本 上 - - 致 。 这 就 是 ， 在 执行 完 当 前 指令 以 后 ， 或 者 在 执行 当前 指令 的 中 途 ， 
就 很 据 中 断 源 所 提供 的 “中 断 向 量 ”， 在 内 存 中 找到 相应 的 服务 程序 入 口 首 调 用 该 服务 称 序 。 外 部 中 断 
的 向 量 是 由 软件 或 硬件 没 置 好 了 的 ， 陷 阱 的 向 量 是 在 “ 自 陷 ”指令 中 发 出 的 〈INT n 中 的 n), 而 各 种 
异常 的 向 量 则 昨 CPU 的 便 件 结构 中 预先 规定 好 的 。 这 样 ， 这 些 不 同 的 情况 就 因 中 疡 向 量 的 不 同 而 互相 
区 分 开 来 了 。 因 此 ， 在 实践 中 常常 将 这 些 不 同 的 情况 作为 - -种 统一 的 模式 加 以 考虑 和 实现 ， 而 且 常 常 
统称 为 “小 断 ”。 至 十 系统 调用 ， 一 般 痢 是 通过 INT 指令 实现 的 ， 所 以 也 与 中 断 密切 相关 。 

本 草 前 一 部 分 内 容 讲 中 断 ， 包 括 中 断 的 硬件 支持 、 软 件 处 理 以 及 中 断 响应 和 服务 的 过 程 ， 后 -部 
分 则 介绍 系统 调用 的 有 关内 容 。 
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3.1 X86 CPU 对 中 断 的 硬件 支持 


本 节 不 讨论 严格 意义 上 的 中 断 响应 全 过 程 〈 比 如 说 ， 怎 样 获得 中 断 向 量 )， 而 是 着 重 讨 论 CPU 在 
响应 中 断 时 ， 即 在 得 到 了 中 断 向 量 以 后 ， 怎 样 进入 相应 的 中 断 服务 程序 的 过 程 。 这 是 从 操作 系统 的 角 
度 需要 关心 的 问题 。 Intel X86 CPU 支持 256 个 不 同 的 中 断 向 量 , 这 一 点 例 今 未 变 。 可 是 , 早期 X86 CPU 
的 中 断 响 应 机 制 是 非常 原始 、 非 常 简单 的 。 在 实地 址 横 式 中 ，CPU 把 内 存 中 从 0 开始 的 1K FE 
一 个 中 断 向 量 表 。 表 中 的 等 个 表 项 后 四 个 字 节 ， 由 两 个 字 节 的 段 地 址 和 两 个 字 节 的 位 移 组 成 。 这 样 构 
成 的 地 址 便 是 相应 中 断 服 务 程序 的 入 口 地 址 。 这 与 16 位 实地 址 模式 中 的 寻 址 方式 也 是 一 致 的 。 但 是， 
在 这 样 的 机 制 上 是 不 能 构筑 现代 意义 的 操作 系统 的 ， 即 使 把 16 位 寻 址 改 成 32 位 寻 址 ， 即 使 实现 了 页 
式 存 储 管理 ， 也 还 是 无 济 于 事 。 原 因 在 于 ， 这 个 机 制 中 并 没有 提供 空间 切换 ， 或 者 说 运行 模式 切换 的 
手段 ,为 了 理解 这 :点 ,让 我 们 来 看 看 其 他 的 CPU 是 怎么 做 的 ,读者 也 许 知道 ,早期 的 UNIX 是 在 PDP-11 
上 实现 的 。 PDP-11 的 CPU 中 有 一 个 与 X86 的 FLAGS 寄存 器 相 类 似 的 控制 状态 寄存 器 , 称 为 PSW (处 
理 器 状态 字 )。PSW 中 有 一 个 位 段 决定 了 CPU 的 当前 运行 优先 级 利 模 虑 (系统 或 用 户 )。 在 用户 程序 中 
是 不 能 道 过 直接 修改 PSW 来 达到 调 高 优先 级 的 目的 的 。 在 PDP-11 的 中 断 向 量 表 中 ， 每 个 表 项 由 两 部 
分 组 成 ， -部 分 是 相应 中 断 服务 程序 的 入 口 地 三， 另 -部 分 就 是 当 CPU 进入 中 断 服 务 程序 后 的 PSW。 
当然 ， 中 断 向 量 表 的 内 容 只 有 当 CPU 处 于 系统 模式 时 才能 改变 。 当 中 断 发 生 时 ，CPU 从 向 量 表 中 将 
PSW 装 入 其 控制 状态 寄存 器 ， 而 将 中 断 服 务 程序 的 入 口 地 址 装 入 程序 计数 器 ， 从 而 达 到 既 转 入 了 相应 
的 中 断 服务 程序 ， 又 从 :种 运行 模式 切换 到 另 ，- 种 运行 异 式 〈 或 优先 级 别 ) 的 双重 日 的 。 至 于 原来 的 
PSW 则 随 中 断 返回 地址 一 起 被 压 入 堆栈 ,以便 CPU 从 中 断 服务 程序 返回 时 能 回 到 原来 的 运行 模式 。 这 
样 ， 就 很 白 然 地 实现 了 运行 状态 的 切换 。CPU 平时 处 于 用 户 状 态 ， 元 论 是 因为 外 部 中 断 还 是 系统 调用 
(由 软件 产生 的 中 断 ),， 或 是 菜 种 异常 ， 都 会 通过 中 汤 向 量 表 进入 系统 状态 ， 执 行 完 中 断 服 务 程序 后 返 
回 时 便 又 恢复 原状 ， 回 旬 用 户 状 态 。 相 比 之 下 ， 我 们 可 以 清楚 地 看 到 ，X86 实地 址 模式 下 的 中 断 响应 
过 程 所 缺少 的 就 是 类 似 于 PDP-11 对 PSW 的 处 理 。 

因此 ，Intel 在 实现 保护 模式 时 ， 对 CPU 的 中 断 响 应 机 制作 了 大 幅度 的 修改 。 

首先 , 中 断 向 量 表 中 的 表 项 从 单纯 的 入 口 地 址 改 成 了 类 似 于 PSW 加 入 口 地 址 并 且 更 为 复杂 的 描述 
项 ， 称 为 “ 门 ”(gate)， 意 思 是 当中 断 发 生 时 必须 先 通过 这 些 门 ， 才 能 进入 相应 的 服务 程序 。 但 万 ， 这 
样 的 门 并 不 光 是 为 中 断 而 设 的 ， 只 要 想 切 换 CPU 的 运行 状态 ， 即 其 优先 级 别 ， 例 如 从 用 户 的 3 级 进入 
系统 的 0 级 , 就 都 要 通过 道门 。 几 从 用 户 态 进入 系统 态 的 途径 也 并 不 内 限 二 中断 (或 异常 , REBO, 
还 可 以 通过 子 程序 调用 指令 CALL 和 转移 指令 IMP 来 达到 目的 。 而 及， 当中 断 发 生 时 不 但 可 以 切换 
CPU 的 运行 状态 并 转 入 中 断 服 务 程序 ， 还 可 以 安排 进行 一 次 任务 切换 《所 谓 “ 上 下 文 切换 ”， 立 即 切 
换 到 另 一 个 进程 。 因 此 在 操作 系统 中 可 以 设立 一 个 “中 断 服务 进程 〈 任 务 )”， 等 当中 断 发 生 时 就 切换 
到 该 进程 。 

接 不 同 的 用 途 和 月 的 ，CPU 中 -共有 四 种 门 ， 即 任务 门 《task gate)、 中 汤 门 (interupt gate)、 陷 
UI] Ctrap gate》 以 及 调用 门 Ceall gate)。 其 中 除 任务 门 外 其 他 三 种 门 的 结构 基本 相同 ， 不 过 调用 门 并 
不 是 与 中 断 向 量 表 相 联系 的 。 

先 看 任务 门 ， 其 大 小 为 64 位 ， 结 构 如 图 3.1 Bras. 
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图 3.1 任务 门 结构 图 


TSS 段 选择 色 的 作用 和 段 寄 存 器 CS. DS 等 相似 ， 通 过 GDT 或 LDT 指向 特 妹 的 “系统 段 ” 路 的 
-种 ， 称 为 “任务 状态 段 ”(task_state segment) TSS. TSS 实际 上 是 一 个 用 来 保存 任务 运行 “现场 ”的 
数据 结构 ， 其 中 包括 CPU 中 所 有 与 具体 进程 有 关 的 寄存 器 的 内 容 〈 包 仿真 面 目录 指 针 CR3)， 还 包括 
了 三 个 堆栈 指针 。 中 断 发 生 时 ，CPU 在 中 断 向 量 表 中 找到 相应 的 表 项 。 如 果 此 表 项 起 MES, Uf 
日 通过 了 优先 级 别 的 检查 ，CPU 就 会 将 当前 任务 的 运行 现场 保存 在 相应 的 TSS 中 ， 并 将 任务 门 所 指 癌 
的 TSS 作为 当前 任务 ， 将 其 内 容 装 入 CPU 中 的 各 个 寄存 器 ， 从 而 完成 了 一 次 任务 的 切换 。 为 此 目的 ， 
CPU 中 义 增 设 了 :个 “任务 寄存 器 ”TR， 用 来 指向 当前 任务 的 TSS。 在 Linux 内 核 中 ， 一 个 什 务 就 是 
一 个 进程 ,但 是 进程 的 “控制 块 ”， 即 task. struct 结构 小 需 要 存放 更 多 的 信息 。 所 以 ， 从 这 个 意义 上 讲 ， 
Linux 的 进程 义 并 不 完全 是 Intel 设计 意图 中 的 任务 。 读 者 后 面 就 会 看 到 ，Linux 内 核 计 不 采用 任务 门 作 
为 进程 切换 的 手段 。 通过 任务 门 切换 到 -~ 个 新 的 任务 并 不 是 惟一 的 途径 , 例如 在 程序 中 也 可 以 用 CALL 
指令 或 JMP 指令 通过 调用 门 达到 同样 的 目的 。DPL 位 段 的 作用 后 面 还 费 讨 论 。 

除 任务 门 外 ， 其 余 三 种 门 的 结构 基本 相同 ， 千 个 门 的 大 小 也 都 是 64 位 ， 见 图 3.2。 

16 位 3 位 5 位 16 位 16 位 
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永远 为 0 
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P 标志 位 ， 表 示 在 内 存 









图 3.2 中 断 门 、 陷 阱 门 和 调用 门 结构 图 


三 种 门 之 间 的 不 同 之 处 在 于 3 位 的 类 型 码 。 中 断 门 的 类 型 码 赴 110， 陷 阱 门 的 类 型 码 是 111， 和 而 调 
用 门 的 类 型 码 是 100。 与 任务 门 相 比 ,不 同 之 处 主要 在 十 : 在 任务 门 中 不 需要 使 用 段 内 位 移 ， 因 为 任务 
门 并 不 指向 某 一 个 子 程序 的 入 门 ，TSS 本 身 是 作为 一 个 段 来 对 待 的 ， 而 中 断 门 、 陷 阱 门 和 调用 门 则 者 
要 指 癌 一 个 子 程序 ， 所 以 必须 结合 使 用 段 选择 码 和 段 内 位 移 。 此 外 ， 什 务 门 中 相对 于 D 标志 位 的 位 置 
[永远 是 0。 
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中 断 门 和 陷阱 门 在 使 用 上 的 区 别 不 在 十 中 断 是 外 部 产生 的 或 是 由 CPU 本 身 产 生 的 ， 出 是 在 十 通过 
中 断 门 进 入 中 断 服务 程序 时 CPU 会 白 动 将 中 渐 关 闭 , 也 就 是 将 CPU 中 EFLAGS 寄存 器 的 下 标志 位 清 
成 0， 以 防 骨 套 中 断 的 发 生 ， 而 在 通过 陷阱 门 进入 服务 程序 时 则 维持 TE 标志 位 不 变 。 这 就 是 中 断 门 和 
陷阱 门 的 惟一 区 别 。 

不 管 是 什么 门 ， 都 通过 段 选择 码 指 身 个 存储 段 。 段 选择 码 的 作用 与 普通 的 段 寄 存 器 一 样 。 我 们 
在 第 2 章 中 小 过 ， 在 保护 模式 下 段 寄 存 嚣 的 内 容 并 不 直接 指向 一 个 段 的 起 始 地 址 ， 而 是 指向 由 GDTR 
或 LDTR RENT RRA HPA, TULA MRA “BS”. BP SRE GDTR 还 是 
由 LDTR PTB RU EA. WR CT Be EAS PA — TES. TE Linux 内 核 中 ， 实 际 上 只 使 用 
全 局 段 描述 表 GDT， 而 局 部 段 描述 表 LDT 只 是 在 特殊 应 用 中 主要 是 WNE) 才 使 用 。 对 于 中 断 门 、 
陷阱 门 和 调用 门 米 说 ， 段 描述 表 中 的 相应 表 项 显然 应 该 是 一 个 代码 段 描述 项 。 而 任务 门 所 指向 的 描述 
项 , 则 是 专门 为 TSS 而 设 的 TSS 描述 项 .TSS 描述 项 的 结构 与 我 们 在 第 2 章 中 所 讲 的 基本 上 是 相同 的 ， 
但 是 bit44 的 S 标志 位 为 0， 表 示 不 是 一般 的 代码 段 或 数据 段 。 

每 个 段 描 述 项 中 都 有 - :个 DPL 位 段 ， 即 “描述 项 优先 级 别 ” 位 段 。 当 CPU 通过 中 断 门 找到 一 个 
代码 段 描述 项 ， 并 进而 转 入 相应 的 服务 程序 时 ， 就 把 这 个 代码 段 描述 项 装 入 CPU 中 ， 而 描述 项 的 DPL 
MER CPU 的 当前 运行 级 别 ， 称 为 CPL。 这 与 我 们 在 前 面 所 说 的 PDP-11 在 中 断 时 从 向 量 表 中 同时 装 
A PSW 和 服务 程序 入 山地 址 是 一 致 的 。 可是, 在 中 断 门 中 也 有 一 个 PPL,， 那 是 十 什么 用 的 呢 ? xxu 
要 讲 到 1386 的 保护 模式 中 对 运行 和 访问 级 别 进行 检查 比 对 的 机 制 了 。 

Intel 在 1386CPU 中 实现 了 一 套 可 谓 复 杂 得 出 奇 的 优先 级 别 检验 机 制 。 我 们 在 这 里 只 根据 Linux 内 
核 的 实现 介绍 其 中 一 部 分 。 由 于 Linux 内 核 避 开 了 这 套 机 制 中 最 复杂 的 部 分 ， 例 如 不 使 用 任务 门 ， 基 
本 上 也 不 使 用 调用 门 《不 过 为 了 兼容 性 的 要 求 确实 支持 道 过 调用 门 来 进入 系统 调用 ， 但 不 是 主流 )， 8 
说 在 这 里 我 们 只 关心 对 代码 段 的 访问 ， 所 以 剩 下 的 部 分 就 不 太 复杂 了 。 

当 通 过 一 条 INT 指令 进入 一 个 中 断 服务 程序 时 ， 在 指令 中 给 出 一 个 中 断 向 量 。CPU 先 根据 该 向 量 
在 中 断 向 量 表 中 找到 一 扇 门 (描述 项 )， 在 这 种 情况 下 一 般 总 是 中 断 门 。 然 后 ， 就 要 将 这 个 门 的 DPL 
与 CPU 的 CPL 相 比 ，CPL 必须 小 十 或 等 十 DPL， 也 就 是 优先 级 别 不 低 于 DPL, JERIA]. A 
ip, 如 果 中 断 是 由 外 部 产生 或 是 因 CPU 异常 而 产生 的 话 , 那 就 免 去 了 这 一 层 检 验 。 穿 过 了 中 断 门 之 后 ， 
还 要 进一步 将 目标 代码 段 描述 项 中 的 DPL 与 CPL 比较 ， 日 标 段 的 DPL 必须 小 于 或 等 于 CPL。 也 就 是 
说 ， 通 过 中 断 门 时 只 允许 保持 或 提升 CPU 的 运行 级 别 ， 而 不 允许 降低 其 运行 级 别 。 这 两 个 环节 中 的 任 
何 -… 个 失败 都 会 产生 -次 全 [而 保 护 异 常 (general_protection exception). 

进入 中 断 服务 程序 时 ，CPU 要 将 当前 EFLAGS 寄存 占 的 内 容 以 及 返回 地 址 讨 入 堆栈 ， 返 回 地 址 是 
由 段 寄存 器 CS 的 内 容 利 取 指令 指针 EIP 的 内 容 共 同 组 成 的 。 如 果 中 断 是 由 异常 引起 的 , 则 还 要 将 一 个 
表示 异常 原因 的 出 错 代 伺 也 压 入 谁 栈 。 进 一 步 ， 如 果 中 断 服 务 程序 的 运行 级 别 ， 也 就 是 日 标 代码 段 的 
DPL， 与 中 断 发 生 时 的 CPL 不 同 ， 那 就 要 引起 更 换 堆栈 。 前 面 提 到 过 ，TSS 结构 中 除 所 有 常规 的 寄存 
器 内 容 (包括 当前 的 SS 和 ESP) 外 ， 还 有 三 个 额外 的 堆栈 指针 CSS 加 ESP)。 这 二 个 额外 的 堆栈 指针 
分 别 用 于 当 CPU 在 日 标 代码 段 中 的 运行 级 别 为 0，1 以 及 2 时 。 所 以 ，CPU 根据 寄存 器 TR 的 内 容 找 
到 当前 TSS 结构 ， 并 根据 日 标 代码 段 的 DPL， 从 这 TSS 结构 中 取出 新 的 堆栈 指针 《SS 加 ESP), $f 
入 其 堆栈 段 寄 存 器 SS 和 堆栈 指针 《寄存 器 ) ESP， 达 到 更 换 堆栈 的 目的 。 在 这 种 情况 下 ，CPU BE 
将 EFLAGS、 返 回 地 址 以 及 出 错 代 码 压 入 堆栈 ， 还 此 先 将 原来 的 堆栈 指针 也 讨 入 堆 楼 《新 堆栈 )。 示 意 
图 3.3 也 许 有 助 于 埋 解 。 
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Q) 运行 级 别 改 变 
图 3. 3 中 断 服务 程序 堆栈 示意 图 


具体 到 Linux 内 核 。 当 中 断 发 生 在 用 户 状 态 、 也 就 是 CPU 在 用 户 空间 中 运行 时 ， 由 十 用 户 态 的 运 
行 级 别 为 3， 而 在 内 核 中 的 中 斯 服务 程序 的 运行 级 别 为 0， 所 以 会 引起 堆栈 的 更 换 。 也 就 是 说 ， 从 用 户 
堆栈 切换 到 系统 堆栈 。 而 当中 断 发 牛 在 系统 状态 时 ， 也 就 是 当 CPU 在 内 核 中 运行 时 ， 则 不 会 更 换 堆 栈 。 

最 后 ， 在 保护 模式 中 ， 中 断 向 量 表 在 内 存 中 的 位 置 也 不 再 限于 从 地 址 0 开始 的 地 方 ， 而 是 像 GDT 
和 LDT 那样 可 以 放 在 内 存 中 的 任何 地 方 。 为 此 目的 ， 在 CPU 中 又 增设 了 一 个 寄存 器 IDTR， 指 向 当前 
中 断 向 量 表 IDT， 或 者 说 当前 中 断 描述 表 。 

图 3.4 的 示意 说 明了 i386 保护 模式 下 的 中 断 机 制 在 采 几 中 断 门 或 陷阱 门 时 的 结构 。 

实际 的 1386 系统 结构 中 的 有 关机 制 比 上 面 讲 的 还 此 复杂 ， 我 们 略 去 了 其 中 与 Linux 内 核实 现 无 关 
的 内 容 。 这 也 从 另 一 个 角度 说 明 ， 对 于 像 Linux 这 样 的 操作 系统 《事实 证 明 是 功能 最 强 ， 并 且 最 稳定 
的 系统 之 一 ) 来 说 ，i386 系统 结构 中 的 许多 内 容 是 不 必要 的 ， 甚 全 是 画蛇添足 的 ， 难 怪 有 些 学 者 批评 
Intel 将 1386 的 系统 结构 过 于 复杂 化 了 。 当 然 ， 也 有 可 能 将 米 会 出 现 一 些 新 的 技术 ， 从 而 证 明 Intel 是 有 
远见 的 ， 我 们 拭目以待 。 如 果 说 ， 在 能 达到 相同 目标 的 前 提 下 简单 就 是 美 ， 那 么 1386 系统 结构 显然 是 
不 美的 。 而 相 比 之 下 ，Linux 内 核 的 实现 倒 确 实 是 -种 美 。 当 然 ， 不 管 怎么 说 ，i386 的 系统 结构 能 够 满 
JER Linux 这 样 的 现代 操作 系统 的 需要 ， 却 是 毫 匹 疑义 的 。 
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32 中断 向 量 表 IDT 的 初始 化 


Linux 内 核 在 初始 化 阶段 完成 了 对 页 式 虚 存 管理 的 初始 化 以 后 , 便 凋 用 trap_int( ) 和 init_IRQ( ) 两 个 
函数 进行 中 断 机 制 的 初始 化 .其 中 trap_init( ) 主 要 是 对 一 些 系 统 保留 的 中 断 向 量 的 初始 化 ,而 init_TRQ() 
则 主要 是 用 于 外 设 的 中 断 。 

PÁX trap, init( ) 症 在 arch/i386/kernel/traps.c 中 定义 的 : 


949 void | init trap_init (void) 


950 { 

951 #ifdef CONFIG EISA 

952 if (isa read] (OxOFFED9) == ' E +C T <<8)+( S' <<16)+C A’ <<24)) 
953 ETSA bus = 1; 

954 Hendi f 

955 

956 set trap gate(0,&divide error); 

957 set trap gate(l,&debug) ; 

958 set intr gale(2, &nmi) ; 

959 set system gate(3,&int3); /xy int3-5 can be called from all */ 
960 set system gate (4, &overflow); 
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961 set system gate(5, &bounds) ; 

962 set trap gate(6,&invalid op); 

963 set trap gate(7, &device not available); 

964 set trap gate(8, &double fault); 

965 set trap gate(9, &coprocessor segment overrun); 
966 set trap gate(10, &invalid TSS); 

967 set trap gate(1l,&segment not present); 

968 set trap gate(12,&stack segment); 

969 set trap gate(13,&general protection); 

970 set trap gate(14, &page fault); 

971 set trap gate(15,&spurious interrupt bug); 

972 set trap gate(16, &coprocessor error); 

973 set trap gate(17, &alignment check); 

974 set trap gate(18, &machine check); 

975 set trap gate (19, &simd coprocessor error); 

976 

977 set system gate(SYSCALL VECTOR, &system call); 
978 

979 /* 

980 * default LDT is a single-entry callgate to lcal17 for iBCS 
981 * and a callgate to 1call27 for Solaris/x86 binaries 
982 */ 

983 set call gate(&default ldt[0], Icall7); 

984 set call gate(&default ldt[4], 1ca1127) ; 

985 

986 /* 

987 * Should be a barrier for any external CPU state. 
988 */ 

989 cpu init( ); 

990 

991 Bifde( CONFIG X86 VISWS APIC 

992 superio init( ); 

993 lithium init( ); 

994 cobalt init( ) ; 

995 #endif 

996  ] 


Pere HSE Be PA RRIF SAA 19 个 陷阱 门 ， 这 些 中 斯 向 量 都 是 CPU 保留 用 于 异常 处 理 的 。 例 
如 ， 中 斯 向 量 14 就 是 为 页 面 异 常 保留 的 ，CPU 硬件 在 页面 映 射 及 访问 的 过 程 中 发 生 问 题 〈 如 缺 商 )， 
就 会 产生 一 次 以 14(0xe) 为 中 断 向 晶 的 异常 。 操 作 系 统 的 设计 和 实现 必须 遵守 这 些 规定 。 

然后 是 对 系统 调用 向 量 的 初始 化 ， 常 数 SYSCALL VECTOR 在 include/asm i386/hw. irq.h 中 定义 
为 0x80， 所 以 执行 一 条 “INT 0x80” 指 令 就 是 进行 一 次 系统 调用 。 

Linux 操作 系统 本 身 并 不 使 用 调用 门 ， 但 是 有 些 Unix. 变种 已 经 用 了 调用 门 来 实现 系统 调用 ， 如 注 
释 中 所 说 的 iBCS 和 Solaris/X86。 为 了 与 这 些 系 统 上 编译 的 应 用 程序 可 执行 代码 相 兼 容 ，Linux 内 核 也 
相应 设置 了 两 个 调用 门 ， 983 行 和 984 行 就 是 对 这 两 个 调用 门 的 初始 化 。 由 十 我 们 在 这 里 并 不 关心 SGT 
公司 的 特殊 工作 站 显示 设备 ， 所 以 就 略 去 了 从 991 行 开始 的 几 行 条 件 编译 代 个 。 
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从 程序 中 可 以 看 到 ， 这 里 用 了 三 个 函数 来 进行 这 些 表 项 的 初始 化 ， 那 就 是 set_trap_gate( ). 
set system, gate( ) 以 及 set_call_gate( )。 还 有 个 用 于 外 设 中 断 的 set_intr_gate( )， 这 里 虽然 没有 用 到 ， 
但 是 也 属 十 问 一 组 函数 。 这 些 函数 都 是 在 义 件 arch/i386/kernel/traps.c 中 定义 的 : 


808 void set intr gate(unsigned int n, void *addr) 


80 { 

810 _set_gate (idt_tabletn, 14, 0, addr) ; 
811} 

812 


813 static void __init set trap gate(unsigned int n, void *addr) 
814 { 

815 _set_gate(idt_tabletn, 15, 0, addr) ; 

816 ] 

817 

818 static void ^ init set system gate(unsigned int n, void *addr) 
819 { 


820 set gate(idt tabletn, 15, 3, addr) ; 

821  ] 

822 

823 static void ^ init set call gate(void *a, void *addr) 
824 { 

825 set gate (a, 12, 3, addr) ; 

826 ) 


这 些 函 数 都 调用 同 … 个 子 程序 set gate(), KE PITH A idt table 中 的 第 n 项 , 所 不 同 的 是 参数 
表 中 的 第 2 个 、 第 3 个 参数 。 第 2 个 参数 对 应 于 中 断 门 或 陷阱 门 格式 中 的 DD 标志 位 加 上 类 型 位 段 。 参 
数 14 表示 D 标志 位 为 1 而 类 型 为 110, 所 以 set_intr_gate( ) 设 置 的 是 中 断 门 。 第 3 个 参数 则 对 应 于 DPL 
位 段 。 中 断 门 的 DPL 一 律 设 置 成 0 是 有 讲究 的 。 当 中 断 是 由 外 部 产生 或 是 CPU 异常 产生 时 ， 中 断 门 
的 DPL 是 被 忽略 不 顾 的 ， 所 以 总 能 穿 过 该 中 断 门 。 可是, 费 是 用 户 进程 在 用 户 空 间 试 着 用 :条 “INT2” 
来 进入 不 可 屏 沿 中 断 的 服务 程序 时 ， 由 于 用 户 状态 的 运行 级 别 为 3, ii EET DPL 29 0 (级 别 最 高 )， 
由 软件 产生 的 中 断 就 会 被 拒 之 门 外 (CPU 会 产生 一 次 宣 常 )， 因 此 不 能 得 逮 。 同 样 ，set_trap_gate( ) 也 
将 DPL 设 成 0， 所 不 同 的 是 调用 _set_gate( ) 时 的 第 2 个 参数 为 15， 也 即 类 型 为 1, 表示 所 设置 的 是 陷 
奔 门 。 我 们 在 前 面 已 经 讲 过 ， 陶 阱 门 与 中 断 门 的 不 同 仪 在 于 通过 中 断 门 进入 服务 程序 时 和 白 动 关中 断 ， 
而 通过 陷 渤 门 进 入 服务 程序 时 则 维持 人 不安 。 所 以 ， 例 如 说 ， 因 CPU 的 页 面 异常 而 进入 服务 程序 时 ， 中 
断 多 半 是 开 着 的 ， 我 们 在 第 2 章 中 看 到 过 的 那些 程序 ， 如 handle_mm_fault( ) 等 等 ， 都 是 可 中 断 的 。 此 
外 set_system_gate( ) 所 设置 的 也 是 陷阱 门 ， 所 以 系统 调用 也 是 可 中 断 的 。 但 是 DPL 为 3， 因 为 系统 调 
用 是 在 用 户 空间 通过 “INT 0x80” 进 行 的 ， 只 有 将 该 陷阱 门 的 DPL 设 成 3 才能 让 系统 调用 顺利 穿 过 ， 
否则 就 会 把 系统 调用 拒 之 门 外 了 。 

进步 看 看 ， 这 些 IDT 表 项 到 底 怎么 设置 。_set_gate( ) 也 在 同一 文件 (traps.c) 中 定义 : 

788 #define set gate (gate addr, type, dpl, addr) \ 
789 do { \ 
790 int dd, dl: \ 
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791 . asm yolatile (movw %%dx, %%ax\n\t” \ 

192 "movw %4, %%dx\n\t” \ 

793 "movl %heax, %0\n\t” \ 

794 "movl %%edx, %1” \ 

795 ;"-m" (*((ong *) (gate_addr))), \ 

796 “=m” (*(I*(long *) (gate addr))), "-&a" (dO), ^"-&d" (__dl) \ 
T97 ; Ai" ((short) (0x8000+ (dpl<<13)+(type<<8))), \ 

798 ^3" ((char *) (addr)),”2” (. KERNEL CS << 16)); V 

799 ) while (0) 


Ht. do { }while (0) 决 定 了 它 的 循环 体 ， 也 就 是 从 790 行 至 798 行 ， 一 定 会 被 执行 3, FHR 
执行 一 遍 。 特 别 古 在 编译 时 不 管 在 什么 情况 二 都 不 会 有 问题 ( 见 第 1 章 )。 从 795 行 的 第 -个 “:” 到 
797 行 的 第 2 个 “: ”之 间 为 输出 部 ， 其 中 说 明了 有 四 个 变量 会 被 改变 ， 分 别 与 %0、%1、%2 和 %3 相 
结合 。 其 中 %0 与 参数 gate addr 结合 ，%1 与 (gate_addr+1) 结 合 ， 者 都 是 内 存单 元 ;多 2 与 局 部 变量 
_d0 结合 ， 存 放 在 寄存 器 和 9%eax 中 ， 而 %3 与 局 部 变量 __dl 结合 ， 存 放 人 在 寄存 器 %96edx H. M 797 
行 则 为 输入 部 。 由 于 输出 部 已 经 定义 了 %0~%3， 输 入 部 中 的 第 一 个 变量 便 为 %4， 而 后 面 还 有 
两 个 变量 分 别 等 价 十 输出 部 中 的 9%3 和 %2。 输 入 部 中 说 明 的 各 输入 变量 的 值 ， 包 括 %3 和 %2 的 值 ， 都 
会 在 引 川 这 些 变 量 之 前 设置 好 。 

为 了 方便 ， 我 们 把 所 要 求 的 中 斯 门 《〈 或 陷阱 门 ) 的 格式 再 表示 在 图 3.5. 

8 位 


mana p wr [177 
段 选择 码 入 口 地址 的 低 16 位 


图 3.5 中 断 门 和 陷阱 门 的 格式 定义 








出 于 791 行 要 用 到 %%dx 和 %9%ax ,所 以 编译 (以 及 汇编 ) 以 后 的 代码 会 按 输入 部 的 说 明 先 将 %96edx 
设 成 addr， 而 %%ax 设 成 (__ KERNEL _CS<<16). iff 791 行将 %%dx 的 低 16 位 称 入 %%ax 的 低 16 位 
(注意 %%dx 与 %%edx 的 区 别 )。 这 样 ， 在 %%eax 中 就 形成 了 所 需要 的 中 断 门 的 第 -- 个 长 整数 ， 其 高 
16 位 为 KERNEL_CS, 而 低 16 位 为 addr 的 低 16 位 .接着 ,在 792 行 中 将 (0x8000+(dpl<<3)+(type<<8)) 
装 入 %9edx 的 低 16 位 。 这 样 ，%9edx 中 高 16 位 为 addr 的 高 16 位 ， 而 低 16 位 的 P 位 为 1《 因 为 是 
0X80000, DPL 位 段 为 dpl (ALY dpl<<3), if D 位 加 上 类 型 位 段 则 为 type (因为 type<<8)， 其 余 各 位 
车 为 0。 这 就 形成 了 中 断 门 中 的 第 2 个 长 整数 。 然 后 ，793 行将 %%eax 写 入 *gate_addr， 侧 794 行 则 将 
%mWedx 写 入 #(gate_addr+l1)。 读 者 不 妨 试 试 ， 看 看 能 否 写 出 效率 更 高 的 代码 ! 当然 ， 这 种 高 效率 是 以 
辆 牲 可 读 性 为 代价 的 。 对 于 像 设 站 IDT 表 项 一 类 并 不 是 频繁 发 生 的 操作 ， 这 样 做 是 否 值得 ， 大 可 商 梭 。 
不 过 ， 这 毕竟 是 在 内 核 中 ， 而 蝇 是 很 底层 的 东西 ， 一 般 也 不 会 有 很 多 人 去 读 、 去 维护 的 。 

系统 初始 化 时 ， 在 trap_init( PRET 22 CPU 保留 专用 的 IDT 表 项 以 及 系统 调用 所 用 的 陷阱 
门 以 后 ， 就 要 进入 nt IROA ) 设 置 大 量 用 于 外 设 的 通用 中 断 门 了 。 函 数 init_IRQ( ) 的 代码 在 
arch/1386/kernel/18259.c rh: 
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438 void | init init IRQ(void) 


439 { 

440 int i; 

441 

442 #ifndef CONFIG X86 VISWS APIC 

443 init ISA irgs( ); 

444 Helse 

445 init VISWS APIC irqs( ); 

446 #endif 

447 /* 

448 * Cover the whole vector space, no vector can escape 
449 * us. (some of these will be overridden and become 
450 * 'special' SMP interrupts) 

451 */ 

452 for (i = 0; i < NR_IRQS; i++) f 

453 int vector = FIRST EXTERNAL VECTOR + i; 

454 if (vector != SYSCALL VECTOR) 

455 set intr gate(vector, interrupt[i]); 

456 } 

457 


首先 是 在 init_ISA_irq( ) 中 对 PC 的 中 断 控 制 器 8259A 进行 初始 化 ， 并 且 初 始 化 一 个 结构 数组 
irq_desc[ ]。 为 什么 要 有 这 么 一 个 结构 数组 呢 ? 我 们 知道 ，i386 的 系统 结构 文 持 256 个 中 断 向 量 ， 还 要 
Fike EA CPU 本 身 保留 的 向 量 。 但 是 ， 作 为 一 个 通用 的 操作 系统 ， 很 难说 剩 下 的 这 些 中 断 向 量 是 否 
够 用 。 而 且 ， 很 多 外 部 设备 由 于 种 种 原因 可 能 本 来 就 不 得 不 共用 中 断 向 量 。 所 以 ， 在 像 Linux 这 样 的 
系统 中 ， 限 制 每 个 中 断 源 都 必须 独占 使 用 :个 中 断 间 量 是 不 现实 的 。 解 决 的 方法 是 为 共用 中 断 向 量 提 
供 一 种 手段 。 因 此 ， 系 统 中 为 每 个 中 断 向 量 设置 一 个 队列 ， 而 根据 每 个 中 断 源 所 使 用 (产生 ) 的 中 断 
向 量 , 将 其 中 断 服务 程序 挂 人 到 相应 的 队列 中 去 ， 而 数组 irq_desc[ ] 中 的 每 个 元 素 则 是 这 样 一 个 队列 的 头 
部 以 及 控制 结构 。 当 中 斯 发 生 时 ， 首 先 执行 与 中 新 向 量 相 对 应 的 一 自 总 服务 程序 ， 根 据 有 具体 中 断 源 的 
设备 号 在 其 所 属 队 证 中 找到 特定 的 服务 程序 加 以 执行 。 这 个 过 程 我 们 将 在 以 后 详细 介绍 ， 这 里 只 要 知 
道 需 要 有 这 么 一 个 结构 数组 就 行 了 。 

BUB. A FIRST EXTERNAL VECTOR Fi, wy. NR_IRQS 个 中 断 问 量 的 IDT RI. HA 
FIRST_EXTERNAL_VECTOR 在 include/asm-i386/hw_irq.h 中 定义 为 0x20， 而 NR_IRQS 则 为 224， 那 
是 在 include/asm-i386/irq.h 中 定义 的 。 不 过 ， 要 跳 过 用 于 系统 调用 的 回 量 0x80， 那 已 经 在 前 面 设置 好 
了 。 这 里 设置 的 服务 程序 入 口 地 址 都 来 自 个 函数 指针 数组 interruptf ]。 

函数 指针 数组 interrupt[ ] 的 内 容 也 是 在 arch/i386/kerneVi8259.c 中 定义 的 : 


98 . &define IRQ(x, y) \ 
99 IRQHHxHHYHH# interrupt 


101 define IRQLIST 16 (x) \ 

102 IRQ(x, 0), IRQ(x, D, IRQG, 22, IRQ(x,3), \ 
103 IRQ(x, 4), IRQG, 5), IRQG, 6), IRQ(x,7), \ 
104 IRQ(x, 8), IRQ(x,9), IRQG, à), IRQ(x,b), \ 
105 IRQ(x,c), IRQ(x, d), IRQ(x,e), IRQ(x, f) 
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106 
107 void Ckinterrupt[NR IRQS]) (void) = { 
108 IRQLIST, 16 (0x0), 


109 
110 #ifdef CONFIG X86 IO APTC 
ill IRQLIST 16(0x1), IRQLIST_16 (0x2), IRQLIST_16 (0x3), 


112 IRQLIST_16 (0x4), TRQLIST_16 (0x5), IRQLIST 16(0x6), TRQLIST_16 (0x7), 
113 IRQLIST 16(0x8), TRQLIST_16 (0x9), IRQLIST 16(0xa), IRQLIST 16(0xb), 
114 IRQLIST 16(0xc), IRQLIST 16 (Oxd) 


115 Hendif 
116 b: 
117 


118 Hundef IRQ 
119 #undef IRQLIST 16 


数组 的 第 一 部 分 内 容 定义 于 107 行 ， 顺 着 TROLIST. 166008 IRQ, yR 2E VFI 98 F, WAKER 
数 指针 的 文字 是 由 gec 的 预 处 理 自动 产生 的 ， 因 为 符号 撩 的 作用 是 将 字符 串 连接 在 一 起 。 例 如 ， 当 108 
行 以 参数 0x0 CRAFT HH) 调用 IRQLIST_16( ) 时 ，102 77 THY IRQ (x,0) 就 会 在 预 处 理 阶段 被 替换 
成 IRQOx00_interrupt。 后 面 依次 为 IRQOx01_interrupt、 IRQOxO2. interrupt. +++ Ei £l TRQOxOf_interrupt。 
这 样 ， 就 利用 gcc 的 预 处 理 白 动 生成 了 所 需 的 文字 ， 而 避免 了 枯燥 繁琐 的 文字 录入 和 编辑 。 所 以 ， 这 
一 部 分 给 出 了 interrupt[ ] 中 的 开头 16 个 函数 指针 。 对 于 单 CPU 系统 结构 ， 后 面 的 指针 就 部 是 NULL 
To MRE WHS SMP 结构 ， 则 后 面 还 有 IRQOx10 全 IRQOxdf 等 208 eh BEET. 

那么 ,从 IRQOx0O, interrupt 到 IRQOxOf. interrupt 这 16 个 函数 本 身 是 在 哪儿 定义 的 昵 ? 请 看 i18259.c 
中 的 另外 几 行 : 


38 #define BI(x,y) \ 


39 BUILD_IRQ (##x##y) 

40 

41 #define BUILD_16_IRQS (x) V 

42 BI (x, 0) BI (x, 1) BI(x, 2) BI(x,3) \ 

43 BI (x, 4) Bl (x, 5) BIG, 6) BI{x,7) \ 

44 BI (x, 8) BIG, 9) BI(x,a) BI (x,b) \ 

45 Bl(x,c) BI(x,d) BI(x,e) BI (x, f) 

16 

47 /* 

48 * ISA PIC or low IO-APIC triggered (INTA-cycle or APIC) interrupts: 
49 * (these are usually mapped to vectors 0x20-0x2f) 
50 */ 


91 BUILD 16 TRQS (0x0) 


Ay, 51 行 的 宏 定义 BUILD_16_IRQS(Ox0) 在 预 处 埋 阶段 会 被 展开 成 从 BUILD. IRQS(0x00) 4 
BUILD IRQS(0x0f)3t 16 项 宏 定 义 的 引用 。 而 BUILD_IRQS( ) 则 是 在 include/asm-1386/hw. irq.h 中 定义 
的 : 


172 &define BUILD IRQ(nr) \ 
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173 asmlinkage void IRQ NAME (nr); \ 

174 asm_(\ 

175 “\n” ALIGN_STR”\n” \ 

176 SYMBOL NAME STR(IRQ) #nr ”_interrupt:\n\t” \ 
177 "pushl $”#nr”-256\n\t” \ 

178 ” jmp common_interrupt”) ; 


经 过 gee 的 预 处 理 以 后 ， 便 会 展开 成 一 系列 如 下 式样 的 代码 ; 


asmlinkage void IRQOx01_interrupt ( ); 
| asm (Ww 

"An^ \ 

“TRQOxO1 interrupt: \n\t”\ 

^pushl $0x01 - 256\n\t” \ 

"jmp common interrupt”) ; 


由 此 可 以 看 出 ， 实 际 上 由 外 设 产 生 的 中 断 处 理 全 都 进入 一 段 公 共 的 程序 common_interrupt H, Iid 
在 此 之 前 分 别 忠 到 IRQOxOI. interrupt 或 者 IRQOx02, interrupt 等 等 的 日 的 ， 只 在 于 由 此 得 到 一 个 与 中 晰 
向 量 相 关 的 数值 ( 压 入 堆栈 中 )。 对 应 于 IRQ0x00_interrupg 到 IRQOx0f. interrupt, 该 数值 分 别 为 0x0Offfffo0 
至 0xffffffof ， 余 类 推 。 至 于 commom interrupt, 那 也 是 由 gcc AY YA kb 8 RET — 4 EX 
BUILD. COMMON IRQ( ) 而 生成 的 ， 这 段 程 序 我 们 在 后 面 的 情景 中 还 旧 讲 ， 这 里 先 从 略 。 

回 到 init_IRQ( ) 中 继续 住 上 看 (i8259.c): 


458 #ifdef CONFIG SMP 


485 fendif 

486 

487 /* 

488 * Set the clock to HZ Hz, we already have a valid 
489 * vector now: 

490 */ 

491 outb_p (0x34, 0x43) ; /* binary, mode 2, LSB/MSB, ch 0 */ 
492 outb_p (LATCH & Oxff , 0x40); /* LSB */ 
493 outb(LATCH >> 8 , 0x40); /* MSB */ 

494 

495 #ifndef CONFIG VISWS 

496 setup irq(2, &irq2); 

497 endi f 

498 

499 /* 

500 * External FPU? Set up irgl3 if so, for 
501 * original braindamaged IBM FERR coupling 
502 */ 

503 if (boot cpu data.hard math && !cpu has fpu) 
504 setup irq(13, &irq13): 

805. .] 
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由 寸 我 们 在 这 里 既 不 关心 多 人 处理 器 SMP 结构 ， 也 不 考虑 SG1 TESA RR ADE. AIR RRR EE 
对 系统 时 钟 的 初始 化 了 。 代 码 中 有 个 注解 ， 说 我 们 已 经 有 了 个 中 断 向 量 ， 实 际 上 指 的 是 
IRQOx00_interrupt。 但 是 绒 注 意 ,， 虽然 该 中 断 服务 的 入 口 地 址 已 经 设置 到 中 断 身 量 表 中 , 但 实际 上 我 们 
还 没有 把 上 其 体 的 时 钟 中 断 服务 程序 挂 到 IRQ0 的 队列 中 去 。 这 个 时 候 ， 这 些 irg 队列 都 还 是 空 的 ， 所 以 
即使 开 了 中 断 ， 并 且 产生 了 时 钟 中 断 ， 也 只 不 过 是 让 它 在 common interrupt 中 空 跑 -- 趟 。 读 者 以 后 将 
看 到 ， 了 时钟 中 断 和 对 时 钟 中 断 的 服务 ， 就 好 像 是 动物 的 心跳 、 脉 捕 。 而 现在 内 核 的 脉搏 尚 末 开 始 。 为 
什么 还 不 让 它 开始 呢 ? 这 是 因为 系统 在 这 个 时 候 还 没有 完成 对 进程 调度 机 制 的 初始 化 ， 而 一 旦 时 钟 中 
断 开 始 ， 进 度 调 虔 也 就 要 随 之 开始 。 所 以 ， 一 定 此 等 完成 了 对 进程 调度 的 初始 化 ， 作 好 了 淮 备 以 后 才 
能 让 脉搏 开始 跳动 。 

由 此 可 见 ， 设 计 一 个 真正 实用 的 操作 系统 ， 有 多 少 事情 需 此 周到 精细 的 考虑 ! 


3.3 中断 请 求 队列 的 初始 化 


在 前 一 节 中 ， 我 们 讲 到 中 断 向 量 表 〈 更 准确 地 ， 应 该 说 “中 断 描 述 表 ”IDT 中 有 两 种 表 项 ， 一 种 
是 为 保留 专用 于 CPU 本 身 的 中 断 门 ， 主 要 用 于 由 CPU 产生 的 异常 ， 如 “除数 为 0”" “页 面 错 ” 等 等 ， 
以 及 由 用 户 程序 通过 INT 指令 产生 的 中 也 (或 称 “ 陷 阱 ”)， 主 要 用 玉 产 生 系 统 调用 (另外 还 有 个 用 于 
debug 的 INT 3)。 这 些 中 断 门 的 向 量 除 用 十 系统 调用 的 0x80 外 都 在 0x20 LAF. A 0x20 开始 就 是 第 2 
ARM, H 224 项 ， 都 弟 用 于 外 设 的 通用 中 断 门 。 这 二 者 的 区 别 在 于 通用 中 断 门 可 以 为 多 个 中 断 源 所 
共享 ， 而 专用 中 断 门 则 是 为 特定 的 中 断 源 所 专用 。 

由 于 通用 中 断 门 是 让 多 个 中 断 源 共用 的 ， 而 卫 人 允许 这 种 共用 的 结构 在 系统 运行 的 过 程 中 动态 地 变 
化 ， 所 以 在 IDT 的 初始 化 阶段 只 是 为 每 个 中 断 向 量 ， 也 即 每 个 表 项 准备 下 一 个 “中 断 请 求 队列 ”， 从 而 
形成 个 中 断 请 求 队列 的 数组 ， 这 就 是 数组 drq desc[ ]。 中 断 请 求 队列 头 部 的 数据 结构 是 在 
include/linux/irq.h 中 定义 的 ， 


23 /* 

24 * Interrupt controller descriptor. This is all we need 
25 * to describe about the low-level hardware. 

26 */ 

27 struct hw interrupt type { 

28 const char * typename; 

29 unsigned int (*startup) (unsigned int irq): 

30 void (*shutdown) (unsigned int irq); 

31 void (enable) (unsigned int irq); 

32 void (disable) (unsigned int irq); 

33 void (kack) (unsigned int irq); 

34 void (end) (unsigned int irq); 

35 void (*set affinity) (unsigned int irq, unsigned long mask); 
36. kh 

37 

38 typedef struct hw interrupt type hw irq controller; 

39 

40 /* 
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41 * This is the “IRQ descriptor”, which contains various information 
42 * about the irq, including what kind of hardware handling it has, 
43 * whether it is disabled etc etc 

44 * 

45 * Pad this out to 32 bytes for cache and indexing reasons. 

46 */ 

47 typedef struct { 

48 unsigned int status; /* IRQ status */ 

49 hw irq controller *handler; 

50 struct irgaction *action; /* IRQ action list */ 

51 unsigned int depth; /* nested irq disables */ 

52 spinlock t lock; 

53 | |  cacheline aligned irq desc t; 

54 


55 extern irq desc t irq desc [NR IRQS]: 


每 个 队列 头 部 中 除 指针 action 用 来 维持 一 个 由 中 断 服务 程序 描述 项 构成 的 单 链 队列 外 ， 还 有 个 指 
针 handler 指向 另 一 个 数据 结构 ， 即 hw. interrupt type 数据 结构 。 那 里 主要 是 一 些 函 数 指针 ， 用 于 该 队 
列 ， 或 者 说 该 共用 “中 断 通道 ” 的 控制 〈 而 并 不 是 对 具体 中 断 源 的 服务 )。 其 体 的 函数 则 取 次 十 所 用 的 
中 斯 控制 器 〈 通 常 是 i8259A)。 例 如 ， 函 数 指针 enable 和 disable 用 来 开启 和 关 断 其 所 属 的 通道 ，ack 
用 于 对 中 断 控制 器 的 响应 , 而 end 则 用 于 每 次 中 断 服 务 返 回 的 前 夕 。 这 些 函数 都 症 在 init_IRQ( ) 中 调用 
init ISA irqs( ) 设 置 好 的 ， 见 i8259.c: 


413 void __init init ISA irqs (void) 


414 { 

415 int i; 

416 

417 init 8259A (0); 

418 

419 for (i = 0; i < NR_IRQS; i++) { 

420 irg_descli]. status = IRQ DISABLED: 

421 irq desc[i].action = 0; 

422 irq_desc[i]. depth = 1; 

423 

424 M (i < 16) { 

425 /* 

426 * 16 old-style INTA-cycle interrupts: 
427 */ 

428 irq desc[i].handler = &i8259A irq type: 
429 } else { 

430 /* 

431 * 'high' PCI IRQs filled in on demand 
432 */ 

433 irq_desc[i]. handler = &no irq type: 
434 } 

435 } 
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436 } 


FRI Sc VH] init_8259A( ) 对 8259A 中 断 控制 器 进行 初始 化 《其 代码 也 在 i8259.c 中 )， 然 后 将 开关 
16 个 中 断 请 求 队列 的 handler 指针 设置 成 指向 数据 结构 18259A. irq type, JU JT 18259.c 中 定义 的 : 


148 static struct hw interrupt type i8259A irq type = | 
149 “XT-PIC”, 

150 startup 8259A_irg, 

151 shutdown 8259A irq, 

152 enable 8259A irq, 

153 disable 82594 irq, 

154 mask and ack 82594, 

155 end 8259A irq, 

156 NULL 

157 i 


用 于 具体 中 斯 服务 程序 描述 项 的 数据 结构 irqaction， 则 是 在 include/linux/interrupt.h 中 定义 的 : 


14 struct irqaction | 


15 void (*handler) (int, void *, struct pt regs *); 
16 unsigned long flags; 

17 unsigned long mask; 

18 const char *name; 

19 void *dev_id; 

20 struct irqaction *next; 


21 h 


其 中 最 主要 的 就 是 函数 指针 handler， 指 向 具体 的 中 断 服 务 程 序 。 

在 IDT 表 的 初始 化 完成 之 初 ， 每 个 中 断 服务 队 刻 都 是 空 的 。 此 时 即使 打开 中 断 并 且 某 个 外 设 中 断 
真 的 发 生子 ， 也 得 不 到 实际 的 服务 。 昌 然 从 中 断 源 的 硬件 以 及 中 断 控制 器 的 角度 来 看 似乎 已 经 得 到 服 
务 了 , 因为 形式 上 CPU 确实 通过 中 断 门 进入 了 某 个 中 断 向 量 的 总 服务 程序 , 例如 IRQOx01_interrupt( )， 
并 且 按 要 求 执行 了 对 中 断 控 制 器 的 ack( ) 以 及 end( )， 然 后 执行 iret FROM PTI, (HE, MEAN 
角度 、 功 能 的 角度 来 看 ， 则 其 实 并 没有 得 到 实质 的 服务 ， 央 为 并 没有 执行 具体 的 中 断 服务 程序 。 所 以 ， 
自 止 的 中 断 服务 要 到 具体 设备 的 初始 化 程序 将 其 中 断 服 务 程序 通过 request irq( inl RA “WIG”, HA 
鞭 个 中 断 请 求 队列 以 后 才 会 发 生 。 

FREI request_irq( ) 的 代码 企 arch/i386/kernel/irq.c "P: 


630 /六 六 

631 * request irq - allocate an interrupt line 

632 *  Girq: Interrupt line to allocate 

633 * @handler: Function to be called when the IRQ occurs 
634 x @irqflags: Interrupt. type flags 

635 * @devname: An ascii name for the claiming device 

636 *  Qdev id: A cookie passed back to the handler function 
637 * 
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638 * This call allocates interrupt resources and enables the 

639 * interrupt line and IRQ handling. From the point this 

640 * call is made your handler function may be invoked. Since 

641 * your handler function must clear any interrupt the board 

642 * raises, you must take care both to initialise your hardware 

643 * and to set up the interrupt handler in the right order. 

644 * 

645 * Dev id must be globally unique. Normally the address of the 

646 * device data structure is used as the cookie. Since the handler 

647 * receives this value it makes sense to use it. 

648 * 

649 * If your interrupt is shared you must pass a non NULL dev id 

650 * as this is required when freeing the interrupt. 

651 * 

652 * Flags: 

653 * 

654 * SA SHIRQ Interrupt is shared 

655 * 

656 * — SA INTERRUPT Disable local interrupts while processing 

657 * 

658 * SA SAMPLE RANDOM The interrupt can be used for entropy 

659 * 

660 */ 

661 

662 int request irq(unsigned int irq, 

663 void (*handler) (int, void *, struct pt regs *), 

664 unsigned long irqflags, 

665 const char * devname, 

666 void *dev id) 

667 | 

668 int retval; 

669 struct irqgaction * action; 

670 

671 #if 1 

672 /* 

673 * Sanity-check: shared interrupts should REALLY pass in 

674 * a real dev-ID, otherwise we’ ll have trouble later trying 

675 * to figure out which interrupt is which (messes up the 

676 * interrupt frecing logic etc). 

677 */ 

678 if (irgflags & SA_SHIRQ) { 

679 if (!dev id) 

680 printk( Bad boy: *s (at Ox%x) called us without a dev id!Wn^, 
devname, (&irq)[-1]) ; 

681 } 

682 Hendif 

683 


684 if (irq >= NR IRQS) 
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685 return -EINVAL; 

686 if (!handler) 

687 return -EINVAL; 

688 

689 action = (struct irgaction *) 
690 kmalloc(sizeof(struct irqaction), GFP KERNEL); 
691 if (laction) 

692 return ENOMEM; 

693 

694 action-»handler = handler; 
695 action->flags = irgflags; 

696 action—>mask = 0; 

697 action—>name = devname; 


698 action-»next = NULL; 
699 action->dev_id = dev id; 


700 

701 retval - setup irq(irq, action): 
702 if (retval) 

703 kfree (action); 

104 return retval; 

705  } 


BR irq 为 中 断 请 求 队列 的 序号 ， 也 就 是 人 们 通常 所 说 的 “中 断 请 求 号 ”对 应 于 中 断 控 制 器 中 的 
一 个 通道 ， 有 时候 要 在 接口 卡 上 通过 微型 开关 或 跳 线 来 设置 。 但 是 此 注意 ， 这 样 的 中 断 请 求 号 与 CPU 
所 用 的 “中 断 号 ”或 “中 断 向 量 ” 是 不 同 的 ， 中 断 请 求 号 IRQO 相当 于 中 断 向 量 0x20。 也 许 ， 可 以 把 
这 种 中 斯 请 求 号 看 成 “逻辑 ” 中 断 向 量 ， 而 后 者 则 为 “物理 ” 中 断 向 量 。 通 常 ， 前 16 个 中 断 请 求 遂 
JÄ IRQO 至 IRQ15 是 由 中 断 控制 器 18259A 控制 的 。 参 数 ireflags 是 一 些 标志 位 ， 其 中 的 SA_SHIRQ 标 
志 表 示 与 其 他 中 断 源 公用 该 路 断 请 求 通道 此 时 必须 提供 SAE SE AY dev_id 以 供 区 别 。 当 中 断 发 生 时 ， 
参数 dev id 会 被 作为 调用 参数 传 回 所 指定 的 服务 程序 。 全 于 这 dev id 到 底 是 什么 ，request_irq( ) 和 中 
断 服 务 的 总 控 并 不 企 乎 ， 只 要 各 个 具体 的 中 断 服务 程序 自己 能 够 辨识 和 使 用 即 可 ， 所 以 这 里 dev id 的 
类 型 为 void Tf] request_irq( ) 中 则 对 此 进行 检查 。 顺 使 提 一 下 ，Pprintk( ) 产 生 “个 出 错 信和 以， 通常 是 写 
入 文件 /var/log/messages 或 冯 在 屏幕 上 显示 ， 取 决 于 “守护 神 ”syslogd 和 klogd 是 告 已 经 在 运行 。 这 里 
有 趣 的 是 语句 中 的 参数 《6&irq) [一 1]。 这 里 irq 是 第 一 个 调用 参数 ， 所 以 是 最 后 讨 入 堆栈 的 ，&irq 就 
是 参数 irg 在 堆栈 中 的 位 置 。 那 么 ,在 &&irq 下 上 面 的 是 什么 昵 ?” 那 就 是 函数 的 返 同 地 址 。 所 以 ,这 个 printk( ) 
语句 显示 该 request_irq( ) 函 数 是 从 什么 地 方 调用 的 , 使 程序 员 可 以 根据 这 个 地 址 发 现 是 在 哪个 函数 中 调 
用 的 。 

企 分 配 并 设置 了 一 个 irqaction 数据 结构 action 以 后 ， 便 调用 setup_irq( )， 将 其 链 入 相应 的 中 断 请 
求 队列 。 其 代码 企 同 一 文件 (irq.c) 中 : 


958 /* this was setup x86 irq but it seems pretty generic */ 


959 int setup irq(unsigned int irg, struct irqaction * new) 
960 d 

961 int shared - 0; 

962 unsigned long flags; 
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963 
964 
965 
966 
967 
968 
969 
970 
971 
972 
973 
974 
975 
976 
977 
978 
979 
980 
981 
982 
983 
984 
985 
986 
987 
988 
989 
990 
991 
992 
993 
994 
995 
996 
997 
998 
999 
1000 
1001 
1002 
1003 
1004 
1005 
1006 
1007 
1008 
1009 
1010 


- 208 . 


Linux 内 核 源 代 人 色情 景 分 析 ED 


struct irqaction *old, **p; 
irq desc t *desc - irq desc + irq; 


/* 

* Some drivers like serial.c use request irq( ) heavily, 
* so we have to be careful not to interfere with a 

* running system. 

*/ 

if (new->flags & SA SAMPLE RANDOM) | 


* This function might sleep, we want to call it first 

* outside of the atomic block. 

* Yes, this might clear the entropy pool if the wrong 

* driver is attempted to be loaded, without actually 

* installing a new handler, but is this really a problem, 
* only the sysadmin is able to do this. 


rand initialize irq(irq); 


/* 
* The following block of code has to be executed atomically 
*/ 
spin lock irqsave (&desc->lock, flags); 
p = &dese->action; 
if ((old = *p) != NULL) { 
/* Can't share interrupts unless both agree to */ 
if (!(old->flags & now flags & SA SHTRQ)) { 
spin unlock irqrestore (&desc—> lock, flags); 
return -EBUSY; 
} 


/* add new interrupt at end of irq queue */ 
do | 
p = &old->next: 
old = *p; 
} while (old); 
shared = 1; 


xp = new; 


if (shared) { 
desc-?»depth = 0; 
desc-^status &- “(IRQ DISABLED | IRQ AUTODETECT | TRQ WAITING); 
desc->handler->startup (irq) ; 

} 


spin unlock irgrestore (&desc-> lock, flags); 


58 3 5 tB. HARSH 


1011 

1012 register irq proc(irq); 
1013 return 0; 

1014 ] 


计算 机 系统 在 使 用 中 常常 有 产 牛 随机 数 的 此 求 ， 但 是 柴 产 牛 真 正 的 随机 数 是 不 可 能 的 《所 以 由 计 
算 机 产生 的 随机 数 称 为 “ 伪 随 机 数 ”)。 为 了 达到 尽 可 能 的 随机 ， 需 要 在 系统 的 运行 中 引入 一 些 随机 的 
因素 ， 称 为 “ 业 ”(entropy)。 由 各 种 中 汤 源 产 生 的 中 断 请 求 在 时 间 上 大 多 是 相当 随机 的 ，rJ 以 用 米 作 
为 这 样 的 随机 因素 。 所 以 Linux 内 核 提 供 了 一 种 于 段 ， 使 得 可 以 根据 中 断 发 生 的 时 间 米 引入 一 点 随机 
性 。 需 要 在 某 个 中 断 请 求 队列 ， 或 者 说 中 断 请 求 通道 中 引入 这 种 随机 性 时 ， 可 以 在 调用 人 参数 irqflags 中 
将 标志 位 SA SAMPLE RANDOM 设 成 1。 而 这 里 调用 的 rand_initialize_irq( ) 就 据 此 为 该 中 断 请 求 队列 
初始 化 个 数据 结构 ， 用 来 记录 该 中 断 的 时 序 。 

可 想 而 知 ， 对 于 中 断 请 求 队列 的 操作 当然 不 允许 受到 十 扰 ， 必 须要 在 临界 区 内 进行 ， 不 光 中 断 要 
关闭 ， 还 要 防止 可 能 米 白 其 他 处 理 器 的 十 扰 。 代 码 中 986 行 的 spin_lock_irqsave( ) 就 使 CPU 进入 了 这 
样 的 临界 区 。 我 们 将 在 本 书 下 册 “ 多 处 理 器 SMP 结构 ”一 章 中 介绍 和 讨论 spin lock irgsave( )， 与 之 
相对 的 spin, unlock. irqrestore( ) 则 是 临界 区 的 出 口 。 

对 第 一 个 加 入 队列 的 irqaction 结构 的 处 理 比 较 简 单 〈1003 行 )， 不 过 此 时 要 对 队列 的 头 部 进行 一 
些 初始 化 〈1006 一 1008 行 )， 包 括 调用 本 队列 的 startup 困 数 。 对 于 后 来 加 入 队列 的 irqaction 结构 则 要 
稍 加 恰 查 ， 检 查 的 内 容 为 是 否 允 许 共用 一 个 中 断 通 道 ， 只 有 在 新 加 入 的 结构 以 及 队列 中 的 第 一 个 结构 
部 允许 共用 时 才 将 其 链 入 队列 的 尾部 。 

在 内 核 中 ， 设 备 驱 动 程序 一 般 都 此 通过 request_irq( ) 向 系统 登记 其 中 断 服 务 程 序 。 


3.4 中断 的 响应 和 服务 


aia T 386 CPU 的 中 断 机 制 和 内 核 中 有 关 的 初始 化 以 后 ， 我 们 就 可 以 从 中 断 请 求 的 发 生 到 CPU 
的 响应 ， 再 到 中 断 服 务 程 序 的 调用 与 返回 ， 沿 着 CPU 所 经 过 的 路 线 走 一 遍 。 这 样 ， 帕 可 以 弄 清和 理解 
Linux 内 核对 中 断 响应 和 服务 的 总 体 的 格局 和 安排 ， 还 可 以 顺 着 这 个 过 程 介 绍 内 核 小 的 一 些 相 关 的 “ 基 
础 设施 ” 对 此 二 者 的 了 解 和 理解 ， 助 十 读者 对 整个 内 核 的 理解 。 

这 里 ， 我 们 假定 外 设 的 驱动 程序 都 已 经 完成 了 初始 化 ， 并 且 已 把 相应 的 中 断 服务 程序 挂 入 到 特定 
的 中 断 清 求 队列 中 ， 系 统 止 在 用 户 空 间 止 常 运行 (所 以 中 断 必 然 是 开 着 的 )， 并 月 其 个 外 设 已 经 产 牛 了 

TRAP TR. AAI FTP IAS 18259A 到 达 了 CPU W “Hebi” GIA INTR. HE! eT 

着 的 ， 所 以 CPU 在 执行 完 当 前 指令 后 就 来 响应 该 次 路 断 请 求 。 

CPU 从 中 断 控 制 器 取得 中 断 向 量 ,然后 恨 据 具体 的 中 断 向 量 从 中 汤 向 量 表 IDT 中 找到 相应 的 表 项 ， 
而 该 表 项 应 该 是 一 个 中 断 门 。 这 样 ，CPU 就 根据 中 断 门 的 设置 而 到 达 了 该 通道 的 总 服务 程序 的 入 口 ， 
假定 为 IRQOx03_interrup. Hi "Prae CPU 在 用 户 空 间 中 运行 时 发 生 的 ， 当 前 的 运行 级 刊 CPL 为 3; 
而 中 断 服 务 程序 属于 内 核 ， 其 运行 级 别 DPL 为 0， 一 者 不 同 。 所 以 ，CPU JA E ES TR 所 指 的 当前 
TSS 中 取出 用 于 内 核 (0 级 ) 的 堆栈 指针 ， 并 把 堆栈 切换 到 内 核 堆栈 ， 即 当前 进程 的 系统 字 间 堆栈 。 应 
沪指 出 ，CPU 每 次 使 用 内 核 堆栈 时 对 堆栈 所 作 的 操作 总 是 均衡 的 ， 所 以 每 次 从 系统 空间 返回 到 用 户 空 
间 时 堆栈 指针 一 定 回 钊 其 原点 ， 或 日 “堆栈 底部 ”也 就 是 说 ， 当 CPU 从 TSS 中 取出 内 核 堆栈 指针 并 
切换 到 内 核 堆 栈 时 ， 这 个 堆栈 一 定 是 空 的 。 这 样 ， 当 CPU 进入 TRQOx03_interrupt Bt, HERG RR af a 
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EFLAGS 的 内 容 以 及 返回 地 址 外 就 一 无 所 有 了 。 另 外 ， 由 十 所 穿 过 的 是 中 断 门 ( 沿 不 是 陷阱 门 )， 所 以 
中 断 已 被 关 断 ， 在 重新 开启 中 断 之 前 再 没有 其 他 的 中 断 可 以 发 生 了 。 

中 断 服务 的 总 入 口 IRQOxYY. interrupt. 的 代码 以 前 已 经 见 到 过 了 ， 但 为 方便 起 见 再 把 它 鹿 出 在 这 
里 。 再 说 ， 我 们 现在 的 认识 也 可 以 更 深入 -- 些 了 。 

如 前 所 述 ， 所 有 公用 中 断 请 求 的 服务 程序 总 入 口 是 由 gee 的 预 处 理 阶 段 生成 的 ， 全 部 都 其 有 相同 
的 模式 ; 


asm  ( \ 
TM \ 
“TRQOx03 interrupt: \n\t” \ 
"pushl $0x03-256 \n\t” \ 
“jmp common interrupt^); 


这 段 程序 的 目的 在 于 将 -… 个 与 中 断 请 求 号 相关 的 数值 斥 入 堆栈 ， 使 得 在 common interrupt 中 可 以 
通过 这 个 数 但 来 确定 该 次 中 断 的 来 源 。 可 是 为 什么 要 从 中 断 请求 号 0x03 PRE 256 使 其 变 成 负数 呢 ? 
就 用 数值 0x03 FAB AR ST 44? 这 是 因为 ,系统 堆栈 中 的 这 个 位 置 在 因 系统 调用 而 进入 内 核 时 要 用 
来 存放 系统 调用 号 ， 而 系统 调用 又 与 中 断 服务 共用 一 部 分 子 程序 。 这 样 ， 就 要 有 个 手段 来 加 以 区 分 。 
当然 ， 要 区 分 系统 调用 号 和 中 断 请 求 号 并 不 非得 把 其 中 之 一 变 成 负数 不 可 。 例 如 ， 在 中 断 请 求 号 上 加 
上 个 常数 ， 比 方 说 0x1000， 也 可 以 达到 目的 。 但 是 ， 如 果 考 虑 到 运行 时 的 效率 ， 那 么 把 其 中 之 一 变 
成 负数 无 疑 趾 效率 最 高 的 。 将 - -个 整数 装 入 到 一 个 通用 寄存 器 之 后 ， 要 判断 它 是 否 大 丁 等 本 0 是 很 方 
便 的 ， 只 要 一 条 寄存 器 指令 就 可 以 了 ， 如 “orl S%eax, 9696eax" HK "testl W%ecx, M%ecx” dan] LAI 
到 目的 。 而 如 果 此 与 另 一 个 常数 相 比 较 ， 那 就 至 少 要 多 访问 RAG. Miko TETUAN AR 
中 的 有 些 代码 看 似 简单 ， 好 像 上 只 是 作者 随意 的 决定 ， 但 实际 上 却 是 经 过 精心 推 项 的 。 

公共 的 跳 转 目 标 common_interrupt( ) 是 在 include/asm-i386/hw. irq.h 中 定义 的 : 


[IRQOx03_interrupt -> common interrupt] 


152 define BUILD COMMON IRQ( ) \ 
153 asmlinkage void call do IRQ(void); \ 


154 . asm (V 

155 "wn" ALIGN STR^An" \ 

156 ”"common_interrupt:\n\t” \ 
157 SAVE ALL X 

158 "pushl $ret_from_intr\n\t” \ 


159 SYMBOL NAME STR(call do IRQ)”:\n\t” \ 
160 ” jmp "SYMBOL NAME STR(do IRQ)) ; 
161 


这 里 主要 的 操作 是 宏 操 作 SAVE_ALL,， 就 是 所 谓 “ 保 存 现场 ”， 把 中 断 发 生前 夕 所 有 寄存 器 的 内 容 
都 保存 在 堆栈 中 ， 待 中 断 服务 完毕 要 返回 之 前 再 来 “恢复 现场 "SAVE_ALL 的 定义 在 arch/i386/ 
kemel/entry.S 中 : 


86 define SAVE ALL \ 
87 cld; \ 
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88 pushl %es; X 

89 pushl %ds; \ 

90 pushl %eax; \ 

91 push? %ebp; \ 

92 pushl %edi; \ 

93 pushl %esi; \ 

94 pushl %edx; \ 

95 pushl %ecx; \ 

96 pushl *ebx; X 

97 movl $( KERNEL DS), %edx; \ 
98 mov] %edx, %ds; \ 
99 movl %edx, %es; 


这 里 要 指出 两 点 : 第 一 是 标志 位 寄存 器 EFLAGS 的 内 容 并 不 是 在 SAVE. ALL 中 保存 的 , 这 是 因为 
CPU 在 进入 中 断 服 务 时 已 经 把 它 的 内 容 连 同 返 局 地 址 一 起 压 入 堆栈 了 。 第 二 是 段 寄存 器 DS 和 ES 原来 
的 内 容 被 保存 在 堆栈 中 ， 然 后 就 被 改 成 指 阅 几 于 内 核 的 _KERNEL_DS。 我 们 在 第 2 章 中 讲 过 ， 
. KERNEL DS fll USER DS 都 指向 从 0 开始 的 室 间 ， 所 不 同 的 只 是 运行 级 别 DPL — HOR, 5B 
一 个 为 3 级 。 至 于 原来 的 堆栈 段 寄 存 器 SS 和 堆栈 指针 SP 的 内 容 ， 则 或 者 已 被 压 入 堆栈 《如果 更 换 堆 
BO, 或 者 继续 使 用 而 无 需 保存 (如 果 不 更 换 堆栈 )。 这 样 ， 在 SAVE_ALL UU, HER PHA ARR 
图 3.6 形式 。 


| 









用 户 堆栈 指针 












返回 地 址 


称 为 orig_eax (Oringinal eax 4L X) 


系统 堆栈 指针 


图 3.6 进入 中 断 服务 程序 时 系统 堆栈 示意 图 


此 时 系统 堆栈 中 各 项 相对 于 堆栈 指针 的 位 置 如 图 3.6 所 未 ， 而 arch/i386/kerneVentry.S. 中 也 根据 这 
些 关 系 定义 了 一 些 常数 ; 
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50 EBX = 0x00 
51 ECX = 0x04 
52 EDX = Ox08 
53 ESI = 0x0C 
54 EDI = 0x10 
55 EBP = 0x14 
56 EAX = 0x18 
57 DS = Ox1C 
58 ES = 0x20 
59 ORIG EAX = 0x24 
60 EIP = 0x28 
61 CS = 0x2C 
62 EFLAGS - 0x30 
63 OLDESP = 0x34 
64 OLDSS = 0x38 


这 里 的 EAX， 举 例 来 说 ， 当 出 坝 在 entry.$ 的 代码 中 时 并 不 是 表示 寄存 器 %9%eax， 而 是 表示 该 寄存 
器 的 内 容 在 系统 堆栈 中 的 位 置 相 对 于 此 时 的 堆栈 指针 的 位 移 。 前 面 在 转 入 common_interrupt Z Bii FX 
堆栈 的 《中 断 调 用 号 一 236》 所 在 的 位 置 称 为 ORIG_EAX， 对 中 断 服 务 程序 而 言 它 代表 着 中 断 请 求 号 

回 到 common interrupt 的 代码 。 在 SAVE_ALL 以 后 ， 又 将 一 个 程序 标号 〈 人 入 口 ) ret. from, intr H 
入 堆栈 ， 并 通过 jmp ORAL BRIEF do_IRQ( )。 读 者 可 能 已 注意 到 ，IRQOx03_interrrupt 和 
common interrupt KELAR ERG CRRA return 相当 的 指令 ， 所 以 从 common. interrupt 不 能 
返回 到 IRQ0x03_interrupt， 而 从 IRQOx03_interrupt 也 不 能 执行 中 断 返 回 。 可 是 ，do_IRQ( ) 却 是 一 个 函 
数 。 所 以 ， 在 道 过 jmp 指令 转 入 do_IRQ( ) 之 前 将 返回 地 址 ret. from. intr 压 入 堆栈 就 模拟 了 一 次 函数 调 
用 ， 仿 佛 对 do_IRQ( ) 的 调用 就 发 生 在 CPU 进入 ret from intr 的 第 一 条 指令 前 夕 一 样 。 这 样 ， 当 从 
do_TRQ(C) 返 回 时 就 会 “返回 ”到 ret. from. intr 继续 执行 。do_IRQ( ) 是 在 arch/i386/kernel/irq.c 中 定义 的 ， 
我 们 先 来 看 开头 几 行 : 


[IRQOx03_interrupt -> common interrupt -> do. IRQ( )] 


543 /* 

544 * do IRQ handles all normal device IRQ s (the special 
545 * SMP cross-CPU interrupts have their own specific 
546 * handlers). 

547 — */ 

548 asmlinkage unsigned int do IRQ(struct pt regs regs) 
549 | 

550 /* 

551 We ack quickly, we don’t want the irq controller 


* 
552 * thinking we're snobs just because some other CPU has 
553 * disabled global interrupts (we have already done the 
554 * INT ACK cycles, it's too late to try to pretend to the 
555 * controller that we aren't taking the interrupt). 
556 * 
557 * 
558 * 


0 return value means that this irq is already being 
handled by some other CPU. (or is disabled) 
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559 */ 

560 int irq = regs. orig eax & Oxff; /* high bits used in ret from codo */ 
561 int cpu = smp processor id( ); 

562 irq desc t *desc = irq desc + irq; 

563 struct irgaction * action; 

564 unsigned int status; 

565 


函数 的 油 用 参数 是 一 个 pt regs 数据 结构 。 注意 , 这 是 个 数据 结构 ， 而 不 是 指 问 数据 结构 的 指针 。 
也 就 想 说 ， 在 堆栈 中 的 返回 地 址 以 上 的 位 置 上 应 该 是 一 个 数据 结构 的 映 象 。 数 据 结构 struct pt regs 是 
fF. include/asm-i386/ptrace.h 中 定义 的 ; 


23 /* this struct defines the way the registers are stored on the 
24 stack during a system call. */ 
25 

26 struct pt regs | 

21 long ebx; 

28 long ecx; 

29 long edx: 

30 long esi; 

31 long edi; 

32 long ebp; 

33 long eax: 

34 int xds; 

35 int xes; 

36 long orig eax; 

37 long eip; 

38 int xcs; 

39 long eflags; 

40 long esp; 

41 int xss; 

42  ]; 


AREA FE SAB ERU A EISE ES] ASCHER VJ EE ALAA: 原来 前 面 所 做 的 一 切 , 包括 CPU 
TA IT BSA, 实际 上 都 是 在 为 do_IRQ( ) 建 立 一 个 模拟 的 子 程序 调用 坏 域 , 使 得 在 do IRQC) 
中 归 可 以 方便 地 知道 进入 中 断 前 夕 各 个 寄存 器 的 内 容 ， 又 可 以 在 执行 完毕 后 返回 到 ret. from intr, Ff 
从 那里 执行 中 断 返 回 。 可 想 而 知 ， 当 do_IRQ( ) 调 用 具体 的 中 断 服务 程序 时 也 一 定 会 把 pt_regs 数据 结 
构 的 内 容 传 下 去 ， 不 过 那 时 只 要 传 一 个 指针 襄 够 了 。 读 者 不 妨 回 顾 一 下 我 们 在 第 2 章 中 讲 过 的 负面 异 
常服 务 程序 do_page_fauit( )， 其 调用 参数 表 为 : 


asmlinkage void do page fault(struct pt regs *regs, unsigned long error code); 


第 一 个 参数 就 是 指向 struct pt regs 的 指针 ， 实 际 上 就 是 指向 系统 堆栈 中 的 那 块 地 方 。 当 时 我 们 无 

法 将 这 一 点 讲 清楚 ， 所 以 略 了 过 去 。 而 现在 结合 进入 中 断 的 过 程 一 看 就 清楚 了 。 不 过 ， 页 和 而 异常 并 不 

属于 通用 的 中 断 请 求 ， 而 是 为 CPU 保留 专用 的 ， 所 以 中 断 发 生 时 并 不 经 过 do_IRQ( ) 这 条 路 线 ， 但 是 
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对 十 系统 堆栈 的 这 种 安排 基本 上 是 EON. 

以 后 读者 还 会 看 到 ， 对 系统 堆栈 的 这 种 安排 不 光 用 于 中 断 ， 还 用 于 系统 调用 。 

前 面 讲 过 ， 在 耻 Q0x03_interrupt 中 把 数值 (0x03 一 256) 压 入 堆栈 的 目的 是 使 得 在 公共 的 中 断 处 理 
程序 中 可 知道 中 断 的 来 源 ， 坝 在 进入 do_IRQ( ) 以 后 的 第 件 事 就 是 紫 弄 清 这 一 点 。 以 及 Q3 为 例 ， 压 
入 堆栈 的 数值 为 0xffffff03， 现 在 通过 regs.orig_eax 读 回 来 并 且 把 高 位 屏蔽 掉 ， 就 又 得 到 0x03。 由 于 
do_IRQ() 仅 用 寺中 断 服 务 ， 所 以 不 需要 顾及 系统 调用 时 的 情况 。 

ARASH 561 行 的 smp_processor_id( ) 直 为 多 处 理 器 SMP 结构 而 设 的 ,在 单 处 理 器 系统 中 总 是 返回 0。 
现在 ， 既 然 中 断 请 求 号 已 经 恢复 ， 从 数 纽 irq_desc[ ] 中 找到 相应 的 中 断 请 求 队列 当然 是 轻而易举 的 了 

C562 行 )。 下 面 就 是 对 具体 中 断 请 求 队列 的 操作 了 。 我 们 继续 在 do_IRQ( ) 中 往 下 看 : 


[IRQOx03_interrupt -> common, interrupt -> do_IRQ( )] 
566 kstat. irqstcpdj[irq]++; 


567 spin lock(&desc->lock) ; 
568 desc-^handler-^ack(irq); 


569 /六 

570 REPLAY is when Linux resends an IRQ that was dropped earlier 
571 WAITING is used by probe to mark irgs that are being tested 
572 */ 


573 status = desc—>status & "(IRQ REPLAY | TRQ WAITING) ; 
574 status |= IRQ PENDING; /* we want to handle it */ 


515 

576 /* 

577 * If the TRQ is disabled for whatever reason, we cannot 
578 * use the action we have. 

579 */ 


580 action 7 NULL; 
581 if (!(status & (TRQ DISABLED | IRQ INPROGRESS))) { 


582 action = desc-?action; 

583 status &= "IRQ PENDING; /* we commit to handling */ 
584 status |= IRQ INPROGRESS; /* we are handling it */ 
585 } 

586 desc—>status = status; 

587 


当 通 过 中 断 门 进入 中 断 服务 时 ，CPU 的 中 断 响 应 机 制 就 白 动 被 关 断 了 。 既 然 已 经 关闭 小 断 ， 为 什 
A, 567 行 还 要 调用 spin_lock( ) 加 锁 呢 ? 这 是 为 多 处 理 器 的 情况 而 设置 的 ， 我 们 将 在 “多 处 理 器 SMP 系 
统 结 构 ”…- 章 中 讲述 ， 这 里 暂 日 只 考虑 单 处 理 器 结构 。 

中 断 处 理 器 (如 i8259A) 在 将 中 断 请 求 “ 上 报 ” 到 CPU 以 后 ， 期 待 CPU 给 它 一 个 确认 ‘ACK)， 
表示 “我 已 经 在 处 理 ” 这 里 的 568 行 就 是 做 这 件 事 。 对 函数 指针 desc->handle->ack 的 设置 前 而 已 经 讲 
过 。 从 569 行 至 586 行 主要 是 对 desc->status， 即 中 断 通 道 状 态 的 处 理 和 设置 ， 关 键 在 于 将 其 
IRQ INPROGRESS 标志 位 设 成 1， 而 将 IRQ PENDING 标志 位 清 0。 其 中 IRQ_INPROGRESS X: E 
为 多 处 理 器 设置 的 ， 而 IRQ_PENDING 的 作用 则 下 面 就 会 看 到 : 


[IRQOx03_interrupt -> common interrupt -> do, IRQ( )] 
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588 /* 

589 * If there is no IRQ handler or it was disabled, exit early. 
590 Since we set PENDING, if another processor is handling 

591 a different instance of this same irq, the other processor 
592 will take care of it 

593 */ 

594 if (laction) 

595 goto oul; 

596 

597 /* 

598 * Edge triggered interrupts need to remember 

599 * pending events. 

600 * This applies to any hw interrupts that allow a second 

601 * instance of the same irq to arrive while we are in do IRQ 
602 * or in the handler. But the code here only handles the second 
603 * instance of the irq, not the third or fourth. So it is mostly 
604 * useful for irq hardware that does not mask cleanly in an 
605 * SMP environment. 

606 */ 

607 for (;;) { 

608 spin unlock (&desc->1ock) ; 

609 handle IRQ event (irq, &regs, action); 

610 spin lock(&desc-?lock):; 

611 

612 if (!(desc— status & IRQ PENDING)) 

613 break; 

614 desc >status &= “IRQ PENDING: 

615 } 

616 desc-^status &- "IRQ INPROGRESS; 

617 out: 

618 /* 

619 * The —^end( ) handler has to deal with interrupts which got 
620 * disabled while the handler was running 

621 */ 


622 desc->handler->end (irq) ; 
623 spin unlock (&desc->lock) ; 


如 果 共 -一 个 中 断 请 求 队列 的 服务 是 关闭 着 的 (IRQ_DISABLED 标志 位 为 1)， 或 者 
IRQ INPROGRESS 标志 位 为 1， 或 者 队列 是 空 的 ， 屠 么 指针 action A NULL (A 580 和 582 47), 无 法 
往 下 执行 了 ,所 以 只 好 返回 。 但 是 , 在 这 几 种 情况 下 desc->status 中 的 IRQ PENDING 标志 为 1( 见 574 
$1583 行 )。 这 样 ， 以 后 妾 CPU《 在 多 处 理 器 系统 结构 中 有 可 能 是 另 一 个 CPU) 开启 该 队列 的 服务 时 ， 
会 看 钊 这 个 标志 位 而 补 上 一 次 帆 断 服务 ， 称 为 “IRQ_REPLAY”。 山 如 果 队 列 是 空 的 ， 滥 么 蛛 个 通道 也 
必然 是 关 着 的 ， 因 为 这 是 在 将 第 一 个 服务 程序 挂 入 队列 时 才 开 启 的 。 所 以 ， 这 两 种 情形 实际 上 相同 。 
最 后 一 种 情况 是 服务 已 经 开启 ， 队 列 也 不 是 空 的 ， 吕 是 IRQ INPROGRESS 标志 为 1。 这 只 有 在 项 种 情 
IE FX ARE. -种 情 彤 是 在 多 处 理 器 SMP 系统 结构 中 ， 一 个 CPU FETIS. i5) —4* CPU X. 
进入 了 do_IRQ()， 这 时 候 由 于 队 记 的 IRQ_INPROGRESS 标志 为 1 而 经 595 行 返回， 此 时 desc-»status 
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中 的 IRQ PENDING 标志 位 也 是 1。 第 2 种 情形 足 企 单 处 理 器 系统 中 CPU 凯 经 在 中 断 服 务 程序 小 ， 但 
RR eae aes meh AS ATE HB X PET. CERAM PORE 
AY AS ke i te 2 Al Ay IRQ INPROGRESS 标志 为 1 而 经 595 行 返 回 ， 但 也 是 将 desc->status 的 
IRQ PENDING BMA 1. BL. XWP TEER TÉ. BD desc->status 中 的 
IRQ PENDING 标志 位 为 1。 

那么 ，IRQ_PENDING 标志 位 到 底 是 怎样 起 作用 的 呢 ? 请 看 612 和 613 两 行 。 这 是 在 一 个 无 限 for 
循环 中 ， 具 体 的 中 断 服务 是 在 609 行 的 handle_IRQ_event( ) 中 进行 的 。 在 进入 609 行 时 ，desc->status 
中 的 IRQ_PENDING 标志 必然 为 0。 当 CPU 完成 了 具体 的 中 断 服 务 返回 到 610 行 以 后 ， 如 果 这 个 标志 
位 仍然 为 0， 那么 循环 就 在 613 行 结束 了 。 而 如 果 变 成 了 1， 那 就 说 明 已 经 发 牛 过 前 述 的 其 种 情况 ,所 
EL XAR BIS 609 行 再 服务 一 次 。 这 样 ， 就 把 本 米 可 能 发 生 的 在 同一 通道 上 〈 甚 全 可 能 来 自 可 -中断 
源 ) 的 中 斯 嵌 僚 化 解 成 为 “个 循环 。 

这 样 ， 间 个 中 断 通道 上 的 中 断 处 理 就 得 到 了 严格 的 “ 串 行 化 ”>。 也 就 是 说 ， 对 于 同一 个 CPU 而 
BAST PARSE, TFA) CPU 则 不 允许 并 发 地 进入 同一 个 中 断 服 务 程序 。 如 果 不 是 这 样 
处 理 的 话 ， 2 eds n 
Wit ASMA f. A BALI eT ASE, ABE ASE SAB. JEN ISEPÉ). Wi Linux 的 
ee iT 
情况 卜 ， 也 有 可 能 会 发 生 这 样 的 情景 ， 中断 服务 程序 中 总 是 把 中 断 打 开 ， 而 中 断 源 又 不 断 地 产生 中 断 
请 求 ， 使 得 CPU 每 次 从 handle_IRQ_event( ) 返 回 时 IRQ_PENDING 标志 永远 是 1， 从 而 使 607 行 的 for 
循环 变 成 一 个 真正 的 “无 限 ” 循 坏 。 如 果真 的 发 生 这 种 情况 而 得 个 到 纠正 的 话 ， 那 么 该 中 断 服务 程序 
KE DK eat T o 

还 要 指出 ， 对 desc-»status 的 任何 改变 都 是 在 加 锁 的 情况 下 进行 的 ， 这 也 是 出 于 对 多 处 理 器 SMP 
系统 结构 的 考虑 。 

最 后 ， 在 循环 结束 以 后 ， 只 要 本 队 刻 的 中 断 服务 还 是 并 着 的 ， 就 要 对 中 断 控 制 器 执行 一 次 “结束 
中 断 服务 ”操作 C622 行 ;)， 具 体 取决 十 中断 控制 器 硬件 的 要 求 ， 所 调用 的 孙 数 也 是 在 队列 初始 化 时 设 
置 好 的 。 

HE Li for 循环 中 调用 的 handle_IRQ_event( )， 这 个 函数 依次 执行 队列 中 的 各 个 中 断 服 务 程序 
让 它们 鸭 认 本 次 中 断 请 求 是 否 来 自 各 自 的 服务 对 和 象 ， 即 中 断 源 ， 如 果 是 就 进而 提供 相应 的 服务 。 KA 
个 也 看 irg.c 中 


[TRQOx03_interrupt -> common interrupt -> do. IRQ() > handle IRQ event( )] 


418 /* 

419 * This should really return information about whether 

420 * we should do bottom half handling etc. Right now we 

421 * end up always checking the bottom half, which is a 

422 * waste of time and is not what some drivers would 

423 * prefer. 

424 */ 

425 int handle IRQ event(unsigned int irq, struct pt regs * regs, 
struct irqaction * action) 

426 { 

427 int status; 
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428 int cpu = smp processor id( ); 

429 

430 irq enter(cpu, irq); 

431 

432 status = 1; /* Force the “do bottom halves” bit */ 
433 

434 if (!(action-^flags & SA INTERRUPT) ) 

435 __sti( ); 

436 

437 do 1 

438 status |= action->flags: 

439 action-^handler(irq, action->dev_id, regs); 
440 action = act ion—>next,; 


441 ) while (action); 
442 if (status & SA SAMPLE RANDOM) 


443 add interrupt randomness (iro); 
444 __cli(); 

445 

446 irq exit(cpu, irq); 

447 

448 return status; 

499  ] 


其 中 430 FTA irg enter( ) 和 446 行 的 irq_exit( ) 只 是 对 一 个 计数 器 进行 操作 ， 二 者 均 定义 于 
include/asm-i386/hardirg.h: 


34 #define irq enter (cpu, irq) (++local irg count[cpu]) 
35 #define irq exit(cpu, irq) (--local irq count [cpu]) 


当 这 个 计数 器 的 值 为 非 0 时 就 表示 CPU 下 处 十 具体 的 中 断 服务 程序 中 ， 以 后 读者 会 看 到 有 些 操 作 
是 不 允许 让 此 期 间 进行 的 。 

一 般 来 说 ， 中 断 服务 程序 都 是 在 关闭 中 断 (不 包括 “不 可 屏蔽 中 断 ”NMI) 的 条 件 下 执行 的 ， 这 
也 是 CPU 在 穿越 中 断 门 时 自动 关中 断 的 奈 因 。 但 是 ， 关 中 肠 是 个 既 不 可 个 用 ， 义 不 可 混 几 的 手段 ， 特 
别 是 当中 断 服 务 程 序 较 长 ， 操 作 比 较 复 杂 时 ， 就 有 吕 能 因 关 闭 中 断 的 时 间 持 续 太 长 而 玉 失 其 他 的 中 断 。 
经 验 表明 ， 允 许 中 断 在 同 个 中 断 源 或 同 … 个 中 断 通 道 圣 套 是 应 该 避免 的 ， 因 此 内 核 在 do_IRQ( ) 中 通 
过 IRQ_PENDING 标志 位 的 运用 来 保证 了 这 : :点 。 可 是 ， 人 允许 中 断 在 不 同 的 通道 上 购 套 ， 则 只 更 处理 
得 当 就 还 是 可 行 的 。 当 然 ， 必 须 十 分 小 心 。 所 以 ， 在 凋 用 request_irq( ) 将 一 个 中 断 服务 程序 挂 入 其 个 中 
断 服务 队 你 时， 允许 将 参数 irqflags 中 的 “个 标志 位 SA_INTERRUPT 置 成 0， 表示 该 服务 程序 应 泳 在 
开启 中 断 的 情况 下 执行 。 这 时 的 434—435 行 和 444 行 就 是 为 此 而 设 的 〈_sti( ) 为 开 中 断 ，_clig ) 为 关中 
Wo. 

然后 ， 从 437 47 B 441 行 的 do. while (f&EREESERTETSRIET o “EK UR AFA SUR 5 8E pen 
服务 程序 。 调 用 的 参数 有 一 : irq AWK A; action-»dev id 是 个 void 指针 ， 由 具体 的 服务 程序 
自行 解释 和 运用 , 这 古山 设备 驱动 程序 在 调用 request irq( ) 时 自己 规定 的 ; 最 后 “个 就 是 前 述 的 pt_regs 
数据 结构 指针 regs Te ROAM PRISM, MARAIS MAIR, IRATE T . 
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读者 或 许 会 问 ， 如 果 中 断 请 求 队 列 中 有 多 个 服务 程序 在 在 ， 每 次 有 来 自 这 个 通道 的 中 斯 请 求 叶 就 
要 依次 把 队列 中 所 有 的 服务 程序 依次 者 执行 一 遍 ， 沁 非 使 效率 大 降 ? 回答 是 : 确实 会 有 所 下 降 ， 但 厅 
会 严重 。 首 先 ， 在 每 个 具体 的 中 断 服务 程序 中 玫 应 该 (通常 部 确 实 是 ) 一 开始 就 检查 各 自 的 中 断 源 ， 
一 般 是 读 相应 设备 (接口 卡 上 》 的 中 断 状态 寄存 器 ， 看 是 否 有 来 自 该 设备 的 中 断 请 求 ， 如 没有 就 马上 
返 名 了 ， 这 个 过 程 一 般 只 需要 几 条 机 器 指令 ; 其 次 ， 每 个 队列 中 服务 程序 的 数量 一 般 也 不 会 太 大 。 所 
以 ， 实 际 上 不 会 有 显著 的 影响 。 

最 后 ， 人 在 442 至 443 行 ， 如 果 队 询 中 的 某 个 服务 程序 要 为 系统 引入 一 些 随机 性 的 话 ， 就 调用 
add interrupt randomness( ) 来 实现 。 有 关 详 情 在 设备 驱动 一 章 中 还 会 讲 到 。 

从 handle IRQ event( ) 返 回 的 status 的 最 低位 必然 为 1， 这 是 在 432 行 设置 的 。 代 码 中 还 为 此 加 了 
些 注 解 〈418 一 424 行 )， 其 作 几 在 看 了 下 身 这 - 段 以 后 就 会 明白 。 我 们 随 着 CPU HA] do_IRQ( ) 中 继续 
住 下 看 : 


LIRQOx03_ interrupt -> common, interrupt -> do IRQ( )] 


625 if (softirq active(cpu) & softirq mask(cpu)) 
626 do softirq( ); 

627 return 1; 

628 ] 


到 624 TUE. MEAKAI PTR ER SI Ose ee, n eRIM T. nr iE Linux AK 
在 这 里 有 个 特殊 的 考虑 , AMENA softirg, HE CZEIN TE) 1) 软 性 的 中 断 请 求 ” 以 前 称 为 “bottom half”. 
在 Linux 中 ， 设 备 驱 动 程序 的 设计 人 员 可 以 将 中 断 服务 分 成 两 “ 半 ” 其 实 丰 两 “部 分 ”， 而 并 不 OE 
是 两 “ 半 ” 第 一 部 分 是 必须 立即 执行 ， 一 般 是 在 关中 断 条 件 下 执行 的 ， 并 .H. 必 须 是 对 每 次 请 求 都 单独 
执行 的 。 而 田 一 部 分 ， 凤 “后 半 ” 部 分 ， 是 可 以 稍 后 在 开 中 条 件 下 执行 的 ， 并 日 往往 可 以 将 若干 次 中 
断 服务 中 剩 下 来 的 部 分 合并 起 来 执行 。 这 些 操作 往往 是 比较 费时 的 ， 因 而 个 返 宜 在 关中 断 条 件 下 执行 ， 
或 者 不 适宜 一 次 占据 CPU 时 间 太 长 而 影响 对 其 他 中断 请 求 的 服务 。 这 就 是 所 谓 的 “后 半 ”(bottom 
halif)， 在 内 核 代码 中 常 简称 为 bb。 作为 一 个 比喻 ， 读 者 不 妨 想像 在 “cooked mode” 下 从 键盘 输入 字符 
串 的 过 程 ( 详 见 设备 驱动 )， 每 当 按 一 个 键 的 时 候 ， 首 先 要 把 字符 读 进 米 ， 这 要 放 在 “前 半 ” 中 执行 ， 而 
进一步 检查 所 按 的 是 否 “ 回 车 ” 键 ， 从 调 决 定 是 否 完 成 了 一 个 字符 串 的 输入 ， 并 进一步 把 睡眠 中 的 进 
程 唤醒 ， 则 可 以 放 在 “后 半 ” 中 执行 。 

执行 bh 的 机 制 是 内 核 中 的 一 项 “基础 设施 ”所 以 我 们 在 下 一 节 单 独 加 以 介绍 。 这 里 ， 读 者 暂且 
只 要 知道 有 这 么 问 事 就 行 了 。 

在 do_softirq( ) 中 执行 完 相 关 的 bh 函数 《如 果 有 的 话 ) 以 后 ， 就 到 了 从 do_IRQ( ) 返 同 的 时 候 了 。 
返回 到 哪里 ? entry.S. 中 的 标号 ret from intr. 处 ， 这 是 内 核 中 处 心 积 处 安排 好 了 的 。 其 代码 在 
arch/i386/kernel/entry.S 中 : 


[IRQOx03_interrupt -> common interrupt -> ... -> ret from intr] 


213 ENTRY (ret from intr) 
274 GET. CURRENT (%ebx) 


215 movl EFLAGS Gbesp) , %eax # mix EFLAGS and CS 
276 movb CS (%esp), %al 
277 test] $(VM MASK | 3),%eax # return to VM86 mode or non-supervisor? 
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278 jne ret with reschedule 
219 jmp restore all 
280 


这 里 的 GET_CURRENT(%ebx) 将 指向 当前 进程 的 task. struct 结构 的 指针 置 入 寄存 器 EBX. 275 íF 
和 276 行 则 在 寄存 器 EAX 中 拼凑 起 由 中 断 前 儿 寄 存 器 EFLAGS 的 高 16 位 和 代码 段 寄 存 器 CS 的 (16 
位 》 内 容 构 成 的 32 位 长 整数 。 其 目的 是 要 检验 ; 

e ‘PAY CPU 是 侣 运行 于 VM86 模式 。 

e 中 断 前 夕 CPU 这 行 于 用 户 空 间 还 是 系统 空间 。 

VM86 模式 是 为 在 1386 保护 模式 下 模拟 运行 DOS 软件 而 设置 的 。 在 寄存 器 EFLAGS 的 高 16 位 中 
有 个 标志 位 表示 CPU 止 在 VM86 模式 小 运 行 ， 我 们 对 VM86 模式 人 不感 兴趣 ， 所 以 不 予 深究 。 而 CS 的 
最 低 两 位 ， 那 就 有 文章 了 。 这 两 位 代表 着 小 断 发 生 时 CPU 的 运行 级 别 CPL。 我 们 知道 Linux 只 采用 两 
种 运行 级 别 ， 系 统 为 0， 用 户 为 3。 所 以 ， 若 是 CS 的 最 低 两 位 为 非 0， 屠 就 说 明 中 有 断 发 咎 于 用 户 空间 。 

顺便 说 下 一 下 , 275 行 的 EFLAGS (% esp) 表示 地 址 为 堆栈 指针 % esp 的 当前 值 加 上 常数 EFLAGS 
处 的 内 容 , 这 就 是 保存 在 堆栈 中 的 中 断 前 夕 寄存 器 %eflags 的 内 容 。 常数 EFLAGS 我 们 已 经 在 前 面 介绍 
过 ， 其 值 为 0x30。276 行 中 的 CS 〈%esp) 也 是 一 样 。 

如 果 中 断 发 生 于 系统 空间 , 控制 就 直接 转移 到 restore_all, 而 如 果 发 生 于 用 户 空间 (或 VM86 模式 ) 
则 转移 到 ret_with_reschedule。 这 里 我 们 假定 中 断 发 牛 于 用 户 空间 ， 因 为 从 ret_with_reschedule 最 终 还 
会 到 达 restore_all。 这 段 程序 在 同 - :文件 (entry.S) 中 ， 


[IRQOx03 interrupt -> common interrupt -> ... -> ret from intr -> ret with rescheduke] 


217 ret with reschedule: 
218 empl $0, need resched (%ebx) 


219 jne reschedule 
220 cmpl $0, sigpending (%ebx) 
221 jne signal return 


222 restore all: 

223 RESTORE ALL 

224 

225 ALIGN 

226 signal return: 

221 sti # we can get here from an interrupt handler 
228 test] $(VM MASK), EFLAGS (esp) 
229 movl %esp, %eax 

230 jne v86 signal return 

231 xorl %edx, %edx 

232 call SYMBOL NAME (do signal) 
233 jmp restore all 


这 里 ， 首 先 检查 是 否 需 紫 进行 “次 进程 调度 。 上 面 我 们 已经 看 到 ， 寄 存 器 EBX 中 的 内 容 就 是 当前 
进程 的 task. struct 结构 指针 ,而 need_resched(%ebx) 就 表示 该 task_struct 结构 中 位 移 为 need_resched 处 
的 内 容 。220 行 的 sigpending(9bebx) 也 是 一样。 常数 need resched 和 sigpending 的 定义 为 ，( 见 entry.S) 
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71 — /* 

12 * these are offsets into the task-struct. 
73 */ 

14 state = 0 

75 flags = 4 

76 sigpending = 8 

77 addr_limit = 12 

78 exec_domain = 16 

79 need resched = 20 


如 果 当 前 进程 的 task struct 结构 中 的 need resched 学 段 为 非 0， 即 表示 需要 进行 调度 ，reschedule 
也 在 arch/i386/kernel/entry.S 中 : 


[IRQOxO3. interrupt -> common. interrupt -> ... -> ret, from, intr ret with rescheduke -> reschedule] 


287 reschedule: 
288 call SYMBOL NAME (schedule) # test 
289 jmp ret from sys call 


程序 在 这 里 调用 .个 函数 schedule( ) 进 行 调度 ， 然 后 又 转移 到 ret. from, sys call. FAMERS 
用 一 节 中 再 加 讨论 。 全 于 schedule( ) 则 在 进程 一 章 中 介绍 ， 这 里 我 们 暂且 假定 不 需要 调度 。 读 者 以 后 会 
看 到 ， 如 果 要 调度 的 话 ， 从 ret from sys. call 处 经 过 一 段 略为 曲折 的 道路 最 终 也 会 到 达 restore. all. 

同样 ， 如 果 当 前 进程 的 task. struct 结构 中 的 sigpending 字段 为 非 0， 就 表示 该 进程 有 有“ 信号” 等待 
处 理 ， 要 先 处 理 了 这 些 待 处 理 的 信号 才 最 后 从 中 有 断 返 回 ， 所 以 先 转移 到 226 行 。 在 228 行 处 先 区 分 是 
否 VM86 模式 ， 然 后 将 寄存 器 %edx 的 内 容 清 0 (231 172. 再 调用 do_signal( )。“ 信 号 (signal)” 基 本 上 
是 一 种 进程 间 通 信和 的 于 段 ， 我 们 将 在 “进程 间 通 信 ” 一 章 中 加 以 介绍 。 处 理 完 信号 以 后 ， 控 制 还 龙 回 
到 222 行 的 restere all. Sf, ret from, sys call 最 后 还 回 到 ret_from_intr, 最 终 殊 途 同 归 都 会 到 达 
restore_all, 并 从 那里 执行 中 断 返 回 。 宏 操作 RESTORE. ALL 的 定义 也 在 同一 文件 (entry.S) 中 : 


101 Hdefine RESTORE ALL \ 
102 popl %ebx; 
103 pop! %ecx; 
104 popl %edx; 
105 popl *^esi; 
106 popl %edi; 
107 popl %ebp; 
108 popl %eax; 
109 1:  popl ds; \ 
110 2: popl %es; \ 

\ 

\ 


— Mn n mn 0n 08 


111 addl $4, %esp; 
112 3 iret; 


显然 ， 这 是 与 进入 内 核 时 执行 的 宏 操作 SAVE, ALL 腺 相对 应 的 。 为 方便 读者 加 以 对 照 ， 我 们 再 把 
SAVE. ALL (entry.S) 列 出 在 这 时 : 
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86 #define SAVE ALL \ 


87 cld; \ 

88 pushl %es; X 

89 pushl 9ds; \ 

90 pushl %eax: \ 

91 pushl *ebp; \ 

92 pushl *edi; \ 

93 pushl 9*esi; \ 

94 pushl %edx; \ 

95 pushl %ecx; \ 

96 pushl %ebx; V 

97 movl $( KERNEL DS), %edx; V 
98 movl %edx, %ds; V 
99 movl %edx, Aes; 
100 


为 什么 在 RESTORE ALL 的 111 行 要 将 堆栈 指针 的 当前 值 加 4? 这 是 为 了 跳 过 ORIG_EAX, WE 
在 进入 中 断 之 初 压 入 堆栈 的 中 断 请 求 号 (经 过 变形 )。 我 们 已 经 看 到 在 do_IRQ( ) 中 的 第 --- 件 事 就 是 从 
中 取出 其 最 低 8 位 , 然后 以 此 为 下 标 从 irq_desc[ ] 中 找到 相应 的 中 断 服务 描述 结构 。 以 后 在 讲述 系统 调 
用 和 蜡 常 时 读者 会 进一步 看 到 其 作用 。 读 者 也 许 会 问 : 那 为 什么 不 像 对 堆栈 中 的 其 他 内 容 一 样 也 使 用 
popl 指令 呢 ? 是 的 , 在 正常 的 情况 下 确实 应 该 使 用 pop 指令 , 但 是 popl 指令 … 定 是 与 一 个 寄存 器 相 联 
系 的 ， 现 在 所 有 的 寄存 器 都 已 占 满 了 ， 还 能 popl 到 哪儿 去 呢 ? 

这 样 ， 当 CPU 到 达 112 行 的 iret 指令 时 ， 系 统 堆栈 又 恢复 到 刚 进 入 中 断 门 时 的 状态 ， 而 iret 则 使 
CPU 从 中 断 返 回 。 跟 进入 中 断 时 相对 应 ， 如 果 是 从 系统 态 返 回 到 用 户 态 就 会 将 当前 堆栈 切换 到 用 户 堆 
栈 。 


3.5 软 中 断 与 Bottom Half 


中 断 服务 一 般 都 是 在 将 中 断 请 求 关 闭 的 条 件 下 执行 的 ， 以 避免 嵌 套 而 使 控制 复杂 化 。 可 是 ， 如 果 
关中 断 的 时 间 持 续 太 长 就 可 能 因为 CPU 不 能 及 时 响应 其 他 的 中 其 请 求 而 使 中 斯 〈 请 求 ) 丢失， 为 此 ， 
内 核 允许 在 将 具体 的 中 断 服 务 程序 挂 入 中 断 请 求 队列 时 将 SA_INTERRUPT 标志 置 成 0, 使 这 个 中 断 服 
务 程序 在 开 中 的 条 件 下 执行 。 然 而 ， 实 际 的 情况 往往 是 ， 若 在 服务 的 全 过 程 关 中 断 则 “扩大 打击 面 ” 
而 全 程 开 中 则 又 造成 “不 安定 因素 ” 很 难 取 舍 。 一 般 来 说 , 一 次 中 断 服 务 的 过 程 常 常 可 以 分 成 两 部 分 。 
开头 的 部 分 往往 是 必须 在 关中 断 条 件 下 执行 的 。 这 样 才能 在 不 受 干扰 的 条 件 下 “原子 ”地 完成 一 些 关 
键 性 操作 。 同 时 ， 这 部 分 操作 的 时 间 性 又 往往 很 强 ， 必 须 在 中 断 请 求 发 生 后 “立即 ”或 至 少 是 在 一 定 
的 时 间 限 制 中 完成 ， 而 且 相继 的 多 次 中 断 清 求 也 不 能 合并 在 一 起 来 处 理 。 而 后 半 部 分 ， 则 通常 可 以 、 
而 且 应 该 在 开 中 条 件 下 执行 ， 这 样 才 不 全 于 因 将 中 断 关 闭 过 久 而 造 成 其 他 中 断 的 丢失 。 同 时 ， 这 些 操 
作 常 常 允 许 延 迟到 稍 后 才 来 执行 ， 而 且 有 可 能 将 多 次 中 断 服 务 中 的 相关 部 分 合并 在 一 起 处 理 。 这 些 不 
疗 的 性 质 常 常 使 中 断 服 务 的 前 后 两 半 明 显 地 区 分 开 来 ， 可 以 、 而 且 应 该 分 别 加 以 不 同 的 实现 。 这 里 的 
后 半 部 分 就 称 为 “bottom haif”， 在 内 核 代 码 中 常常 缩写 为 bh。 这 个 概念 在 相当 程度 上 米 白 RISC 系统 
结构 。 在 RISC 的 CPU 中 ， 通 常 都 有 大 量 的 寡 存 器 。 当 中 断 发 生 时 ， 要 将 所 有 这 些 寄 存 器 的 内 容 部 应 
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入 堆栈 ， 并 在 返回 时 加 以 恢复 ,为 此 而 付出 很 高 的 代价 。 所 以 ， 在 RISC 结构 的 系统 中 往往 把 中 断 服 务 
分 成 贱 部 分 。 第 一 部 分 只 保存 为 数 不 多 的 寄存 器 ‘内容 )， 并 利用 这 为 数 不 多 的 寄存 器 来 完成 有 限 的 关 
键 性 的 操作 ， 称 为 “ 轻 量 级 中 断 “。 谭 男 一 部 分 ， 那 就 相当 于 这 时 的 bh 了 。 虽 然 i386 的 结构 主要 是 
CISC 的 ， 面 临 的 问题 不 尽 相 同 ， 但 前 述 的 问题 已 经 使 bh 的 必要 性 在 许多 情况 下 变 得 很 明显 了 。 
Linux 内 核 为 将 中 断 服务 分 成 两 半 提供 了 方便 ， 并 设立 了 相应 的 机 制 。 在 以 前 的 内 核 中 ， 这 个 机 制 
就 称 为 bb。 但 是 ， 在 2.4 版 《确切 地 说 是 2.3.43》 中 有 了 新 的 发 展 和 推广 。 
以 前 的 内 核 中 设置 了 一 个 函数 指针 数组 bh_base[ ]， 其 大 小 为 32， 数 纽 中 的 每 个 指针 可 以 用 来 指向 
:个 具体 的 bh 函数 。 同 时 ， 又 设置 了 两 个 32 位 无 符号 整数 bh. active 和 bh_mask， 每 个 无 符号 整数 中 
的 32 位 对 应 着 数组 bh_base[ ] 中 的 32 个 元 素 。 
我 们 可 以 在 中 断 与 bh :者 之 间 建 立 起 一 种 类 比 。 
(1) 数组 bh_base[ ] 相 当 于 硬件 中 断 机 制 中 的 数组 irq_desc[ ]。 不 过 irq_desc[ ] 中 的 每 个 元 素 代 表 
着 一 个 中 断 通 道 , 所 以 是 一 个 中 断 服务 程序 队列 。 而 bh. basep ] 中 的 等 个 元 素 却 最 多 只 能 代表 
一 个 bh 函数 。 但 是 ， 尽 管 如 此 ， 二 者 在 概念 上 还 是 相同 的 。 

(2) 无 符号 整数 bh_active 在 概念 上 相当 于 硬件 的 “中 断 请 求 寄存 器 ” 而 bh mask 则 相当 于 “ 中 
Wi be ST EAR T. 

3) “需要 执行 -个 bh 函数 时 ， 就 通过 一 个 函数 mark. bh( ) 将 bh. active 中 的 革 位 设 成 1， 相当 于 
中 断 源 发 出 了 中 断 请求 ， 而 所 设置 的 具体 标志 位 则 类 似 于 “中 断 向 量 ”。 

(4)， 如 果 相当 于 “中 断 屏 蔽 寄存 器 ”的 bh, mask 中 的 相应 位 也 是 1, 即 系统 允许 执行 这 个 bh 函数 ， 
那么 就 会 在 每 次 执行 完 do_IRQ() 中 的 中 断 服 务 程 序 以 后 ， 以 及 每 次 系统 调用 结束 之 时 , 在 
个 函数 do. bottom. half( ) 中 执行 相应 的 bh 函数 。 而 do. bottom balf( )， 则 类 似 于 do IRQ). 

为 了 简化 bh 函数 的 设计 ， 在 do bottom, half( ) 中 也 像 do_IRQ( ) 中 一 样 ， 把 bh 函数 的 执行 严格 地 
“ 串 行 化 ”了 。 这 种 串 行 化 有 两 方面 的 考虑 和 措施 : 

一 方面 ，bh 函数 的 执行 不 允许 幅 套 。 如 采 在 执行 bh 函数 的 过 程 中 发 生 中 断 ， 那 么 由 于 每 次 中断 服 
务 以 后 在 do_IRQ( ) 中 都 要 检查 和 处 理 bh 也 数 的 执行 ， 就 有 可 能 典 套 。 为 此 ， 人 在 do bottom half ) 中 针 
对 同一 CPU 上 的 嵌 套 执行 加 了 锁 。 这 样 ， 如 盯 进 入 do_bottom_half( ) 以 后 发 现 已 经 上 了 锁 ， 就 立即 返 
回 。 因 为 这 说 明 CPU 在 本 次 中 断 发 生 之 前 已 经 在 这 个 函数 中 了 。 

另 一 方面 ， 是 在 多 CPU 系统 中 ， 在 同 -时 间 内 最 多 只 允许 一 个 CPU 执行 bh 函数 ， 以 防 有 两 个 其 
至 更 多 个 CPU 同时 来 执行 bh 函数 而 互相 和 干扰。 为 此 在 do_bottom_half( ) 中 针对 不 同 CPU 同时 执行 bh 
函数 也 加 了 了 锁 。 这 样 ， 如 果 进 入 do_bottom_half( ) 以 后 发 现 这 个 锁 已 经 锁 上 ， 就 说 明 已 经 有 CPU FA 
ÍT bh 函数 ， 所 以 也 立即 返 冉 。 

这 两 条 措施 ， 特 别 是 第 二 条 措施 ， 保 证 了 从 单 CPU 结构 到 多 CPU SMP 结构 的 平稳 过 渡 。 可 是 ， 
在 当时 的 Linux 内 核 可 以 在 多 CPU SMP 结构 上 稳定 运行 以 后 ,就 慢 慢 发 现 这 样 的 处 理 对 于 多 CPU SMP 
结构 的 性 能 有 不 利 的 影响 。 原 因 就 在 十 上 述 的 第 -条 措施 使 bh 函数 的 执行 完全 品行 化 了 。 当 系统 中 有 
很 多 bh 函数 需要 执行 时 , 虽然 系统 中 有 多 个 CPU 存在 , 却 只 有 一 个 CPU 这么 ”个 独木桥 ” 跟 do_IRQ(O) 
作 一 比较 就 可 以 发 现 ， 在 do. RQ ) 中 的 串 行 化 只 是 针对 一 个 具体 中 断 道道 的 ， 而 bh 中 数 的 串 行 化 却 
是 全 局 性 的 ， 所 以 是 “防卫 过 当 ” 了 。 既 然 如 此 ， 就 应 该 汐 虚 放宽 上 述 的 第 二 条 措施 。 但 是 ， 如 果 放 
宽 了 这 一 条 ， 就 要 对 bh 函数 本 身 的 设计 利 实现 有 更 高 的 要 求 《 例 如 对 使 用 全 局 量 的 五 不 )， 而 原来 已 
经 存在 的 bh 也 数 显然 不 符合 这 些 要 求 。 所 以 ， 比 较 好 的 办 法 是 保留 bh， 田 外 再 增设 种 或 几 种 机 制 ， 
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FEE NAA — ME REA IB. AL 2.4 版 中 的 “ 软 中 断 ”(softirq》 机 制 。 

AFM LUE softirq 就 是 软 中 断 ， 可 是 “ 软 中 断 ” 这 个 词 〈 尤 其 是 在 中 文思 ) 已 经 被 用 作 “ 信 号” 
(signal》 的 代名词 ， 因 为 信号 实际 上 就 是 “以 软件 于 段 实现 的 中 汤 机 制 "。 但 是 ， 另 一 方面 ， 把 类 似 
T bh 的 机 制 称 为 “ 软 中 断 ” 又 确实 很 贴切 。 这 - :方面 有 反映 了 上 述 bh 函数 与 中 断 之 间 的 类 比 ， 另 : 方 
面 也 反映 了 这 是 一 种 在 时 间 要 求 上 更 为 软 性 的 中 断 请 求 。 实 际 上 ， 这 里 所 体现 的 是 层次 的 不 同 。 如 果 
说 “而 中 断 ” 通 常 是 外 部 设备 对 CPU 的 中 断 ， 那 么 softirq 通常 是 “ 硬 中 断 服务 程序 ”对 内 核 的 中 渐 ， 

而 “信号 ” 则 是 出 内 核 〈 或 其 他 进程 )》 对 某 个 进程 的 中 断 。 后 面 这 : 阁 部 是 由 软件 产 牛 的 “ 软 中 断 ”。 
所 以 ， 对 “ 软 中 断 ” 这 个 词 的 含意 时 根据 上 下 文 加 以 区 分 。 

下 面 ， 我 们 以 bh 两 数 为 主线 ， 通 过 阅读 代码 来 叙述 2.4 版 内 核 的 软 中 断 (softirg) 机 制 。 

系统 在 初始 化 时 通过 责 数 softirq. init( ) 对 内 核 的 软 中 断 机 制 进行 初始 化 。 其 代码 在 kernel/softirq.c 
ur 


281 void | init softirq init( ) 

282 { 

283 int i; 

284 

285 for (i-0; i432; i++) 

286 tasklet init(bh task vec*i, bh action, i); 

281 

288 open softirq(TASKLET SOFTIRQ, tasklet action, NULL); 
289 open softirq(HI SOFTIRQ, tasklet hi action, NULL); 
290 } 


VOBIS E PUBL. EAER. TE EAR LAT bh 机 制 ， 这 是 “. 种 特殊 的 软 中 断 ， 
也 可 以 说 是 设计 最 保守 的 ， 但 吉 是 最 简单 、 最 安全 的 软 中 断 。 除 此 之 外 ， 还 有 其 他 的 软 中 断 ， 定 义 十 


include/linux/interrupt.h: 


56 enum 

57 { 

58 HI SOFTIRQ-0, 

59 NET TX SOFTIRQ, 
60 NET RX SOFTIRQ, 
61 TASKLET SOFTIRQ 
62 |}; 


这 里 最 值得 注意 的 是 TASKLET_SOFTIRQ, 代表 着 -种 称 为 tasklet 的 机 制 。 也 许 采用 tasklet 这 个 
词 的 原意 在 于 表示 这 是 一 片 小 小 的 “任务 ” 但 是 这 个 词 容易 使 人 联想 到 “task” 即 进程 而 引起 误会 ， 
其 实 这 二 者 毫 无 关系 。 显 然 , NET TX SOFTIRQ 和 NET_RX_SOFTIRQ 两 种 软 中 断 是 专 为 网 络 操作 而 
设 的 ， 所 以 在 softirq_init( ) 中 只 对 TASKLET. SOFTIRQ 和 HI, SOFTIRQ 两 种 软 中 断 进 行 初始 化 。 

KA bh 机 制 的 初始 化 。 内 核 中 为 bh 机 制 设置 了 一 个 结构 数组 bh_task_vec[ ]， 这 是 tasklet struct 
数据 结构 的 数组 。 这 种 数据 结构 的 定义 也 在 interrupth F: 


97  /* Tasklets --- multithreaded analogue of BHs. 
98 
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99 
100 
101 
102 
103 
104 
105 
106 
107 
108 
109 
110 
111 
112 
113 
114 
115 
116 
117 
118 
119 
120 
121 
122 
123 
124 


为 什 
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Main feature differing them of generic softirqs: tasklet 
is running only on one CPU simultaneously. 


Main feature differing them of BHs: different tasklets 
may be run simultaneously on different CPUs. 


Properties: 
* If tasklet schedule( ) is called, then tasklet is guaranteed 
to be executed on some cpu at least once after this. 
If the tasklet is already scheduled, but its excecution is still not 
started, it will be executed only once 
If this tasklet is already running on another CPU (or schedule is called 
from tasklet itself), it is rescheduled for later. 
* Tasklet is strictly serialized wrt itself, but not 
wrt another tasklets. If client needs some intertask synchronization, 
he makes it with spinlocks. 


*/ 


* 


struct tasklet struct 

{ 
struct tasklet_struct *next; 
unsigned long state; 
atomic_t count; 
void (*func) (unsigned long); 
unsigned long data; 


y 


代码 的 作者 加 了 详细 的 注释 ， 说 tasklet 是 “多 序 ”( 不 是 “多 进程 ”或 “多 线程 ”1) 的 bh RAL 
么 这 么 说 昵 ?” 因 为 对 tasklet 的 串 行 化 不 像 对 bh 函数 那样 严格 ， 所 以 允许 在 不 同 的 CPU 上 同时 执 


行 tasklet， 但 必须 是 不 同 的 tasklet。 一 个 tasklet_struct 数据 结构 就 代表 着 一 个 tasklet， 结 构 中 的 函数 指 
Eb func 指向 其 服务 程序 。 那 么 ， 为 什么 在 bh 机 制 中 楼 使 用 这 种 数据 结构 昵 ?这 是 内 为 bh 函数 的 执行 


《并 


不 是 bh 函数 本 身 〉 就 是 作为 - -个 tasklet 来 实现 的 ， 在 此 基础 上 再 加 上 更 严格 的 限制 ， 束 成 了 bh. 
函数 tasklet_init( ) 的 代码 在 kernel/softirg.c 中 : 


[softirq_init( ) > tasklet_init( )] 


203 
204 
205 
206 
207 
208 
209 
210 


void tasklet init (struct tasklet struct *t, 
void (*func) (unsigned long), unsigned long data) 
{ 
t->func = func; 
t->data = data; 
t->state = 0; 
atomic_set (&t->count, 0); 


} 


在 softirg_init( ) 中 ， 对 用 于 bh 的 32 个 tasklet_struct 结构 调用 tasklet_init( ) 以 后 ， 它 们 的 函数 指针 
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func 全 都 指向 bh. action( ). 
对 其 他 软 中 断 的 初始 化 是 通过 open_softirq( ) 完 成 的 ， 其 代码 也 在 同一 文件 中 : 


[softirq. init( ) > open softirq( )] 


103 static spinlock t softirq mask lock = SPIN LOCK UNLOCKED; 

104 

105 void open softirq(int nr, void (*action) (struct softirq action*), 
void *data) 


106 { 

107 unsigned long flags; 

108 int i; 

109 

110 spin lock irqsave(&softirq mask lock, flags); 
111 softirq vec[nr]. data = data; 

112 softirq vec[nr].action = action; 

113 

114 for (i-0; i<NR CPUS; i++) 

115 softirq mask(i) |= (1<<nr) ; 

116 spin unlock irqrestore(&softirq mask lock, flags); 
Hc g 


内 核 中 为 软 中 断 设置 了 一 个 以 “ 软 中 断 号 ”为 下 标的 数组 softirq_vec[ ]， 类 似 于 中 断 机 制 中 的 
irq_desc[ }. 


48 static struct softirq action softirq vec[32] ^ cacheline aligned; 
这 是， 个 softirq. action 数据 结构 的 数组 ， 其 定义 为 : 


64 /* softirq mask and active fields moved to irq cpustat t in 


65 * asm/hardirq.h to get better cache usage. KAO 
66 */ 

67 

68 struct softirq action 

69 | 

10 void (action) (struct softirq action *); 
11 void *data; 

127. d 


数组 softirq vec[ ] 是 个 全 局 量 ， 系 统 中 的 各 个 CPU 所 看 到 的 是 同一 个 数 弓 。 但是， 每 个 CPU 各 有 
其 自己 的 “ 软 中 断 控 制 /状况 结构 ” 所 以 这 些 数 据 结构 形成 一 个 以 CPU 编号 为 下 标的 数 弓 irq_stat[ ] 。 
这 个 数组 也 是 全 局 量 ， 但 是 各 个 CPU 可 以 按 其 白 身 的 编号 访问 相应 的 数据 结构 。 我 们 把 有 关 的 定义 列 
出 于 下 ， 供 读者 自己 阅读 ; 


8 /* entry.S is sensitive to the offsets of these fields */ 
9 typedef struct { 
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10 unsigned int __ softirg active; 

11 unsigned int _ softirq mask; 

12 unsigned int 4 local irq count; 

13 unsigned int ^ local bh count; 

14 unsigned int X syscall count; 

15 unsigned int | nmi count;  /* arch dependent */ 
16 | |  cacheline aligned irq cpustat t; 


45 irq epustat t irq stat[NR CPUS]; 


22 üifdef CONFIG SMP 

23 Hdefine __ IRQ STAT(cpu, member) (irq stat [cpu]. member) 

24 Helse 

25 #define __ IRQ STAT(cpu, member) ((void) (cpu), irg stat[0]. member) 
26 #endif 


27 

28 /* arch independent irq stat fields */ 

29 define softirq active(cpu) . IRQ STAT((cpu), | Softirq active) 
30 define softirq mask(cpu) __ IRQ STAT((cpu), | Softirq mask) 


数据 结构 中 的 __softirq_active 相当 于 “ 软 中 断 请 求 寄存 器 ”，__softirq_mask 则 相当 于 “ Ak re BT be 
项 寄存 器 ”。 KX open, softirq ) 除 把 函数 指针 action HLA softirq. vec[ [HMAC KENAA CPU 
的 “中 断 屏 项 寄存 器 ”中 的 相应 位 设置 成 1， 使 这 个 软 中 断 在 每 个 CPU 上 都 可 以 执行 。 从 softirq_init( ) 
中 调用 open_softirq( ) 把 TASKLET_SOFTIRQ 和 HI SOFTIRQ 两 种 软 中 断 的 处 理 程序 分 判 设置 成 
tasklet_action( ) 和 tasklet hi action( )。 

内 核 中 还 有 另 一 个 以 CPU 编号 为 下 标的 数组 tasklet_hi_vec[ ]， 这 是 tasklet head 结构 数组 ， 每 个 
tasklet_head 结构 就 是 一 个 tasklet_struct 结构 的 队列 头 。 


167 struct tasklet head tasklet hi vec[NR CPUS] __cachelinc_aligned; 


139 struct tasklet head 

140 { 

141 struct tasklet struct *list; 

142 } attribute  (( aligned. (SMP CACHE BYTES))) ; 


HIZ) bh 机 制 这 个 话题 上 。 通 过 tasklet_init( ) 只 是 使 相 必 tasklet_struct 结构 中 的 函数 指针 func 指向 
f bh action( )， 也 就 是 建立 了 bh 的 执行 机 制 ， 而 具体 的 bh 函数 还 没有 与 之 挂 多 就 好 像 具 体 的 中 断 
服务 程序 尚未 挂 入 中 断 服务 队列 - 样 。 具 体 bh 函数 是 通过 init_bh( REN. 下 面 是 取 日 sched_init( ) 
中 的 一 个 片段 (kernel/sched.c): 


1260 init bh(TIMER BH, timer bh); 
1261 init bh(TQUEUE BH, tqueue bh); 
1262 init bh(IMMEDIATE BH, immediate bh); 


以 用 于 时 钟 中 断 的 bh 函数 timer bhO, H "bh yet”, 8 “bh 编号 ”为 TIMER. BH. Hit 
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核 中 已 经 定义 的 编号 如 下 (include/linux/interrupt.h): 


24 /* Who gets which entry in bh base. Things which will occur most often 
25 should come first */ 


26 

27 enum { 

28 TIMER_BH = 0, 
29 TQUEUE_BH, 

30 DIGI BH, 

31 SERIAL BH, 

32 RISCOMS BII, 
33 SPECIALIX, BH, 
34 AURORA BH, 

35 ESP BH, 

36 SCSI BH, 

37 TMMEDIATE BH, 
38 CYCLADES BH, 
39 CM206 RH, 

40 JS BH, 

41 MACSERIAL BH, 
42 ISICOM BH 
43}; 


再 看 init_bh( ) 的 代码 ， 这 是 在 kerel/softirg.c 中 : 


269 void init bh(int nr, void (*routine) (void)) 


210 { 

271 bh_base[nr] = routine; 
272 mb( ) ; 

273 ] 


显然 ， 这 里 的 数组 bh_basef ] 就 是 前 述 的 函数 指针 数组 。 这 里 调用 的 因数 mb( ) 与 CPU 中 执行 指令 
的 “流水 线 ” 有 关 ， 出 这 并 不 是 我 们 现在 所 关心 的 。 

需要 执行 一 个 特定 的 bh 函数 时 ， 可 以 通过 :个 inline 函数 mark_bh( ) 提 出 请 求 。 读 者 看 “时 钟 中 
断 ” 一 节 中 可 以 看 到 在 do_timer( ) 中 通过 “mark_bh(TIMER_BH):” 提 出 对 timer_bh( ORTEK. A 
数 mark_bh( ) 的 代码 在 include/linux/interrupt.h 中 !: 


232 static inline void mark bh(int nr) 


233 { 
234 tasklet hi schedule(bh task vectnr); 
235. 二 


如 用 所 述 ， 内 核 中 为 bh 函数 的 执行 设立 了 一 个 tasklet struct 结构 数组 bh task vec[ ], XX RU bh 
两 数 的 编写 为 下 标 就 可 以 找到 相应 的 数据 结构 ， 并 用 上 其 调用 tasklet_hi_schedule( )， 其 代码 也 在 
include/linux/interrupt.h 中 。 读 者 应 该 还 记得 ， 在 bh_task_vec[ | 的 每 个 tasklet struct 结构 中 ， 函 数 指针 
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func 都 指向 bh_action( )。 


[mark bh( ) > tasklet hi schedule( )] 


171 static inline void tasklet hi schedule (struct tasklet struct *t) 


172 { 

173 if (!test and set bit(TASKLET STATE SCHED, &t->state)) { 
174 int cpu = smp processor id( ); 

175 unsigned long flags; 

176 

177 local irq save(flags); 

178 t—next = tasklet hi vec[cepu]. list; 
179 tasklet hi vec[cpu]. list = t; 

180 |J cpu raise softirq(cpu, HI SOFTIRQ):; 
181 local irq restore (flags) ; 

182 } 

183 ] 


这 里 的 smp processor. id( ) 返 回 当前 进程 所 在 CPU 的 编号 ， 然 后 以 此 为 下 标 从 tasklet hi. vec[ ] 中 
找到 该 CPU 的 队列 头 ， 把 参数 t 所 指 的 tasklet_struct 数据 结构 链 入 这 个 队列 。 由 此 可 见 ， 对 执行 bh ER 
数 的 要 求 是 在 哪 一 个 CPU 上 提出 的 ， 就 把 它 “ 调 度 ” 在 哪 一 个 CPU 上 执行 ， 函 数 名 中 的 “schedule” 
就 是 这 个 意思 ， 而 与 “进程 调度 ” 毫 无 关系 。 另 一 方面 ， 一 个 tasklet struct 代表 着 对 bh 函数 的 一 次 执 
行 ,在 同一 时 间 内 只 能 把 它 链 入 ”个 队列 中 , 而 不 可 能 同时 出 现在 多 个 队列 中 。 对 于 同一 个 tasklet_struct 
数据 结构 ， 如 果 已 经 对 其 调用 了 tasklet_hi_schedule( )， 而 尚未 得 到 执行 ， 就 不 允许 再 将 其 链 入 队列 ， 
所 以 在 数据 结构 中 设置 了 一 个 标志 位 TASKLET_STATE_SCHED 来 保证 这 一 点 。 最 后 ， 还 要 道 过 
__cpu_raise_softirq( ) 正 式 发 出 软 中 断 请 求 。 


[mark_bh( ) > tasklet_hi_schedule( ) > cpu raise softirq( )] 


77 static inline void __cpu_raise_softirq(int cpu, int nr) 
78 { 

79 softirq active(cpu) |= (1<<nr); 

go} 


读者 在 前 面 已 经 看 到 过 softirq_active( ) 的 定义 ， 它 对 给 定 CPU 的 “ 软 中 断 控制 /状况 结构 ”操作 ， 
将 其 中 __softirq_active 字段 内 的 相应 标志 位 设 成 1。 

内 核 每 当 在 do_IRQ( ) 中 执行 完 -… 个 通道 中 的 中 断 服 务 程序 以 后 ， 以 及 和 伍 当 从 系统 调用 返回 时 ， 者 
要 检查 是 否 有 软 中 断 请 求 在 等 待 执行 。 下 面 是 do_IRQ( ) 中 的 一 个 片段 : 


625 if (softirq active(cpu) & softirq mask (cpu) ) 
626 do softirq( ); 


另 一 段 代码 取 自 arch/i386/entry.S， 这 是 在 从 系统 调用 返回 时 执行 的 : 
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282 
283 
284 
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ENTRY (ret from sys call) 
#ifdef CONFIG SMP 
movl processor (%ebx), %eax 
shll $CONFIG X86 L1 CACHE SHIFT, %eax 
movl SYMBOL NAME (irq stat) (, %eax), %ecx # softirq active 
testl SYMBOL_NAME (irg_stat)+4(, %eax),%ecx # softirq mask 
Helse 
movl SYMBOL NAME(irq stat), %ecx 8 softirq active 
testl SYMBOL NAME(irq stat)+4, %ecx # softirq mask 
#endif 
jne handle_softirq 


handle_softirq: 
call SYMBOL_NAME (do_softirq) 
jmp ret_from_intr 


注意 ， 这 里 的 processor 表示 task struct 数据 结构 中 该 字段 的 位 移 ， 所 以 207 行 是 从 当前 进程 的 
task. struct 数据 结构 中 取 当 前 CPU 的 编号 。 Mi SYMBOL_NAME(irq_stat)(,9eax) 则 相当 于 irq_stat[cpu]， 
并 且 是 其 中 第 一 个 字段 ， 相 应 地 ，SYMBOL_NAME(irq_stat)+4(,9%eax) 相当 这 个 数据 结构 中 的 第 二 个 
字段 ， 并 且 第 一 个 字段 必须 是 32 位 。 读 者 不 妨 回 过 去 看 一 下 irq_cpustat + 的 定义 ， 在 都 里 有 个 注释 ， 
说 entry.S 中 的 代码 对 这 个 数据 结构 中 的 字段 位 置 敏感 ， 就 是 这 个 意思 。 所 以 ， 这 些 汇编 代码 实际 上 与 
Ifi do IRQO TÉ WifT C 代码 是 一 样 的 。 

检测 到 软 中 断 请 求 以 后 ， 就 要 通过 do_softirg( ) 加 以 执行 了 。 其 代码 在 kernel/softirq.c 中 


50 
51 
92 
93 
94 
55 
56 
91 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 


asmlinkage void do softirq( ) 

{ 
int cpu = smp processor id(); 
. u32 active, mask; 


if (in interrupt( )) 
return; 


local bh disable( ); 


local irq disable( ); 
mask = softirg_mask (cpu) ; 
active = softirq active(cpu) & mask; 


if (active) { 
struct softirq action *h; 


restart: 
/* Reset active bitmask before enabling irqs */ 
softirq active(cpu) &- "active; 


local irq enable( ); 
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72 

73 h = softirq vec; 

74 mask &- "active; 

75 

76 do { 

77 if (active & 1) 

78 h->action (h) ; 

79 htt; 

80 active >>= 1; 

8l } while (active); 

82 

83 local irq disable( ); 

84 

85 active = softirq active(cpu); 

86 if ((active & mask) != 0) 

87 goto retry; 

88 ) 

89 

90 local bh enable( ); 

91 

92 /* Leave with locally disabled hard irqs. It is critical to close 
93 * window for infinite recursion, while we help local bh count, 
94 * it protected us. Now we are defenceless. 
95 */ 

96 return; 

97 

98 retry: 

99 goto restart; 

100 } 


软 中 断 服务 程序 既 不 允许 在 一 个 硬 中 断 服务 程序 内 部 执行 ， 也 不 允许 在 一 个 软 中 断 服 务 程 序 内 部 
执行 ， 所 以 要 通过 一 个 宏 操 作 in_interrupt( ) 加 以 检测 ， 这 是 在 include/asm-i386/hardirg.h 中 定义 的 : 


20 — /* 

21 * Áre we in an interrupt context? Either doing bottom half 
22 * or hardware interrupt processing? 

23 */ 

24 #define in interrupt( ) ({ int | cpu = smp processor id( ); \ 
25 (local irq count( cpu) + local bh count( cpu) != 0); }) 


BR, RARA T RPMS MRE, RRM ABT. 与 
local_bh_disable( ) 有 关 的 定义 在 include/asm-i386/softirq.h 中 : 


7 Hdefine cpu bh disable(cpu) do { local bh count(cpu)++; barrier( ); } 
while (0) 

8  #define cpu bh enable(cpu) do { barrier( ); local bh count(cpu)--; } 
while (0) 
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9 
10 — &define local bh disable( ) cpu bh disable(smp processor id( )) 
11 #define local bh enable( ) cpu bh enable(smp processor id( )) 


从 do. softirg ) 的 代码 中 可 以 看 出 ， 使 CPU 不 能 执行 软 中 断 服 务 程序 的 “关卡 ”只 有 一 个 ， 那 就 是 
in interrupt( )， 所 以 对 软 中 断 服 务 程序 的 执行 并 没有 采取 前 述 的 第 二 条 串 行 化 措施 。 这 就 是 说 ， 不 同 的 
CPU 可 以 同时 进入 对 软 中 断 服 务 程序 的 执行 〈( 见 78 行 )， 分 别 执行 各 白 所 请 求 的 软 中 断 服务 。 从 这 个 
意义 上 ， 软 中 断 服务 程序 的 执行 是 “并 发 ”的 、 多 序 的 。 但 是 ， 这 些 软 中 断 服务 程 序 的 设计 和 实现 必 
须 十 分 小 心 ， 不 能 让 它们 互相 干扰 《例如 道 过 共享 的 全 局 量 )。 什 于 do_softirq( ) 中 其 他 的 代码 ， 则 读 
者 不 会 感到 困难 ， 我 们 就 不 多 说 了 。 

在 我 们 这 个 情景 中 ， 如 前 所 述 ， 执 行 的 服务 程序 为 bh_action( )， 其 代 但 在 kernel/softirq.c F: 


[do softirq( ) > bh, action( )] 


235 /* BHs are serialized by spinlock global bh lock. 


236 

237 It is still possible to make synchronize bh( ) as 
238 spin unlock wait(&global bh lock). This operation is not used 
239 by kernel now, so that this lock is not made private only 
240 due to wait on irq( ). 

241 

242 It can be removed only after auditing all the BHs. 
243 */ 

244 spinlock t global bh lock - SPIN LOCK UNLOCKED; 

245 

246 static void bh action(unsigned long nr) 

247 í 

248 int cpu = smp processor id( ); 

249 

250 if (!spin trylock(&global bh lock)) 

251 goto resched; 

252 

253 if (!hardirq tcylock(cpu)) 

254 goto resched unlock; 

255 

256 if (bh base[nr]) 

257 bh base[nr] ( ); 

258 

259 hardirq endlock (cpu); 

260 spin unlock(&global bh lock); 

261 return; 

262 

263 resched, unlock: 

264 spin unlock(&global bh lock); 

265 resched: 

266 mark bh(ínr); 
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267 } 


这 里 对 具体 bh 函数 的 执行 ( 见 257 行 ) 又 设置 了 两 道 关 卡 。 一 道 是 hardirq, trylock( ), 其 定义 为 : 
31 #define hardirq trylock (cpu) (local irq count(cpu) -- 0) 


与 前 面 的 in interrupt( ) 比 较 一 下 就 可 看 出 ， 这 还 是 在 防止 从 一 个 硬 中 断 服 务 程 序 内 部 调用 
bh_action( )。 而 另 -- 道 关卡 spin_trylock( ) 就 不 同 了 ， 它 的 代码 在 include/linux/spinlock.h 中 : 


74  #define spin trylock(lock) (!test_and set bit (0, (lock))) 


这 把 “ 锁 ” 就 是 全 局 量 global_bh_lock， 只 要 有 一 个 CPU 在 253 行 至 260 行 之 间 运 行 ， 别 的 CPU 
就 不 能 进入 这 个 区 间 了 ， 所 以 在 任何 时 间 最 多 只 有 一 个 CPU 在 执行 bh 函数 。 这 就 是 前 述 的 第 二 条 串 
行 化 措施 。 全 填 根 据 bh 函数 编号 执行 相应 的 函数 ， 那 就 很 简单 了 。 在 我 们 这 个 情景 中 ， 具 体 的 bh HR 
BE timer_bh( )， 我 们 将 在 “时 钟 中 断 ” 一 节 中 阅读 这 个 函数 的 代码。 

作为 对 比 ， 我 们 列 出 另 ， 个 软 中 断 服务 程序 tasklet_action( ) 的 代 色 ， 读 者 可 以 把 它 与 bh_action( ) 
比较 ， 看 看 有 哪些 重要 的 区 别 。 这 个 函数 的 代码 在 kernel/softirq.c 中 : 


122 struct tasklet head tasklet vec[NR CPUS] cacheline aligned; 
123 
124 static void tasklet action(struct softirq action *a) 





125- 4 

126 int cpu = smp processor id( ); 

127 struct tasklet struct *list; 

128 

129 local irq disable( ); 

130 list = tasklet vec[cpu]. list; 

131 tasklet_vec[cpu]. list = MULL; 

132 local irq enable( ); 

133 

134 while (list != NULL) { 

135 struct Lasklet struct *t - list; 

136 

137 list = list->next; 

138 

139 if (tasklet trylock(t)) | 

140 if (atomic read(&t >count) == 0) { 

141 clear bit(TASKLET STATE SCHED, &t->state) ; 

142 

143 t—>func (t->data) ; 

144 /水 

145 * talklet trylock( ) uses test and set bit that imply 
146 * an mb when it returns zero, thus we need the explicit 
147 * mb only here: while closing the critical section. 
148 */ 
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149 #ifdef CONFIG SMP 


150 smp mb before clear bit( ); 
i51 #endif 
152 tasklet unlock(t); 
153 continue; 
154 } 
155 tasklet unlock(t) ; 
156 } 
157 local irq disable( ); 
158 t >next = tasklet vec(cpu]. list; 
159 tasklet vec[cpu].list = t; 
160 cpu raise softirq(cpu, TASKLET SOFTIRQ); 
161 local irq enable( ); 
162 } 
163 } 
最 后 ， 软 中 断 服务 程序 ， 包括 bh 琐 数 ， 与 常规 中 断 服务 程序 的 分 离 并 不 是 强制 性 的 ， 此 根据 设备 


驱动 的 具体 情况 〈 也 许 还 有 设计 人 员 的 水 平 ) 来 决定 。 


36 页 面 异常 的 进入 和 返回 


我 们 在 第 2 章 中 介绍 内 核对 页 面 异 常 处 理 时 , 是 从 do_page_fault( ) 开 始 的 。 当 时 因为 尚未 介绍 CPU 
的 中 断 和 异常 机 制 ， 所 以 暂时 跳 过 了 对 页 面 异 常 的 响应 过 程 ， 也 就 是 从 发 生 异 常 至 CPU 到 达 
do page fault( ) 之 问 的 那 … 段 路 程 ， 以 及 从 do_page_fault( ) 返 回 之 后 到 CPU 返 冉 到 用 户 空间 这 RRR 
程 。 现 在 ， 我 们 可 以 来 补 上 这 个 缺口 了 。 

与 外 设 中 浙 个 间 ， 各 种 异常 都 有 为 其 保留 的 专用 中 断 向 量 ， 因 此 相应 的 初始 化 也 是 直 礁 了 当 的 ， 
这 一 点 我 们 已 经 在 初始 化 - 节 中 看 到 了 。 

为 页 面 异 常设 置 的 中 断 门 指向 程序 入 FI page fault CI, IDT 初始 化 一 节 中 所 引 trap_init( ) 中 的 970 
行 )， 所 以 当 发 生 页 面 异常 时 ，CPU 穿 过 中 断 门 以 后 就 直接 到 达 了 page_fault( )。CPU 因 异 常 而 穿 过 中 
盯 门 的 过 程 ， 包 括 排 栈 的 变化 ， 与 因 外 设 中 断 让 引 起 的 过 程 基 本 上 是 一 样 的 ， 读 者 可 以 参阅 外 设 中 断 
一 节 。 但 是， 有 一 点 很 重要 的 不 同 。 当 中 断 发 生 时 ，CPU 将 寄存 器 EFLAGS NAA, ARR 
地 址 的 CS 和 EIP 两 个 寄存 器 的 内 容 压 入 堆栈 。 如 果 CPU 的 运行 级 别 发 生变 化 ， 则 在 此 之 前 还 要 发 竺 
堆栈 的 切换 ， 并 卫 要 把 代表 老 堆 栈 指针 的 SS 和 ESP 的 内 容 压 入 堆栈 。 这 一 点 ， 我 们 已 经 在 前 项 介绍 


过 了 。 当 异常 发 生 时 ， 人 在 上 述 这 些 操作 之 后 ， 还 要 加 上 附加 的 操作 。 那 就 是 : 如 果 所 发 生 的 异常 产生 
出 错 代 但 的 话 , 就 把 这 个 出 错 代码 也 奈 入 堆栈 。 并非 所 有 的 异常 都 产生 出 错 代码 , 有 关 详 情 可 参考 Intel 


的 技术 资料 或 相关 专著 ， 但 是 绝 人 多 数 异 常 ， 包 括 我 们 这 里 所 关心 的 页 面 异 常 是 会 产 牛 出 错 代 但 的 。 
而 且 ， 实 际 上 我 们 在 第 2 B+ E44 do page faul ) 如 何 通 过 这 个 出 错 代 介 识别 发 生 异 常 的 原因 。 
可 是 ，CPU 只 是 在 进入 异常 时 才 知道 是 否 应 该 把 出 错 代码 压 入 纵 栈 。 而 从 异常 处 理 通 过 iret 指令 返回 
时 己 经 时 过 境 迁 ，CPU 已 经 无 从 知道 当初 发 生 有 异常 的 原因 ， 因 此 不 会 自动 跳 过 堆栈 中 的 这 一 项 ， 和 而 要 
靠 柑 应 的 异常 处 理 程 序 对 堆栈 加 以 调整 ， 使 得 在 CPU 并 始 执行 iret 指令 时 堆栈 顶部 是 返回 地 直 。 由 于 
这 个 不 同 ， 对 踢 常 的 处 理 和 对 中 断 的 处 理 在 代码 中 也 要 有 所 不 同 。 
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ENTRY (page_fault) 


页 面 异常 处 理 的 入 口 page. fault 是 在 arch/i386/entry.S 中 定义 的 : 


pushl $ SYMBOL NAME(do page fault) 


jmp error code 


这 里 的 跳 转 月 标 error code 就 好 像 外 设 中 断 处 理 中 的 common. interrupt 一 样 , 是 各 种 异常 处 理 所 共 


用 的 程序 入 口 。 而 将 服务 程序 do page. fault( ) 的 地 址 压 入 堆栈 ， 则 为 进入 具体 的 服务 程序 作 好 了 准备 。 
程序 入 口 error. code 的 代码 也 在 同一 文件 (entry.S) 中 : 


295 
296 
297 
298 
299 
300 
301 
302 
303 
304 
305 
306 
307 
308 
309 
310 
311 
312 
313 
314 
315 
316 
317 
318 
319 
320 
321 


error code: 


pushl %ds 
pushl %eax 
xorl %eax, %eax 
push] %ebp 
push} %edi 
pushl %esi 
pushl %edx 


decl %eax # eax = -1 


pushl %ecx 

pushl %ebx 

cld 

movl %es, %ecx 

movl ORIG EAX(%esp), %esi 
movl ES(%esp), %edi 

movl %eax, ORIG FAX (%esp) 
movl %ecx, ES (%esp) 

movl %esp, %edx 


# get the error code 
# get the function address 


pushl %esi # push the error code 
pushl %edx # push the pt_regs pointer 


movi ${__KERNEL_DS), %edx 
movi %edx, %ds 

mov] %edx, %es 

GET_CURRENT (%ebx) 


“call *%edi 


addl $8, %esp 
jmp ret_from_exception 


读者 也 许 注意 到 了 , 这 里 并 不 像 进入 中 断 响 应 时 那样 引用 SAVE ALL. 让 我 们 来 看 看 有 什么 区 别 ， 


以 及 为 什么 。 观 察 图 3.7， 我 们 把 CPU 执行 到 这 里 的 307 行 时 的 堆栈 〈 左 边 ) 与 CPU 在 外 设 中 断 时 
SAVE ALL 以 后 的 堆栈 (右边 ) 作 一 比较 。 


顺便 提 一 下 ， 系 统 调 用 时 的 堆栈 在 执行 完 SAVE ALL 以 后 与 图 3.7 的 右边 (中断) 几乎 完全 一 样 ， 


只 是 在 ORIG_EAX 位 置 上 是 系统 调用 号 而 不 是 中 断 请 求 号 。 
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图 3.7 异常 处 理 和 中 断 处 理 系 统 堆栈 对 照 图 


比较 之 后 ， 可 以 看 到 其 实 也 只 有 在 两 个 位 置 |: 不同。 -个 是 与 ORIG EAX 对 应 的 位 置 上 , 现在 是 
CPU 在 发 生 异 常 时 计 入 堆栈 的 出 错 代码 。 男 一 个 是 在 与 ES 相应 的 位 置 上 , 现在 是 do_page_fault( ) 的 入 
口 地 址 。 其 他 就 都 一 样 了 。 可 是 ， 下 面 会 将 堆栈 中 对 应 于 ORIG EAX 位 置 上 的 内 容 转 移 到 寄存 器 %esi 
中 ， 并 将 其 替换 成 %eax PAA. RR, BERERE Tesi 中 ， 而 堆栈 中 的 ORIG_EAX 就 变 
成 了 一 1( 见 298 行 和 303 行 )。 同 时 ， 又 以 寄存 器 Yecx 的 内 容 蔡 换 堆 栈 中 ES 处 的 函数 指针 ， 而 把 函 
数 指针 转移 到 寄存 器 %edi 中 。 在 此 之 前 的 307 行 已 经 将 %es 的 内 容 装 入 了 %ecx， 所 以 在 311 行 以 后 函 
数 指针 do page faule( ) 在 %edi 中 ， 而 堆栈 中 变 成 了 寄存 器 %es 的 副本 。 至 此 ， 也 就 是 在 311 行 以 后 ， 
堆栈 的 内 容 与 中 断 或 系统 调用 时 就 完全 ， 样 了 ， 只 足 ORIG EAX 的 位 置 上 为 一 1。 这 么 一 来 ， 堆 栈 就 
调整 好 了 。 我 们 在 中 断 - 节 中 已 经 看 到 将 来 返回 时 在 RESTORE_ALL 中 会 把 ORIG EAX 跳 过 去 。 

读者 也 许 会 问 : 那么 ， 对 于 不 产后 出 错 代码 的 异常 又 怎么 处 坦 呢 ? 很 简单 ， 在 进入 error code 之 
前 补 上 一 个 就 是 了 。 请 看 ， 同 一 源 文件 (entry.S) 中 因 协 处 理 崔 (coprocessor〉 出 错 而 导致 的 异常 


coprocessor error: 


323 ENTRY (coprocessor error) 


324 pushl $0 
325 pushl $ SYMBOL NAME(do coprocessor error) 
326 jmp error, code 


这 里 多 了 47 “pushl $0”， 将 0 不 入 堆栈 中 与 出 错 代 码 相 应 的 地 方 ， 此 后 就 都 一 样 了 。 

回 到 前 面 error. code 的 代码 中 , 第 313 行 和 314 行 先后 把 %esi 和 %edx 的 内 容 压 入 堆栈 ,我 们 知道 ， 
pesi 中 是 出 错 代码 , 而 312 行 已 经 把 堆栈 指针 的 当前 内 容 拷贝 到 %edx 中 。 在 中 断 节 中 我 们 已 经 讲 过 ， 
内 核 将 SAVE ALL 以 后 堆栈 中 的 内 容 视 同一 个 pt regs 数据 结构 ， 而 当时 的 堆栈 指针 指向 该 数据 结构 
的 起 点 。 所 以 ， 这 二 者 一 项 是 出 错 代码 而 另 一 项 便 是 pt_regs 结构 指针 ， 这 正 是 do page fault( ) 的 两 个 
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调用 参数 。 把 调用 参数 压 栈 以 后 ， 就 为 319 行 的 函数 调用 作 好 了 准备 。 其 他 … 些 准 备 工 作 读者 在 中 断 
响应 中 都 已 看 到 过 ， 这 里 就 不 重复 了 。 
从 调用 的 函数 ， 在 这 里 是 do_page_fault( ) 返 回 以 后 ，CPU 就 转 入 ret_from_exception。 由 十 
do page fault( ) 的 类 型 是 void, 所 以 没有 返回 值 。ret_from_exception 的 代码 也 在 entry.S 中 : 


[page fault -> error code -> ... -> ret from exception] 
260 ret from exception: 


261 #ifdef CONFIG SMP 
262 GET_CURRENT (%ebx) 


263 movl processor (%ebx) , %eax 

264 shll $5, %eax 

265 mov] SYMBOL NAME (irqg stat) (, *eax) , %ecx # softirg active 
266 testl SYMBOL NAME(irq stat)*4(, %eax),%ecx # softirq mask 
267 Helse 


268 movl SYMBOL NAME (irq stat}, %ecx # softirq active 
269 testl SYMBOL NAME(irq stat) +4, %ecx # softirq mask 


210 Hendif 
271 jne handle softirq 
212 


213 ENTRY (ret from intr) 
274 GET. CURRENT (%ebx) 


275 movl EFLAGS (%esp), %eax # mix EFLAGS and CS 

276 movb CS (%esp), %al 

277 testl $(VM MASK | 3),%eax # return to VM86 mode or non-supervisor? 
278 jne ret_with_reschedule 

219 jmp restore all 


如 果 没 有 软 中 断 请 求 需要 处 理 ， 就 直接 进入 ret_from_intr。 后 面 这 些 代 码 读者 已 经 很 熟悉 了 ， 要 是 
EA BRE RT UA od S B JU BE e 


3:7 “时钟 中 断 


在 所 有 的 外 部 中 断 中 ， 时 钟 中 断 起 着 特殊 的 作用 ， 其 作用 远 旧 单纯 的 计时 所 能 相 比 。 当 然 ， 即 使 
是 单纯 的 计时 也 已 经 是 够 重要 了 。 别 的 不 说 , 没有 正确 的 时 间 关 系 ， 你 用 来 重建 内 核 的 工具 make 就 不 
能 正常 运行 了 ， 因 为 make 龙 靠 时 间 标 记 来 确定 是 否 需要 重新 编译 以 及 连接 的 。 可 是 时 钟 中 断 的 重要 性 
还 远 不 止 二 此。 

我 们 在 中 断 一 节 中 看 到 ， 内 核 在 每 次 中 断 〈 以 及 系统 调用 和 异常 》 服 务 完毕 返回 用 户 空间 之 前 都 
此 检查 是 合 需 要 调度 ， 若 有 需要 就 进行 进程 调度 。 事 实 上 ， 调 度 只 有 当 CPU 在 内 核 中 运行 时 才 可 能 发 
生 。 在 进程 一 章 中 ， 读 者 将 会 看 到 进程 调度 发 乍 在 两 种 情况 下 。 一 种 是 “自愿 ”的 ， 通 过 像 sleep( ) 之 
类 的 系统 调用 实现 ， 或 者 是 在 通过 其 他 系统 调用 进入 内 核 以 后 因 某 种 原因 受阻 需要 等 待 ， 而 “自愿 ” 
让 内 核 调度 其 他 进程 先 来 运行 。 另 一 种 是 “强制 ”的 ， 当 个 进程 连续 运行 的 时 间 超 过 一 定 限度 时 ， 
内 核 就 会 强制 地 调度 其 他 进程 来 运行 。 旭 果 没 有 了 时 钟 ， 内 核 就 失去 了 与 时 间 有 关 的 强制 调度 的 依据 
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和 时 机 ， 而 只 能 依 珠 于 各 个 进程 的 “思想 觉 情 ”了 。 试 想 ， 如 果 有 一 个 进程 在 用 户 空间 中 陷入 了 死 循 
趟 ， 而 在 循环 体内 也 没有 作 任 何 系 统 调 败 ， 并 且 也 没有 发 生 外 设 中 断 ， 那 么 ， 要 是 没有 时 钟 中 断 ， 整 
个 系统 就 在 原 地 打转 什么 事 也 个 能 做 了 。 这 是 办 为 ， 在 这 种 情况 下 永远 不 会 有 调度 ， 出 死 抓 件 CPU 不 
放 的 进程 则 陷 在 死 循 环 中 。 退 一 步 讲 ， 则 使 我 们 还 有 其 他 的 准则 (例如 进程 的 优先 级 〉 米 决定 是 千 应 
ARE, ASA AR. AT ARSC A CPU 进入 内 核 运 行 才能 发 生 调 度 。 而 惟一 可 以 预测 在 一 
定 的 时 间 内 必定 会 发 生 的 ， 就 是 “时 钟 中 断 ” 所 以 ， 对 于 像 Lin: 这 样 的 “分 时 系统 ”来 说 ， 时 钟 小 
断 是 维护 “生命 ”的 必要 条 件 ， 难 怪人 们 称 时钟 中 断 为 “heart beat”, HE) “atk”. 

在 初始 化 阶段 ， 在 对 外 部 中 断 的 基础 设施 ， 也 就 是 IRQ 队 例 的 初始 化 ， 以 及 对 调度 机 制 的 初始 化 
完成 以 后 ， 就 轮 到 时 钟 中 断 的 初始 化 。 请 看 init/main.c 中 start_kernel( ) 的 片段 : 


534 trap init( ) ; 
535 init. IRQC) ; 

536 sched init( ); 
537 time init( ); 


从 这 里 也 可 以 看 出 ， 时 钟 中 断 和 调度 是 密切 联系 在 一 -起 的 。 以 前 也 讲 到 过 ， 一 旦 开始 有 时 钟 中 断 
就 可 能 攻 进行 调度 ， 所 以 要 先 完成 对 调度 机 制 的 初始 化 ， 作 好 准备 。 函 数 time_init( ) 的 代码 在 
arch/i386/kernel/time.c 中 : 


626 void _ init time_init (void) 


627 { 

628 extern int x86 udelay tsc; 

629 

630 xtime.tv sec = get cmos time( ); 
631 xtime. tv usec = 0; 


704 setup_irg(0, &irq0); 


706 } 


当 我 们 提 及 “系统 时 钟 ” 时 ， 实 际 上 是 指 背 内 核 小 的 央 个 全 局 量 之 一 。……… 个 是 数据 结构 xtime， 其 
KALA struct timeval， 是 在 include/linux/time.h 中 定义 的 ; 


88 struct timeval | 


89 lime t tv sec; /* seconds */ 
90 suseconds t tv usec; /* microseconds */ 
OL yu 


BOE AT PIC BUN AIA Se LOE 一刻 开始 的 时 间 的 “绝对 值 ” 其 数值 来 白 计算 机 中 个 CMOS 
晶片， 常常 称 为 “实时 时 钟 ”" 这 块 CMOS 晶片 是 由 电池 供电 的 ， 所 以 即使 机 器 斯 了 了 电 也 还 能 维持 下 
确 的 时 间 。 上 面 的 630 fT LEX HE get_cmos_time( ) 从 CMOS 时 钟 晶片 中 把 当时 的 实际 时 间 读 入 xtime， 
时 间 的 精度 为 秒 。 而 时 钟 中 断 ， 则 是 由 另 CARTIER. 

n PER BETIS ER, UY jitties， 记 录 着 从 井 机 以 来 时 钟 中 断 的 次 数 。 每 个 jiffy 6 Kt 
钙 时 钟 中 肠 的 周期 ， 有 时 候 也 称 为 一 个 tick， 取 决 于 系统 中 的 一 个 常数 HZ， 这 个 常数 定义 于 
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include/asm-386/param.h 中 。 以 后 读者 会 看 到 ， 在 内 核 中 jiffies 远 远 比 xtime 重要 ， 是 个 经 常 要 用 到 的 


变量 。 

系统 中 有 很 多 因素 会 影响 到 时 钟 中 断 在 时 间 上 的 精确 度 ， 所 以 时 通过 好 多 手段 来 加 以 校正 。 在 比 
较 新 的 1386 CPU 中 (主要 是 Pentium RUG), Xe B f — 4 BEARBJ 64 位 寄存 器 ， 称 为 “时 间 印 记 计 
数 器 ”(Time Stamp Counter) TSC。 这 个 计数 器 对 驱动 CPU 的 时 钟 脉冲 进行 计数 ， 例 如 要 是 CPU 的 时 
钟 脉冲 频率 为 500MHz， 则 TSC 的 计时 精度 为 2ns。 由 于 TSC 是 个 人 4 位 的 计数 器 ， 其 计数 要 经 过 连续 
运行 上 千年 才 会 溢出 。 显 然 ， 可 以 利用 TSC 的 读数 来 改善 时 钟 中 断 的 精度 。 不 过 ， 我 们 在 这 里 并 不 关 
心 时 间 的 精度 ， 所 以 跳 过 了 代码 中 有 关 的 部 分 ， 而 只 关注 带 有 本 质 性 的 部 分 。 

读者 在 中 断 节 中 看 到 过 setup irq( )， 可 以 回 过 头 去 看 一 下 。 这 里 的 第 一 个 参数 为 中 断 请 求 号 ， 
时 钟 中 断 的 请 求 号 为 0。 第 二 个 参数 是 指向 一 个 irqaction 数据 结构 irq0 的 指针 。rq0 也 是 在 time.c PE 
义 的 : 


547 static struct irqaction irq0 = | timer interrupt, SA INTERRUPT, 
0, “timer”, NULL, NULL); 


可 见 ， 时 钟 中 断 的 服务 程序 为 timer_interrupt( ); ENAK 0 为 时 钟 中 断 专 用 ， 因 为 irq0.flags 中 标 
志 位 SA_SHIRQ 29 0; 而 且 在 执行 timer_interrupt( ) 的 过 程 中 不 容许 中 断 , 因为 标志 位 SA_INTERRUPT 
为 1。 服务 程序 timer_interrupt( ) 的 代码 在 同一 个 文件 (time.c) 中 : 


454 /* 

455 * This is the same as the above, except we also save the current 
456 * Time Stamp Counter value at the time of the timer interrupt, so that 
457 * we later on can estimate the time of day more exactly. 

458 */ 

459 static void timer interrupt(int irg, void *dev id, struct pt regs *regs) 
460 d 

461 int count; 

462 

463 /* 

464 * Here we are in the timer irq handler. We just have irqs locally 
465 * disabled but we don’t know if the timer bh is running on the other 
466 * CPU. We need to avoid to SMP race with it. NOTE: we don' t need 
467 * the irq version of write lock because as just said we have irq 

468 * locally disabled. -arca 

469 */ 

470 write lock (&xtime lock); 

471 

472 if (use tsc) 

473 { 

474 /* 

475 * lt is important that these two operations happen almost at 

476 * the same time. We do the RDTSC stuff first, since it's 

4TT x faster. To avoid any inconsistencies, we need interrupts 

478 * disabled locally. 

479 */ 
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480 

481 /* 

482 * Interrupts are just disabled locally since the timer irg 
483 * has the SA INTERRUPT flag set. -arca 

484 */ 

485 

486 /* read Pentium cycle counter */ 

487 

488 rdtscl(last tsc low); 

489 

490 spin lock(&18253 lock); 

491 outb_p (0x00, 0x43); /* latch the count ASAP */ 
492 

493 count = inb p(0x40); /* read the latched count */ 
494 count |= inb(0x40) << 8; 

495 spin unlock(&i8253 lock); 

496 

497 count = ((LATCH-1) - count) * TICK SIZE; 

498 delay at last interrupt = (count + LATCH/2) / LATCH; 
499 ) 

500 

501 do timer interrupt(irq, NULL, regs); 

502 

503 write unlock(&xtime lock); 

504 

505 } 


在 这 里 我 们 并 不 关心 多 处 理 器 SMP 结构 ， 也 不 关心 时 间 的 精度 ， 所 以 实际 上 只 剩 下 501 行 的 


do_timer_interrupt( ): 


[timer interrupt( ) > do_timer_interrupt( )] 


380 — /* 

381 * timer interrupt( ) needs to keep up the real-time clock, 

382 * as well as call the "do timer( )" routine every clocktick 

383 */ 

384 static inline void do timer interrupt (inl irg, void *dev id, 
struct pt regs *regs) 

385 f 


386 #ifdef CONFIG X86 IO APIC 


400 endi f 

401 

402 #ifdef CONFIG VISWS 

403 /* Clear the interrupt */ 


404 co cpu write(CO CPU STAT, co epu read(CO CPU STAT) & "CO STAT TIMEINTR) : 
405 Hendif 
406 do timer(regs); 
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407 
408 
409 
410 
All 
412 
413 
414 
415 
416 
417 
418 
419 
420 
421 
422 
423 
424 
425 
426 
421 
428 
429 
430 
431 
432 
433 
434 
435 


449 
450 
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/*® 


* In the SMP case we use the local APIC timer interrupt to do the 
* profiling, except when we simulate SMP mode on a uniprocessor 
* system, in that case we have to call the local interrupt handler. 
*/ 
#ifndef CONFIG X86 LOCAL APIC 
if (!user_mode (regs) ) 
x86_do_profile(regs~>cip) ; 
Helse 
if (!smp found config) 
smp local timer interrupt(regs); 
#endif 


/* 
* If we have an externally synchronized Linux clock, then update 
* CMOS clock accordingly every "11 minutes. Set rtc mmss( ) has to be 
* called as close as possible to 500 ms before the new second starts. 
*/ 
if ((Lime status & STA UNSYNC) -- 0 && 
xtime.tv sec > last rtc update + 660 && 
xtime.tv usec >= 500000 - ((unsigned) tick) / 2 && 
xtime.tv usec <= 500000 + ((unsigned) tick) / 2) | 
if (set rtc mmss(xiime.tiv sec) == 0) 
last rtc update = xtime.tv sec; 
else 
last rtc update = xtime.tv sec - 600;/* do it again in 60 s */ 


#ifdef CONFIG MCA 


Sendif 
} 


同样 ， 我 们 在 这 里 并 不 关心 多 处 理 器 SMP 结构 中 采用 APIC 时 的 特殊 处 理 ， 也 不 关心 SGI 工作 站 


(402—405 行 ) 和 PS/2 的 “Micro chanel” (435~449 行 ) 的 特殊 情况 ， 此 外 ， 我 们 在 这 时 也 不 关心 时 
钟 的 精度 (420—433 行 )。 


这 样 , SURGIR T PAESE, 4 SE do_timer( )， 另 一 件 是 x86 do profile( )。 其 中 x86_do_profile( ) 


的 目的 在 于 积累 统计 信息 ， 也 不 是 我 们 关心 的 重点 。 最 后 就 只 剩 下 do_timer( ) 了 ， 敢 是 在 kernel/timer.c 


"m: 


[timer interrupt( ) > do, timer interrupt( ) > do timer( )] 


674 
675 
676 
671 
678 


void do timer (struct pt regs *regs) 
{ 
(* (unsigned long *)&jiffies) ++; 
#ifndef CONFIG SMP 
/* SMP process accounting uses the local APIC timer */ 
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679 

680 update process times (user_mode (regs) ) ; 
681 Hendif 

682 mark bh(TIMER BH); 

683 if (TQ ACTIVE {tq timer)) 

684 mark bh(TQUEUE BID); 

685  ] 


这 时 的 第 676 行使 jiffies 加 1。 细 心 的 读者 可 能 会 问 ， 为 什么 这 里 不 用 简单 的 “jiffies++”， 而 要 使 
用 这 么 一 种 奇怪 的 方式 呢 ? 这 是 因为 代 抬 的 作者 要 使 将 递增 jiffies 的 操作 在 :条 指令 中 实现 ， 成 为 一 
^ "ECT" WERE. gcc 将 这 条 语句 翻译 成 一 条 对 内 存单 元 的 INC 指令 。 而 若 采 用 “jiffies++”， WA 
可 能 会 被 编译 成 先 将 jiffies 的 内 容 MOV EFT EAX, 然后 递增 , 再 MOV 回去 。 :者 所 耗费 的 CPU 
时 钟 周期 几乎 是 相同 的 ， 但 前 者 保证 了 操作 的 “原子 ”性 。 

函数 update_process_times( ) 就 与 进程 的 调 嵌 有 关 了 ， 我 们 将 在 进程 调度 节 中 再 米 介绍 。 但 是 ， 
从 函数 的 名 字 也 可 以 看 出 ， 它 处 理 的 是 当前 进程 与 时 间 有 关 的 变量 ， 一 方面 是 为 统计 的 日 的 ， 另 一 方 
面 也 起 为 调度 的 目的 。 对 用 于 记 时 和 统计 的 这 些 变量 的 操作 可 说 是 时 钟 中 断 的 “前 半 ”， 可 是 682 行 和 
684 行为 时 钟 中 断 安 排 的 “后 半 ” 和 “第 二 职业 ”， 即 此 耗费 多 得 多 的 精力 。 

我 们 在 前 儿 节 中 己 介 绍 过 中 断 服务 程序 的 “后 半 ”， 即 bh. CPU 在 从 中 断 返 回 之 前 都 要 检查 是 举 
在 其 个 bh 队列 中 还 有 事 等 着 要 处 理 。 而 这 里 的 682 行 就 道 过 mark_bh( ) 将 bh_task_vec[TIMER_BH] 挂 
入 tasklet_hi_vec 的 队列 中 ， 使 CPU 在 中 断 返 回 之 前 执行 与 TIMER. BH 对 应 的 函数 timer_bh( )， 这 是 
事先 设置 好 了 的 。 对 此 ， 在 kernel/sched.c 的 sched_init( ) 中 有 三 行 重要 的 代码 ; 


1260 init bh(TIMER BH, timer bh): 
1261 init bh(TQUEUE BH, tqueuc bh); 
1262 init bh(IMMEDIATE BH, immediate bh); 


这 里 初始 化 了 三 个 bb。 第 “个 显然 是 在 每 次 时 钟 中 断 结 束 之 前 都 要 执行 的 ， 用 来 完成 网 辑 上 属于 
时 钟 中 断 服务 、 但 又 不 是 都 么 紧急 ， 或 者 可 以 在 更 为 宽松 的 环境 OTRO 下 完成 的 操作 ， 其 相应 的 
XL timer bh( )。 而 TQUEUE_BH 和 IMMEDIATE_BH， 则 又 是 内 核 中 两 项 重要 的 基础 设施 。 我 们 
以 前 讲 过 ，Linux AIP n RER) bh 的 数量 是 32。 读 者 心里 可 能 已 经 在 息 ，32 个 bh SRI? 如 果 需 要 更 
多 怎么 办 ? 还 有 ， 更 重要 地 ， 在 实践 中 常常 会 有 要 求 让 某 些 操作 跟 其 个 已 经 存在 的 中 断 服务 动态 地 挂 
上 钩 ， 使 一 些 操作 按 运 行 时 的 需要 “挂靠 ”在 某 种 中 断 或 甚至 菜 种 其 他 的 事件 中 。 举 例 来 说 ， 如 果 我 
们 要 为 一 个 外 部 设备 写 驱 动 程序 , 该 设备 此 求 每 20ms 读 一 次 它 的 状态 寄存 器 ， 再 根据 读 入 的 信息 进行 
某 些 计算 ， 并 把 计算 结果 写 入 它 的 控制 寄存 器 以 驱动 … 台 步 进 马达 ， 而 该 设备 并 不 具备 产生 中 有 断 的 功 
能 。 其 实 ， 由 十 这 个 外 设 的 控制 完全 是 周期 性 的 ， 本 来 就 不 必 使 用 独立 的 中 断 ， 所 需要 解决 的 只 是 怎 
样 与 系统 的 时 钟 中 断 挂 上 钩 。 前 面 讲 过 ，Linux 系统 时 钟 的 频率 是 由 一 个 常数 HZ 决定 的 ， 定 义 十 
include/asm-i386/param.h. j&'" HZ 定义 为 100， 也 即 每 10ms - -次 时 钟 中 断 ， 跟 需要 的 20ms 止 好 是 整 
数 倍 关系 。 所 以， 如 果 写 个 程序 ， 并 且 能 在 等 次 时 钟 中 断 中 都 调用 它 。: 次 。 而 在 程序 小 则 设置 ME 
数 器 ， 使 得 每 当 计数 为 偶数 时 就 采集 数据 ， 为 奇数 时 就 计算 并 输出 。 这 样 就 可 以 解决 问题 了 。 可 是 ， 
怎样 让 时 钟 中 断 他 次 部 米 调用 它 呢 ?TQUEUE_BH 就 是 为 这 种 需 归 而 设置 的 。 企 局 量 q timer 指向 - 
个 队列 , 想 归 计 系 统 在 每 次 时 钟 中 断 时 都 来 调用 某 个 函数 (当然 是 在 系统 空间 ), 就 将 其 挂 入 该 队列 里。 
而 这 里 的 683 行 则 检查 tq timer TA. WRTA EME mark_bh( ) 拒 bh_task_vec[TQUEUE_BH] 
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也 挂 入 tasklet_hi_vec 的 队列 中 ， 这 样 内 核 就 会 在 执行 bh 时 通过 tqueue_bh( ) 来 将 该 队列 中 所 有 的 函数 
都 调用 一 遍 。 由 此 可 见 ，TQUEUE_BH 确实 是 一 项 很 重要 的 基础 设施 。 除 与 时 钟 挂 钩 的 tq_timer 队列 
外 ,还 有 其 他 一 些 bh 和 相应 的 队列 ，IMMEDIATE_BH 是 其 中 之 一 。 有关 详 情 我 们 将 在 “进程 ”和 “ 设 
符 驱 动 ” 有 关 章 节 中 介绍 。 如 果 说 ， 时 钟 中 断 的 “前 半 ”timer_interrupt() 和 “后 半 ”timer_bh( ) 还 是 它 
的 “正业 ”的 话 ， 那 么 tqueue_bh( ) 的 执行 便 是 “第 职业” 了。 

在 做 好 这 些 准备 以 后 ， 时 钟 中 断 服 务 的 “前 半 ” 就 完成 了 。 可 是 读者 企 中 断 一 节 中 已 经 看 到 ，CPU 
在 返回 途中 ， 却 在 离开 do_IRQ( ) 之 前 ， 先 折 入 了 do_softirq( ) 去 干 它 的 “后 半 ” 和 “第 二 职业 ”。 在 我 
们 这 个 情景 中 ，timer_bh( ) 肯 定 会 得 到 执行 ， 布 tqueue_bh( ) 则 在 tq. timer 队列 非 空 时 会 得 到 执行 。 读 者 
也 许 还 会 问 ， 既 然 timer_bh( ) 肯 定 是 要 执行 的 ， 为 什么 不 干脆 把 它 也 放 在 do_timer( ) 中 执行 ， 而 要 费 这 
ANE? 首先 ， 前 面 已 经 看 到 ， 执 行 timer interrupt ) 的 整个 过 程 中 汕 斯 是 关闭 的 ( 见 前 和 面 的 
SA INTERRUPT 标志 位 ); 而 timer bh( ) 的 执行 则 没有 这 么 严 属 的 要 求 。 其 次 ， 在 do_IRQ( ARIS 
可 以 看 出 ， 对 具体 中 断 服 务 程序 的 执行 与 对 do_softirq( ) 的 执行 不 是 一 对 一 的 关系 。 对 具体 中 断 服务 程 
序 的 执行 是 在 一 个 循环 中 进行 的 ， 而 do_sottirq( ) 只 执行 … 次 。 这 样 ， 当 同一 中 断 通道 内 紧 接 着 发 生 了 
好 几 次 中 断 时 ， 对 do_softirq( )， 从 而 对 timer bh ) 的 执行 就 推迟 并 且 合 并 了 。 

Ej TIMER, BH 对 应 的 timer bh( ) 在 kernel/timer.c 中 ， 


668 void timer_bh (void) 


669 { 

670 update_times( ); 
671 run timer list( ); 
672 } 


先 看 同一 文件 〈timerc) 中 的 update_times( ): 


[timer bh( ) > update times( )] 


643 /* 

644 * This spinlock protect us from races in SMP while playing with xtime. -arca 
645 */ 

646 rwlock t xtime lock = RW LOCK UNLOCKED; 

647 

648 static inline void update, times (void) 

649 f 

650 unsigned long ticks; 

651 

652 /* 

653 * update times( ) is run from the raw timer bh handler so we 
654 * just know that the irgs are locally enabled and so we don't 
655 * need to save/restore the flags of the local CPU here. -arca 
656 */ 

657 write_lock_irg(&xtime_lock) ; 

658 

659 ticks = jiffies - wall jiffies; 

660 if (ticks) { 

661 wall jiffies += ticks; 
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662 update wall time (ticks) ; 
663 } 

664 write unlock irq(&xtime lock); 
665 calc load(ticks); 

666 } 


这 里 做 了 两 件 事 。 第 一 件 事 是 update_wall_time( )， 日 的 是 处 埋 所 谓 “ 实 时 时 钟 ” 或 者 说 “挂钟 ” 
xtime 中 的 数值 ,包括 计数 , 进位， 以 及 为 精度 日 的 而 作 的 校正 。 所 涉及 的 主要 也 是 数值 的 计算 和 处 理 ， 
我 们 就 不 深入 进去 了 。 这 里 的 wall_jiffies 也 像 jiffies 一 样 是 个 全 局 量 ， 它 代表 着 与 当前 atime 中 的 数值 
相对 应 的 jiffies 值 ， 表 示 “ 挂 钟 ” 当 前 的 读数 已 经 较 准 到 了 时 轴 上 的 哪 一 点 。 

第 二 件 事 是 calc_load( )， 日 的 是 计算 和 积累 关于 CPU 负荷 的 统计 信息 。 内 核 每 隔 5 秒 种 计算 、 累 
积 和 更 新 一 次 系统 在 过 去 的 15 分 钟 、10 分 钟 以 及 1 分 钟 内 平均 有 多 少 个 进程 处 于 可 执行 状态 , 作为 衡 
量 系统 负荷 轻重 的 指标 。 由 于 涉及 的 主要 是 数值 计算 ， 所 以 我 们 也 不 深入 进去 了 。 

从 update, times( ) 返 回 后 ， 就 是 timer. bh( ) 的 主体 部 分 run. timer list( ) 了 。 它 检查 系统 中 已 经 设置 
的 各 个 “定时 器 ”(timer)， 如 果 某 个 定时 器 己 经 “到 点 ”就 执行 为 之 预定 的 曙 数 〔 这 就 是 该 定时 器 的 
bh 函数 )。 我 们 将 在 “进程 与 进程 调度 ” : 章 中 讲述 定时 器 的 设置 , 到 那 时 再 同 过 来 阅读 run_timer_list() 
的 代码 。 

每 个 定时 器 都 由 -个 timer list 数据 结构 代表 ， 定 义 于 include/linux/timer.h 中 : 


20 struct timer list | 


21 struct list head list; 

22 unsigned long expires; 

23 unsigned long data; 

24 void (*function) (unsigned long); 
25 kh 


这 是 “个 用 于 链表 的 数据 结构 ， 链 表 的 长 度 是 动态 的 而 不 受 限 制 ， 因 此 系统 小 可 以 设置 的 定时 器 
数量 也 不 受 限 制 ‘早期 的 实现 采用 数组 ， 因 而 受到 数组 大 小 的 限制 );。 每 个 定时 器 都 有 个 到 点 时 间 
expires。 结 构 中 的 函数 指针 function 指向 预定 在 到 点 时 执行 的 bh 函数 ， 并 且 可 以 带 一 个 参数 data OF 
期 的 实现 中 不 能 带 参数 )。 如 前 所 述 ， 在 执行 bh 函数 时 中 断 是 打开 的 。 

可 见 ， 在 整个 时 钟 中 断 服务 的 期 间 ， 大 部 分 的 操作 是 在 “后 半 ”， 邮 bh 函数 中 完成 的 。 真 正在 关 
中 断 状态 下 执行 的 只 是 少 明 关 键 性 的 操作 ， 而 大 量 的 操作 尽 可 能 要 放 在 比较 宽松 的 环境 下 ， 即 开 中 源 
的 条 件 下 ， 以 及 允许 在 时 间 上 有 所 伸缩 的 条 件 下 完成 ， 这 样 才能 将 对 系统 的 影响 减 至 最 小 。-- 方 面 ， 
这 应 该 成 为 系统 程序 设计 特别 是 设备 驱动 程序 ) 的 一 项 准则 ， 而 另 一 方面 ， 这 也 对 设计 和 并 发 的 人 
员 提 出 了 很 高 的 要 求 ， 因 为 要 区 分 一 项 操作 是 寿 必 须 在 “前 半 ” 中 执行 ， 以 及 是 否 必须 关中 断 ， 需 此 
对 系统 有 深刻 的 理解 。 
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3.8 系统 调用 


如 果 说 外 部 中 断 是 使 CPU 被 动 地 、 蜡 步 地 进入 系统 空间 的 一 种 手段 ， 那 么 系统 调用 就 是 CPU È 
动 地 、 同 步 地 进入 系统 空间 的 于 段 。 这 里 所 请 “主动 ”， 是 指 CPU“ 自 愿 ” 的 、 事 先 计划 好 了 的 行为 。 
而 “同步 ” 则 是 说 ，CPU 【实际 上 是 软件 的 设计 人 人 员 ) 确切 地 知道 在 执行 哪 一 条 指令 以 后 就 ，` 定 会 进 
入 系统 空间 。 相 比 之 下 ， 中 断 的 发 生 带 有 很 人 的 个 可 预测 性 。 但 是 ， 尽 管 有 着 这 样 的 区 别 ， -者 之 间 
还 是 有 很 大 的 共性 。 这 上 是 汰 为 ， 在 使 CPU 的 运行 状态 从 用 户 态 转 入 系统 态 ， 也 就 起 从 用 广 空间 转 入 系 
统 空间 ， 这 一 个 基本 点 上 .者 是 一 敏 的 。 当 然 ， 中 断 有 可 能 发 和 在 CPU 已 经 运行 在 系统 罕 问 的 时 候 ， 
而 系统 调用 却 内 发 竺 于 用 户 空 间 ， 这 义 是 二 者 不 同 的 地 方 。 这 里 ， 关 键 是 CPU 运行 状态 的 改变 ， 没 有 
了 这 样 的 手段 ， 也 就 无 所 请 “保护 模式 ”了 。 相 比 之 下 ， 人 在 不 分 “用 户 态 ” 和 “系统 态 ” 的 操作 系统 
h, 例如 DOS， 所 谢 系统 谢 用 实际 上 只 不 过 是 动态 连接 的 库 函 数 调 咱 而 已 。 虽然 在 DOS 里 面 系 统 调 用 
也 是 通过 中 断 指令 INT 来 实现 的 ， 但 是 跟 预 先 规定 好 各 种 库 函 数 入 日 地 址 的 普通 函数 调用 没有 多 大 不 
同 。 如 果 用 户 程序 知道 具体 函数 的 入 口 地 址 ， 就 可 以 绕 过 “系统 调用 ”而 直接 调用 这 些 男 数 。 

Linux 的 系统 调用 是 道 过 中 断 指令 “INT 0x80” 实 珊 的 。 我 们 已 经 在 所 而 几 节 中 讨论 过 进 称 通 过 
“陷阱 门 ” 或 “中 断 门 ” 进 入 系统 空间 的 机 制 ， 以 及 IDT 表 中 陷 际 门 的 初始 化 。 本 节 将 着 重 介绍 进程 
在 系统 调用 中 进入 系统 空间 ， 以 及 在 完成 了 所 需 的 服务 以 后 从 系统 空间 返 思 的 过 程 。 这 个 过 程 并 不 局 
限于 某 个 特定 的 调用 ， 而 古 所 有 的 系统 调用 老 要 经 历 的 共同 的 过 程 。 芋 然 我 们 选择 了 一 个 具体 的 调用 
作为 例子 ， 但 并 不 从 功能 的 角度 来 关心 具体 的 调用 ， 而 是 着 腿 丁 这 个 公共 的 过 程 。 系 统 调用 是 内 核 所 
提供 的 最 根本 的 、 最 重 些 的 基础 设施 、 由 于 系统 调用 与 中 断 的 共同 性 ， 读 者 在 岗 读 本 WY IAS HL 
车 ， 特 别 是 中 断 过 程 - 节 结 合 阅读 。 事 实 上 ， 有 些 代 码 就 是 . 洛 共 用 的 ， 几 是 以 前 已 经 介绍 过 的 本 节 
就 不 再 重复 。 

由 十 我 们 并 不 关心 内 核 在 共 体 系统 调用 中 所 提供 的 服务 ， 所 以 选择 了 个 非常 简单 的 调用 
sethostname( ) 作 为 情景 ， 通 过 对 CPU 在 这 个 系统 调用 全 过 程 中 所 走 过 的 路 线 的 分 析 ， 介 绍 内 核 的 系统 
调用 机 制 。 

系统 调用 sethostname( ) 的 功能 非常 简单 ， 就 趾 设 肾 计算 机 《在 网 络 小 的 “主机 名 ” 其 使 用 也 很 
简单 : 





int sethostname (const chat *name , size t len); 


参数 name 就 是 旧 设 置 的 主机 名 ， 而 den 则 为 该 宁 符 中 的 长 度 。 调 用 结束 后 返回 0 表示 成 功 ， 一 1 
则 表示 失败 。 失 败 时 用 户 程序 中 的 全 局 变量 erno 含有 共 体 的 出 错 代 人 码 。 从 程序 设计 的 观点 米 看 , Linux 
的 系统 调用 可 以 分 成 其 类 :一 类 比较 接近 于 真正 意义 上 的" 冰 数 ”调用 的 结果 就 是 疯 数 值 ,例如 getpid() 
就 是 这 样 ， 而 另 一 类 就 是 像 sethostname( ) 这 样 的 ， 返 回 的 值 实际 上 只 是 一 个 是 否 成 功 的 林 志 ， 而 调用 
的 目的 是 通过 “副作用 ”来 体现 的 。 介 是， 在 C 语言 中 把 所 有 可 以 通过 调用 指令 米 调 出 的 程序 段 ， 也 
就 是 带 有 ret 指令 的 程序 段 都 称 作 “ 函 数 ”。 而 中 断 上 服务 程序 和 系统 调用 ， 由 丁 ree CEER Fit iret) 指 
令 的 存在 也 就 成 了 “ 男 数 ”我们 在 讨论 中 也 将 遵循 C 语 吝 的 规 由 和 传统 BURIAL OR ER 

为 了 帮助 读者 更 好 地 惠 解 系统 调用 的 全 过 程 ， 我 们 从 有 几 户 空间 对 函数 sethostname ) 的 调用 开始 我 
们 的 情景 分 析 。 其 实 ，sethostname( ) 是 一 个 库 函 数 〈 在 /usrvlibylibc.a |), SEER ARSE at At CE AB 
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Pe BOT ACH. GNU 的 C 语言 库 函 数 的 源 代 码 也 是 公开 的 ， 可 以 从 GNU 的 网 站 下 载 。 但 是 ， 我 们 
在 这 里 采用 从 libe.a 反 汇 编 得 到 的 代码 。 点 因 是 ， 一 ` 米 方 使 ,“ 得 来 全 不 费 上 上 大” 来, 读者 多 接触 一 
些 芒 - 编 代 码 也 是 有 好 处 的 。 特 别 站 对 于 系统 程序 员 米 说 ， 阅 读 和 使 用 汇编 语言 也 是 种 有 用 的 技能 。 


30 sethostname. o: file format elf32 1386 

31 

32 Disassembly of section .text: 

33 

34 00000000 <sethostname?: 

35 0: 89 da movl *ebx, %edx 

36 2: 8b 4c 24 08 movl | Ox8(Wesp, 1), %ecx 
37 6: 8b 5e 24 04 movl 0x4 (%esp, 1), %ebx 
38 a: b8 4a 00 00 00 movl $0x4a, %eax 

39 f: ed 80 int $0x80 

40 11: 89 d3 movl  %edx, ebx 

4] 13: 3d O1 fO ff ff cmpl $0xfffffOOl,9eax 
42 18: Of 83 fc ff ff jae la <sethostnamet0xla> 
43 ld: ff 

44 la: R 386 PC32 __ syscall error 


45 le: c3 ret 


EN EA Be sethostname( ) 以 后 ， 堆 栈 指针 %esp 指向 返回 地 址 ， 而 在 堆栈 指针 的 内 容 加 4 的 地 方 则 是 
调用 该 函数 时 的 第 … 个 参数 name)， 加 8 的 地 方 为 第 二 个 参数 len， 依 次 类 推 。 山 于 i386 运行 于 32 位 
模式 ， 所 有 的 参数 都 是 按 32 长 整数 小 入 堆栈 的 。 指 令 “movl Ox8(%esp,1), 9%ecx” 肯 示 将 赂 对 丁 寄存 器 
%esp 的 位 移 为 0x8〔 位 移 单 位 为 1) 处 的 内 容 ( 华 我 们 这 个 情景 中 就 是 参数 len〉 存 入 寄存 器 Wecx。 然 
后 ， 又 将 参数 name 从 堆栈 路 存 入 寄存 器 Webx。 最 后 是 将 代表 sethostname( W RAAH = 0x4a 存 入 寄 
仔 咒 Weax， 接 着 就 是 中 靳 指令 “int $0x80”。 这 里 ， 读 省 已 经 看 证 ，Linux 内 核 在 系统 调用 时 是 通过 
ST Ai IT AN JR SEHR PEST 

为 什么 要 用 寄存 器 传递 参数 ? 读者 也 许 还 记得 : 当 CPU 穿 过 陷阱 门 , 从 用 户 空 间 进 入 系统 空 问 时 ， 
由 于 运行 级 别 的 变动 ， 要 从 用 户 堆 栈 切换 到 系统 堆栈 。 如 末 在 INT 指令 之 前 把 参数 压 入 堆栈 ， 那 是 在 
用 户 维 栈 中 ， 而 进入 系统 空间 以 后 就 换 成 了 系统 堆栈 。 虽 然 进 入 系统 空间 之 后 也 还 可 以 从 用户 堆栈 中 
读 取 这 些 参数 ， 但 毕竟 比较 费事 了 。 摧 通过 寄存 露 来 传递 参数 ， 则 读者 下 面 会 看 到， 是 个 巧 钞 的 安排 。 
BRAN PT HAMA CPU 进入 内 核 ， 而 先 看 一 下 从 系统 调用 返回 以 后 的 情况 。 首 先是 从 9%edx 中 恢复 %ebx 
原先 的 内 容 ， 那 是 仕 系统 调用 之 前 保存 在 %edx PI (weds 中 原先 的 内 容 就 丢失 了 ， 这 是 - -种 约定 ， 
gee 在 使 用 寄存 句 时 会 遵 计 这 个 约定 )。 然 后 就 是 检 壤 系统 调用 的 返 叫 信 ， 那 是 在 寄存 器 %eax H. nisi 
%eax 中 的 内 容 是 在 Oxfffff001 与 OxfffffEEEE 之 间 ， 也 就 起 一 1 至 一 4095 之 问 ， 那 就 是 出 错 了 ， 就 更 转 剖 
__syscall_error( ) 并 从 那里 返 Im|。 这 里 的 la:R_386_PC32 表示 地 址 sethostname+Oxla 处 为 重 定位 信息 ， 
在 连接 时 会 把 地 址 __syscall_error( ) 填 入 该 处 。 函 数 __syscail_error( ) 也 人 在 libc.a fl: 


sysdep. o: file format e1£32-1386 


Disassembly of section .text: 


C140 N 


00000000 <__syscall error>: 
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6 0: £7 d8 negl %eax 

7 

8 00000002 <_ syscall error 1>: 

9 2: 50 pushl %eax 

10 3: e8 fc ff ff ff call 4€ syscall error 140x2» 
11 4: R 386 PC32 errno location 

12 8: 59 popl %ecx 

13 9: 89 08 movl %ecx, (eax) 
14 b: b8 ff ff ff ff movl $Oxtftffftf, heax 
15 10: c3 ret 

16 

17 

18 errno-loc.o: file format elf32-1386 
19 

20 Disassembly of section .text: 

21 

22 00000000 <__errno_location>: 

23 0: 55 pushl %ebp 

24 1: 89 e5 movl  %esp, %ebp 
25 3: b8 00 00 00 00 movl $0x0, %eax 
26 4: R 386 32 errno 

27 8: 89 ec movl  ‘%ebp, %esp 
28 a: 5d popl ‘%ebp 

29 b: c8 ret 


fE  syscall error 中 ， 先 取 %eax 内 容 的 负 值 ， 使 其 数值 变 成 1 一 4095 之 间 ， 这 就 是 出 错 代码 ， 并 
将 其 压 入 堆栈 。 接 着 ， 又 调用 __ermo_loacation( )， 将 全 局 量 errono 的 地 址 取 入 多 eax。 然 后 从 堆栈 中 抛 
出 出 错 代码 至 Yecx、 并 将 其 写 入 全 局 量 errono。 最 后 ， 在 返回 之 前 ， 将 %eax 的 内 容 改 成 一 1。 这 样 ， 
通过 寄存 器 %eax 返回 到 用 户 进程 的 数值 便 是 一 1， 击 eron 则 含有 具体 的 出 错 代 码 。 这 是 对 大 部 分 系 
统 凋 用 (返回 整数 的 调用 〉 返 回 值 的 约定 。 

fain SACL AAP AE, FRA AK, thie Alay. CPU 穿 过 陷阱 门 的 过 
ERER Seo PO, BREST. Sot, Ma, Aba rio sum 
断 门 时 是 不 检查 中 断 门 所 规定 的 准 入 级 别 的 ， 而 在 通过 INT fa eB eT Ta TI, UE Mt BT 
规定 的 准 入 级 别 与 CPU I5 25 B3 £1 2890 « A 38 556 UL] SS BABE JRE RI] DPL 为 3。 寄存 融 IDTR 
Tif] ir) ee IDT, m IDT 表 中 对 应 于 0x80 的 表 项 就 是 为 INT 0x80 设置 的 陷阱 门 ， 其 中 的 
eX JEFE IRI system, call( )。 当 CPU 到 达 system call( ) 时 ， 已 经 从 用 户 态 切换 到 了 系统 态 ， 并 且 从 用 
户 堆 栈 换 成 了 系统 堆栈 ， 相 当 于 CPU 在 发 后 于 用 户 空 间 的 外 部 中 斯 过 程 中 到 达 IRQOxYY_interrupt 时 
的 状态 ， 读 者 不妨 先 回 过 头 去 重 温 下。 

如 前 所 述 ，CPU 在 穿 过 陷阱 门 进入 系统 内 核 时 并 不 自动 关中 断 , 所 以 系统 调 几 的 过 程 赴 可 中 断 的 。 

pki XX system. call( ) 的 代 何在 arch/i386/kernel/entry.S 中 : 


195 ENTRY (system call) 

196 pushl %eax H save orig cax 
197 SAVE ALL 

198 GET CURRENT (%ebx) 
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199 cmpl $(NR syscalls), %eax 


200 jae badsys 

201 testb $0x02, tsk ptrace (%ebx) # PT TRACESYS 
202 jne tracesys 

203 call *SYMBOL NAME(sys call table) ( %eax, 4) 

204 movl %eax, FAX esp) 4 save the return value 


205 ENTRY(ret from sys call) 


DEMNM SL 


首先 是 将 寄存 内 9%eax 的 内 容 压 入 堆栈 。 系统 堆栈 中 的 这 个 位 置 在 代码 中 称 为 orig_ax， 人 在 外 部 中 断 
过 程 中 用 米 保存 《经 过 变形 的 ) 中断 请 求 号 ， 测 在 系统 调用 中 则 用 来 保存 系统 调用 号 。SAVE_ALL 我 
们 已 经 在 中 断 过 程 一 节 中 看 刘 过 了 。 但 是 ， 这 里 要 指出 ， 对 于 压 入 堆栈 中 的 寄存 器 内 容 的 使 用 方式 是 
不 一 样 的 。 在 中 断 过 程 中 ，SAVE_ALL 以 后 ， 当 调用 具体 的 中 断 服 务 程 序 时 已 经 保存 在 堆栈 中 的 内 容 
是 作为 - -个 ptregs 数据 结构 ， 当 成 参数 传递 给 do_IRQ( )， 然 后 又 传递 给 具体 的 服务 程序 的 ， 这 oH 
读者 在 中 断 服 务 - - 节 中 已 经 看 到 。 可 是 ， 在 系统 调用 中 就 不 同 了 ， 这 里 堆栈 中 每 个 寄存 器 的 内 容 可 以 
根据 需 紫 作为 独立 的 参数 传递 给 具体 的 服务 程序 。 以 sethostname( ) 为 例 ， 需 要 传递 的 参数 是 斯 个， 分 
别 在 9ebx 和 9%ecx P.a Æ SAVE ALL 中 Webx 起 最 后 压 入 堆栈 的 ，%ecx 次 之 。 所 以 堆栈 中 9%ebx 的 内 
容 就 成 为 参数 1， 而 %ecx 的 内 容 就 是 参数 2 了 。 回 到 SAVE_ALL 去 看 一 下 ， 可 以 看 到 被 压 入 堆栈 的 客 
TEARIKUK IU: Joes, Yods. ?beax. 9eebp. edi, 9besi. Yedx. pecx 和 %ebx。 这 里 的 %eax HARA 
Ji (45 orig. ax 相同 )， 显 然 不 能 再 用 来 传递 参数 ， 而 %ebp 是 用 作 子 程序 调用 过 程 中 的 “ 帧 ”(frame) 
上 针 的 ， 也 不 能 用 来 传递 参数 。 这 样 ， 实 际 上 就 具有 最 后 5 个 寄存 器 可 以 用 来 传递 参数 ， 所 以 ， 在 系 
统 调 用 中 独立 传递 的 参数 不 能 超过 5 个 。 从 这 里 也 可 以 看 出 ，SAVE_ALL 中 将 寄存 器 压 入 堆栈 的 次 序 
并 不 是 随意 决定 的 ， 山 有 其 特殊 的 考虑 。 

宏 调 用 GET_CURRENT (%ebx) 使 寄存 器 %ebx 指 前 当前 进程 的 task struct. 4H (CK 
GET CURRENT 我 们 将 在 进程 一 章 中 介绍 )。 然 后 ， 就 检查 寄存 器 %eax 中 的 系统 调用 号 是 否 超 出 了 范 
围 。 在 task struct 数据 结构 中 有 个 成 分 Hags， 其 中 有 个 标志 位 叫 PT_TRACESYS。 一 个 进程 可 以 通过 
系统 调用 ptrace( ), 将 一 个 子 进程 的 PT. TRACESYS 标志 位 设 成 1, 从 而 跟踪 该 子 进 程 的 系统 调用 。Linux 
系统 中 有 一 条 命令 strace 就 是 十 这 件 事 的 , 是 :个 很 有 用 的 工具 。 这 里 system. call ) 中 的 第 201 行 就 是 
在 惟 查 当前 进程 的 PT_TRACESYS 是 作为 1。 注 意 ，flags(%pebx) 并 不 是 “个 函数 调用 ， 和 而 是 表示 相对 
于 %ebx 的 内 容 ， 也 就 是 当前 进程 的 task. struct 结构 指针 、 位 移 为 fags 处 的 地 址 ， 而 flags 在 entry.S 中 
的 75 行 定义 为 4。 这 点 以 前 已 经 讲 过 ， 这 里 再 提醒 - -下 。 

当 PT_TRACESYS 标志 位 (0x20) 为 1 时 ， 就 要 转 入 tracesys， 其 代 公 也 在 entry.S P: 


244 tracesys: 

245 mov] $—-ENOSYS, EAX (esp) 

246 call SYMBOL NAME (syscall trace) 
247 movl ORIG EAX(*esp), %eax 

248 cmpl $(NR syscalls), %eax 


249 jae tracesys exit 
250 call *SYMBOL NAME(sys call table) (, %eax, 4) 
251 movl %eax, FAX (esp) # save the return value 


252 tracesys_exit: 
253 call SYMBOL NAME(syscall trace) 


- 247 . 


Linux AURA kai (上册 ) 


254 jmp ret from sys call 


将 这 一 段 程序 与 前 面 正常 执行 时 的 203 行 作 一 比较 , 就 可 以 看 到 不 同 之 处 在 十 : T] PT_TRACESYS 
为 1 时 ， 在 调用 有 具体 的 服务 程序 之 前 和 之 后 都 要 调用 一 下 函数 syscall_trace( )， 向 父 进程 报告 有 具体 系统 
调用 的 进入 和 返回 。 我 们 将 在 讲述 进程 问 通信 时 再 深入 到 syscall_trace( ) 中 去 ， 但 是 有 兴趣 的 读者 不 妨 
先 自 已 看 看 。 现 在 同 到 system. call 中 继续 看 那里 的 203 行 。 这 是 一 条 call FHS, PF call 的 地 址 在 一 个 
eT ET, mk See TET CE AH sys. call table[ ] 中 以 %eax 的 内 容 为 下 标 、 单 位 为 4 个 字 节 的 元 素 
H, RIAR ( %eax,4)》 的 第 一 个 逗号 前 而 为 室 ， 表 示人 在 %eax 的 基础 上 并 没有 其 他 的 位 移 ， 而 4 则 表 
示 计 算 位 移 〈%eax 相对 于 sys. call table) 时 的 单位 为 4 字 节 。 系 统 调用 跳 转 表 sys_call_tablef ] 是 个 
函数 指针 数组 ， 山 于 篇 幅 较 大 ， 我 们 把 它 单 独 作为 Ti, INRA ZA. 

表 中 几 是 内 核 不 支持 的 系统 调用 号 全 部 都 指向 sys ni syscall( )， 这 个 函数 内 是 返 同 一 个 出 错 代码 
一 ENOSYS， 表 示 该 系统 调用 尚未 实现 。 结 合 前 面 讲 过 的 libc.a 中 的 人 处理， 可 J 知 此 时 用 户 程序 会 得 到 返 
同 值 一 1， 而 全 局 量 errno 14873 ENOSYS. 

中 转 表 中 位 移 为 0x4a， 也 就 是 74 处 的 函数 指针 〔 见 后 面 跳 转 表 小 的 S00 fT) 为 sys_sethostname， 
所 以 在 我 们 这 个 情景 中 就 进入 了 sys_sethostname( )， 这 也 是 在 kernel/sys.c 中 定义 的 : 


971 asmlinkage long sys sethostname (char *name, int len) 


972 { 
973 int errno; 
974 
975 if (!capable (CAP SYS ADMIN) ) 
976 return -EPERM; 
977 if (en < 0 i| len? NEW UTS LEN) 
978 return -EINVAL; 
979 down write(Kuts sem); 
980 errno = -EFAULT; 
981 if (!copy from user(system utsname.nodename, name, len)) { 
982 system utsname. nodename[len] = 0; 
983 errno = 0; 
984 } 
985 up writc(&uts som); 
986 return errno; 
987  ] 
ny ABM, sethostname 应 该 是 内 有 特权 用 户 才 可 以 进行 的 操作 ， 所 以 上 来 就 先 检 查 这 :点 。 函 


数 capable(CAP_SYS_ADMIN) 检 查 当前 进程 是 否 享有 CAP SYS ADMIN 的 授权 。 如 没有 的 话 就 返回 
负 的 出 错 代 码 EPERM。 然 后 ， 又 对 宁 符 申 的 长 度 进行 检查 以 保证 安全 。 

在 多 处 理 器 系统 1+， 同时 可 以 有 多 个 进程 在 不 同 的 CPU Eier. RE, s np BEARER ERT 
时 调用 sethostname( ).. TJ GARE INR: 

(1) 进程 A WH sethostname( )， 要 把 主机 名 设 成 “AB”。 

(2) 进程 C 在 另 一 个 CPU 上 运行 ， 也 调用 sethostname( )， 要 把 水 机 名 设 成 “CD”。 

(3) 进程 A 先进 入 内 核 ， 并 内 已 经 让 sys_sethostname( UH SA” GAT WTA 

System_utsname.nodename， 可 是 还 浅 有 来 得 及 写 “B ”之 前 发 生 了 中 断 ， 出 C 在 这 个 时 候 插 
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(4) 进程 C MAW Eb. 3f H5E X TM sethostname( ) 的 调用 ， 上 成 功 地 将 内 核 中 的 

system utsname.nodename 设置 成 “CD ” 

(5 和 梢 后 ， 进 程 A 恢复 运行 ， 继 续 把 “B” 写 入 system_utsname.nodename。 

(6) ” 当 进 程 A 完成 对 sethostname( ) 的 调用 而 “成 功 ” 返 回 时 ， 内 核 中 system_utsname.nodename 

的 内 容 却 是 “CB ”。 

任 操作 系统 理论 中 ， 这 种 现象 称 为 “race condition”( 抢 道 )。 为 了 防止 这 种 情况 发 发 生 ， 就 些 将 对 
system. utsname.nodenamer 的 操作 放 在 受到 “信号 量 ”(semaphore ) 保护 的 “临界 区 ”中 ， 而 
sys sethostname( ) 中 979 行 的 down_write( ) 和 985 行 的 up_write( ) 所 实现 的 正 是 这 样 的 保护 机 制 。 有 了 
这 种 保护 ， 上 述 过 程 中 当 进程 C 到 达 979 行 时 会 发 现 已 经 有 个 进程 正在 里 面 操 作 ,“ 请 勿 打扰 ”， 测 自 
愿 暂缓， 让 别 的 进程 先 运行 ， 从 而 避免 了 此 相 抢 道 。 

PIED. 就 是 本 次 系统 调用 所 右 完 成 的 实质 性 的 操作 了 ,这 就 是 将 参数 name 所 指向 的 字符 申 写 入 内 
核 中 的 system_utsname.nodename。 这 个 操作 的 源 在 用 户 空 间 中 ， 而 日 标 在 系统 空间 中 ， 所 以 要 通过 一 
个 宏 操 作 copy_from_user( ) 来 完成 复制 。 如 有 前 所 述 ， 系 统 调用 时 古 遂 过 寄存 器 传递 参数 的 ， 能 够 通过 寄 
存 器 传递 的 信息 量 显然 不 大 ， 所 以 传递 的 参数 大 多 是 指针 ， 这 样 才能 通过 指针 找到 更 人 块 的 数据 。 因 
此 , 对 十 系统 调用 的 实现 ,类 似 士 copy. from. user( ) 这 样 在 用 户 空 间 和 系统 空间 之 间 复 制 数据 的 操作 是 
很 重要 、 也 很 常 用 的 。 对 丁 1386 CPU, ZEE copy_from_user( ) 是 在 asm-i386/uaccess.h 小 定义 的 ; 


567 #define copy from user (to, from, n) \ 
568 (. builtin constant p(n) ? 

569 __constant copy from user((to), (from), (n) : \ 

570 ..generic copy from user((to), (from), (n))) 


当 复 制 的 长 度 为 一 些 特殊 的 常数 ， 例 如 4. 8. 7. 512 等 等 时 ， 具 体 的 操作 要 略为 简单 一 些 ， 布 
在 一 般 的 情况 下 则 通过 __generic_copy_from_user( ) 来 完成 。 其 代码 在 arch/i386/lib/usercopy.c 中 : 


50 unsigned long 

51 . generic copy from user(void *to, const void *from, unsigned long n) 
52 { 

53 if (access ok(VERIFY READ, from, n)) 

54 . copy user zeroing(to, from, n) ; 

95 return n; 

56 } 


对 于 读 操 作 ，access_ok( R ATEA AR from Aln 的 合理 性 ， 例如 (from +n) 是 否 超 出 了 用 户 空 
间 的 上 限 ， 而 并 不 检查 该 区 间 是 从 已 经 映射 。 然 后， 就 通过 另 个 宏 操 作 _copy_user_zeroing( ) 从 用 户 
空间 复制 。 这 里 __copy_user_zeroing( ) 的 代码 可 以 说 是 - - 块 “ 便 肯 头 ” 可 是 ， 这 个 操作 对 于 系统 调 月 
义 是 很 重 柴 的 。 而 且 还 有 些 其 他 的 类 似 操作 ， 例 如 在 copy. to user( ) 中 调用 的 __copy_user( )， 以 及 
__constant_copy_user(), i44{__do_strncpy_from_user( )，get_user( ) 等 等 都 与 此 非常 相似 ， 所 以 还 是 值 
得 “ 哨 ” 一 下 的 。 男 -方面 ， 我 们 在 第 2 章 中 讲述 do_page_fault( ) 叶 留 下 了 - -个 尾巴 ， 止 是 跟 这 些 操 
作 有 关 的 。 宏 操作 __copy_user_zeroing( ) 的 定义 在 include/asm-i386/uaccess.h 中 : 
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263 #define __copy_user_zeroing (to, from, size) \ 
264 do { X 

265 int (dO dl; \ 

266 . asm  . volatile ( \ 

267 "0: rep; movsl\n” \ 

268 ”  movl 93, %0\n” \ 

269 ^l: rep; movsb\n” \ 

270 “2;\n” \ 

271 “section .fixup, \ ax\” An^ \ 

272 ^3: lea 0(%3, %0, 4), %0\n” M 

273 ^4: pushl %0\n” \ 

274 " — pushl %%eax\n” \ 

275 ^  xorl %Seax, %%eax\n” \ 

276 " rep; stosb\n” X 

277 ” — popl %%eax\n” \ 

278 " — pop] %0\n” \ 

279 ” — jmp 2b\n” \ 

280 ". previous\n” \ 

281 ” section | ex table, V'aV'An^ \ 

282 ”  .align 4\n” \ 

283 ^  . long Ob, 3b\n” \ 

284 ” — . long 1b, 4b\n” N 

285 ” previous” \ 

286 : "-&c" (size), "-&D" (dO), "-&S" ( dD \ 
287 : ”r” (size & 3), "O" (size / 4), “1% (to), “2” (from) \ 
288 : “memory”) ; X 


289 ) while (0) 


首先 来 看 __copy_user_zeroing( ) 代 码 中 常规 的 部 分 , 这 些 代码 是 在 操作 顺利 ，“ 切 都 正常 的 情况 下 
执行 的 。 这 一 部 分 实质 上 只 有 267 一 270 四 行 ， 加 上 286 一 288 一 行 。286 行为 “输出 部 ”， 共 说 明了 一 
个 变量 ， 分 别 为 %0、%1 以 及 %2。 其 中 %0 对 应 于 参数 size， 与 窗 存 路 %9pecx 结合 ; %1 对 应 于 局 部 变 
量 _do， 与 寄存 器 W%%edi 结合 ， 而 %2 则 对 应 于 局 部 变量 __d1， 与 寄存 些 %%esi 结合 。287 行为 “ 输 
AR”, 说 时 了 四 个 变量 。 第 一 个 为 %3， 是 一 个 寄存 器 变量 ， 初 值 为 〈size&3)， 而 后 面 两 个 则 分 别 等 
HATOL 962 和 %3， 分 别 应 该 署 初 值 为 〈size/4)， 人 参数 te， 以 及 参数 ffom。 完 成 了 和 输入 部 所 规定 的 初 
始 化 以 后 ， 就 开始 执行 267 一 270 行 的 汇编 语言 程序 。 程 序 中 利用 了 X86 处 理 器 的 REP 和 MOVS 指令 
PEAT AEB MOVE， 寄 存 器 %%ecx Nit Rss, W%esi 为 源 指针 ，%%edi 为 日 标 指针 。 先 按 长 整数 进行 ， 
然后 对 剩余 的 部 分 〈 不 超过 3 TO. 字 节 按 字 节 进行 。 如 果 用 C 语音 来 写 这 段 程序 ， 那 就 相当 于 ， 


copy user zeroing (void *to ， void *from ， size) 
{ 
int r; 
r = size & 3; 
size = size/4; 
while(size —) *((jnt *) to)++ = * ((int *) from) ++; 
while(r —) ¥*((char *) to)++ - *((char*) from) ++; 
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} 


显然 ， 二 者 的 效率 是 不 能 相 比 的 。 读 者 在 前 几 节 中 己 经 看 到 过 类 似 的 代码 ， 所 以 这 一 部 分 代码 是 
容易 理解 的 。 

可 是 ， 为 什么 要 有 从 271 行 至 280 TAERE? 代码 的 作者 特地 写 了 个 说 明 ， 就 是 文件 
"^ Documentation/exception.xt ”, 解释 其 原因 〈 如 果 读 埋 的 计算 机 安装 了 Linux. ， 可 以 在 
Ausrsrc/linux/Documentation 目录 中 找到 这 个 文件 )。 不 过 读者 在 阅读 那 篇 说 明 时 可 能 还 会 感到 困难 ， 所 
以 我 们 结合 本 节 的 情景 分 析 加 以 补充 说 明 。 当 内 核 从 一 个 进程 得 到 从 用 户 空间 传递 进来 的 指针 时 ， 就 
像 这 个 情景 中 的 name， 是 很 难保 证 这 个 指针 的 “合法 ”性 的 ， 吏 难保 证 在 长 度 为 len 的 整个 区 间 部 是 
“合法 ”的 。 所 以 ， 为 安全 起 见 应 该 先 检 查 这 个 区 间 的 合法 性 ， 看 看 由 指针 和 长 度 两 个 参数 所 决定 的 
虚 存 区 间 是 否 已 经 建立 映射 。 每 个 进程 部 有 个 代表 它 的 虚 存 空间 的 mm struct. 数据 结构 ， 记 录 着 该 进 
程 在 用 户 空间 所 有 已 经 建立 映射 的 区 问 。 只 此 搜索 这 个 数据 结构 中 的 链表 ， 就 可 以 发 现 从 name 开始 ， 
长 度 为 len 的 区 间 是 否 已 经 建立 映射 ， 并 且 是 佣 允许 所 需 的 操作 〈 读 或 气 )。 内 核 中 专门 有 个 函数 
verify area ( ) 用 于 这 个 目的 。 而 Linux 内 核 老 一 些 的 版 本 中 确实 就 是 这 样 做 的 。 但 是 ， 每 次 从 用 户 区 
读 或 写 时 都 要 进行 这 样 的 检查 实在 是 个 负担 ， 测 试 表 明 这 个 负担 在 典型 的 应 用 中 确实 显著 地 影响 了 效 
率 。 在 实际 应 用 中 ， 昌 然 指 外 有 问题 的 可 能 性 也 是 有 的 ， 其 至 可 能 还 不 小 ， 但 毕竟 总 起 少数 ， 也 许可 
以 说 “ 百 分 之 九 上 五 以 上 的 指针 都 是 好 的 ”， 实 在 犯 不 着 为 少数 的 坏 指针 而 “打击 一 人 片 ”” 致使 总 体 
效率 下 降 。 所 以 ， 新 版 本 就 决定 把 对 指针 合法 性 的 检查 取消 了 。 万 - - 碰 上 了 坏 指针 ， 孝 就 让 页 面 异 常 
发 生 吧 ， 内 核 可 以 在 页 面 异 常 的 服务 程序 中 个 别 地 处 理 这 个 问题 。 

WE, FRAT elit kA A A do page fault( ). W ERIE m vm n udAGN. A 
do page fault( ) 中 ， 首 先 就 是 通过 find vma( ) 搜 索 当 前 进程 的 虚 存 区 间 链 表 ， 如 果 搜 索 失 败 就 转 入 
bad_area。 在 第 2 章 中 ， 我 们 对 于 bad area 只 讲 了 当 异 常 发 生 于 CPU 运行 在 用 户 空间 时 的 情况 。 而 在 
我 们 现在 这 个 情景 中 ， 则 异常 发 生 于 当 CPU 运行 在 系统 空间 的 时 候 。 虽 然 访 问 失 败 的 日 标 地 址 在 用 户 
空间 中 ， 但 CPU 的 “执行 地 址 ” 却 是 在 系统 空间 中 。 为 方便 起 见 ， 我 们 青 列 出 do page fault ( ) 中 有 关 
的 几 行 代码 : 





[do._ page. fault( )] 


299 do sigbus: 


315 /* Kernel mode? Handle exceptions or die */ 
316 if (!(error code & 4)) 

317 goto no context; 

318 return; 


255 no context: 


256 /* Are we prepared to handle this kernel fault? */ 

257 if ((fixup = search exception table(regs—>eip)) != 0) ( 
258 regs->eip = fixup; 

259 return; 

260 } 
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就 是 说 ， 如 果 内 核能 够 在 一 个 “异常 表 ” 中 找到 发 咎 异常 的 指令 所 在 的 地 址 ， 并 得 到 相应 的 “ 修 
复 ” 地 址 fixup, BUR CPU 在 异常 返回 后 将 要 重新 执行 的 地 址 替换 成 这 个 “修复 ”地址 。 为 什么 要 这 
PEM? 因为 在 这 种 情况 下 内 核 不 能 为 当前 进程 补 上 一 个 页 面 (那样 的 话 name 所 指 的 字符 串 就 变 成 空 
白 了 )。 而 如 果 任 其 和 白 然 的 话 ， 则 从 异常 返回 以 后 ， 当 前 进程 必然 会 接连 不 断 地 因 执 行 同一 条 指令 出 产 
生 新 的 异常 , 洲 入 “万 劫 不 复 ” 的 地 步 。 所 以 , 必须 把 它 “ 从 泥 坑 里 拉 出 来 ”。 PRÉC search. exception. table 
() 是 在 arch/i386/mnyextable.c 中 定义 的 : 


[do page. fault( ) > search_exception_table( )] 


33 unsigned long 
34 search exception table (unsigned long addr) 





35 X 

36 unsigned long ret; 

37 

38 #ifndef CONFIG MODULES 

39 /* There is only the kernel to search. */ 

40 ret = search one table( start ex table, | stop ex table-l, addr): 
41 if (ret) return ret; 

42 #else 

43 /* The kernel is the last “module” -~ no need to treat it special. */ 
44 struct module *mp; 

45 for (mp = module list; mp ‘= NULL; mp = mp-^next) { 
46 if (mp-»ex table start == NULL) 

4T continue; 

48 ret = search one table(mp-^ex table start, 

49 mp-^ex table end - 1, addr); 

50 if (ret) return ret; 

51 ) 

02 #endif 

53 

54 return 0; 

sb. .] 


AN 38 47K) CONFIG MODULES ERAEN, MEB ME “BR” (RT RSAC A), 
最 终 总 是 要 调用 search_one_table ()。 那 也 是 在 同 :个 源 文件 (extable.c) 中 : 


[do_page_fault( ) > search_exception_table( ) search one table( )] 


12 static inline unsigned long 

13 search one table (const struct exception table entry *first, 
14 const struct exception table entry *last, 

15 unsigned long value) 

16 | 

17 while (first <= last) { 

18 const struct exception table entry *mid; 

19 long diff; 
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20 


21 mid = (last - first) / 2 + first: 
22 diff = mid insn - value; 
23 if (diff == 0) 

24 return mid-^fixup; 

25 else if (diff < 0) 

26 first = mid+1; 

27 else 

28 last = mid-l; 

29 } 

30 return 0; 

3l ] 


显然 ， 这 里 所 实现 的 是 在 一 个 exception table entry 结构 数组 小 进行 的 对 分 搜索 。 数据 结构 struct 
exception table entry 又 是 在 include/asm-i386/uaccess.h 路 定义 的 : 


67 /* 

68 * The exception table consists of pairs of addresses: the first is the 
69 * address of an instruction that is allowed to fault, and the second is 
70 * the address at which the program should continue. No registers are 
71 * modified, so it is entirely up to the continuation code to figure out 
72 * what to do. 

73 * 

74 * All the routines below use bits of fixup code that are out of line 

75 * with the main instruction path. This means when everything is well, 
76 * we don t even have to jump over them. Further, they do not intrude 
77 * on our cache or tlb entries. 

78 */ 

79 

80 struct exception table entry 

81 { 

82 unsigned long insn, fixup; 

83. fs 


结构 中 的 insn Xo BI BEP ERE TE OE, du fixup 则 为 用 来 替换 的 “修复 ”地 址 ， 读 
ER: 可 能 发 生 问 题 的 指令 有 阔 么 多 ， 怎 么 能 为 每 -条 可 能 发 生 问题 的 指令 都 建立 这 样 一 个 数据 结 
AWE? 回答 是 : 首先 ， 可 能 发 生 问题 的 指令 其 实 并 不 像 想 像 的 浪 么 多 ， 其 次 ， 由 淮 来 为 这 些 指 令 建立 
这 样 的 数据 结构 呢 ? 很 简单 ， 就 是 “ 谁 使 用 ， 谁 负责 ”， 例 如 ， 我 们 这 里 的 __copy_user_zcroing( YHA 
用 户 空间 找 贝 ， 可 能 发 牛 问题 ， 它 束 应 该 负责 在 异常 表 中 为 其 可 能 发 生 问题 的 指令 建立 起 这 样 的 数据 
结构 。 

现在 我 们 可 以 同 到 __copy_user_zeroing( ) 的 代 色 中 了 。 首 先 , 在 这 里 可 能 发 生 问题 的 指令 其 实 只 有 
两 条 , 一 条 是 267 行 标号 为 0 的 movsl, 另 -条 则 是 269 行 标号 为 1 的 movsb。 所 以 应 该 建立 两 个 表 项 ， 
这 就 是 282 行 全 284 行 所 说 明 的 ， 关键 之 处 在 283 1181 284 行 。283 FER, AUR FCR AE E BT S 
为 0 处 的 地 址 ， 也 就 是 指令 movsi 所 在 的 地 址 ， 那 么 其 “修复 地 址 ”fixup 为 前 面 标号 为 3 处 的 地 址 ， 
也 就 是 指令 lea 所 在 的 地 三 。 这 时 ，CPU 从 “修复 地 中 ”开始 做 些 什 么 修复 呢 ? 在 这 里 是 通过 stosb JE. 
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system_utsname_nodename 中 剩余 的 部 分 设 成 0( 当 然 也 可 以 是 什么 部 不 做 )。 然 后 , 就 通过 279 行 的 IMP 
指令 跳 转 到 前 面 标号 为 2 处 ， 也 就 是 结束 的 地 方 。 这 样 ， 虽 然 从 用 户 空 间 拷贝 的 目的 没有 达到 ， 却 避 
免 了 陷入 在 “异常 一 重 执 ” 之 问 可 能 发 生 的 无 限 循环 。 

大 家 知道 ， 程 序 经 编译 〈 或 汇编 ) 连接 以 后 ， 其 可 执行 代码 分 成 text 和 data 两 个 段 。 但 是 ， 其 实 
GNU 的 gcc 和 1d 还 支持 另外 两 个 段 。 一 个 是 fixup， 专 门 用 十 异常 发 生 后 的 修复 ， 实 际 上 跟 text. 段 没 
有 太 大 区 别 。 另 -个 是 _ex_table， 老 门 用 于 异常 地 址 表 。 而 __copy_user_zeroing () 中 的 271 行 和 281 
行 就 是 告诉 gcc 应 该 把 相应 的 代码 分 别 放 在 fixup I| ex table RP, 连接 时 Id 会 按 地 址 排序 将 这 些 表 
项 装 入 异常 地 址 表 中 。 

实际 上 ， 不 光 是 像 copy user zeroing( ) 这 样 的 函数 要 准备 好 “修复 地 址 ”， 任 何在 内 核 中 运行 时 
可 能 发 生 问题 的 都 要 有 所 准备 ， 其 中 还 包括 我 们 在 前 节 中 看 到 过 的 RESTORE ALL. ?4m fib 
者 把 注意 力 集中 在 中 断 的 基本 机 制 上 而 没有 讲述 有 关 的 内 容 ， 我 们 在 下 面 讲 到 从 系统 调用 返回 时 会 加 
以 补充 。 这 里 ， 读 者 还 应 注意 一 下 函数 __generic_copy_from_user( ) 的 返回 值 。 从 代码 中 可 以 看 到 ， 返 
回 的 是 调用 参数 ， 也 就 是 从 用 户 空间 找 页 的 长 度 。 这 是 怎么 回 事 呢 ?” 这 是 因为 __copy_user,zeroing( ) 
不 是 一 个 函数 ， 而 是 一 个 宏 定义 。 在 执行 的 过 程 中 , n 随 着 复制 而 减 小 ,一 直到 0 Aik. MR MRAM 
的 话 ， 则 n 代表 了 剩 下 未 完成 部 分 的 大 小 。 回 头 看 一 下 __copy_user_zeroing( ) 中 的 第 273 行 ， 这 里 的 
60 就 是 参数 size, 因而 也 就 是 n。 同 时 , 它 就 是 寄存 器 %%ecx。 仁 movsl 或 movsb 执行 的 过 程 中 ，%%ecx 
的 值 一 直 减 小 ， 直 到 为 0 时 movsl 或 movsb 就 结束 了 。 当 操作 中 途 失 败 而 到 达 273 ITH, %%ecx 的 值 
一 定 是 非 0。 可 是 ， 下 面 在 276 行 还 要 用 %%ecx， 所 以 先 把 它 保存 在 堆栈 中 ， 而 到 278 行 再 来 恢复 。 
所 以 ,最 后 在 __generic_copy_from_user 中 返回 的 n 表 示 还 有 几 个 字 节 尚未 完成 。 而 在 sys_sethostname( ) 
中 ， 则 根据 这 个 返回 值 来 判断 copy_from_user( ) 是 否 成 功 。 当 返回 值 为 0 时 ， 就 把 errno 也 设 成 0。 这 
样 最 后 sys. sethostname( ) 返 回 0 表示 成 功 ， 而 苦 在 copy_from_user( ) 过 程 中 失败 则 返回 一 EFAULT。 

由 于 sys, sethostname( ) 本 身 很 简单 ， 现 在 回 到 本 节 开 头 的 system_call( )。CPU 从 具体 系统 调用 的 
服务 程序 返回 时 ， 由 服务 程序 准备 好 的 返回 值 让 寄存 器 Weax 中 ， 所 以 在 第 204 行将 它 写 入 到 堆栈 中 与 
qeax 对 应 的 地 方 , 这 样 在 RESTORE, ALL 以 后 , 这 个 返 同 值 仍 通过 %eax 传 回 用 户 空 间 。 这 以 后 , CPU 
就 到 达 了 ret from sys call. 


[system call -> ret from sys call] 


205 ENTRY (ret from sys call) 
206 #ifdef CONFIG SMP 


207 moy] processor (%ebx) , %eax 

208 shli $CONFIG X86_L1 CACHE SHIFT, %eax 

209 movl SYMBOL NAME(irq stat) (, %eax), %ecx # softirq active 
210 testl SYMBOL NAME(irq stat)+4(, %cax),%ecx # softirq mask 
211 Helse 

212 movl SYMBOL NAME (irq stat), %ecx # softirq active 

213 test] SYMBOL NAME (irq stat) +4, %ecx # softirg mask 

214 Hendif 

215 jne handle softirq 

216 

217 ret with reschedule: 

218 cmpl $0, need resched (%ebx) 

219 jne reschedule 
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220 cmpl $0, sigpending (%ebx) 
221 jne signal return 

222 restore all: 

223 RESTORE ALL 


DM LT 


282 handle softirq: 
283 call SYMBOL NAME(do softirq) 
284 jmp ret from intr 


读者 已 经 污 过 从 中 断 返 回 时 的 代码 ， 对 上 面 这 些 代码 应 该 不 会 有 问题 了 。 
WEGE. fe RESTORE ALL 中 有 三 条 指令 可 能 会 引起 异常 ， 所 以 需要 为 之 准备 “修复 ”。 
这 三 条 指令 是 : popl %ds, popl wes 以 及 iret。 我 们 先 看 代码 (entry.S)， 再 加 以 讨论 : 


101 #define RESTORE ALL \ 
102 popl %ebx: \ 

103 popl %ecx; 
104 popl %edx; 
105 popl %esi; 
106 popl %edi; 
107 popl %ebp; 
108 popl %eax; 


A oom 


109 1: popl %ds; \ 

110 2: popl %es; \ 

lil addl $4, %esp; \ 

112 3: iret; \ 

113 . section . fixup, "ax"; \ 
114 4:  movl $0, (esp); \ 

115 jmp 1b; \ 

116 5: movl $0, esp): X 

117 jmp 2b; \ 


118 6: pushl %ss; \ 
119 popl ds; \ 
120 pushl 9ss; \ 
121 popl %es: \ 
122 pushl $11; V 
123 call do exit; \ 


124 . previous; \ 

125 . section __ex table, "a^; 
126 .align 4; \ 

127 . long 1b, 4b; N 

128 . long 2b, 5b: \ 

129 . long 3b, 6b; \ 

130 . previous 


这 里 准备 了 一 个 “修复 ”地 址 ， 分 别 在 127—129 行 ， 而 可 能 出 问题 的 指令 则 分 别 在 109 行 、110 
行 和 112 行 。 那 么 ， 为 什么 从 堆栈 中 恢复 %ds 会 有 可 能 发 生 问题 呢 ? 读者 也 许 还 记得 ， HRA A 
段 寄 存 器 时 , CPU 部 要 根据 这 新 的 段 选择 码 以 及 GDTR 或 LDTR 的 内 容 在 相应 的 段 描 述 表 中 找到 所 选 
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拌 的 段 描述 项 ， 并 加 以 检查 。 如 昌 描 述 项 与 选择 码 都 有 效 并 且 相 符 ， 就 将 描述 项 装 入 到 CPU 中 段 寄存 
器 的 “不 可 见 ” 部 分 ， 使 得 以 后 不 必 每 次 都 要 到 内 存 中 去 访问 该 描述 项 。 可 是 ， 如 果 因 为 不 管 什么 原 
ES ifii p (A PER HTC ITE, CPU RAE WR “TRG” (General Protection) 异常 ( 称 
为 GP 异常 )。 当 这 样 的 异常 发 生 十 系统 空间 时 ， 就 点 为 之 准备 好 修复 于 段 。 企 这 里 ， 为 “popl Yds" 
备 的 修复 手段 是 从 标号 为 4 处 ， 即 114 行 的 “move $0,(Wesp)” 指 令 开 始 的 程序 段 ， 实 际 上 只 有 岗 行 。 
这 条 指令 将 %ds 在 堆栈 中 的 副本 先 清 成 0， 然后 在 115 行 转 回 109 行 重新 执行 “popl 9%ds”"。 为 什么 这 
样 就 能 “修复 ” 呢 ?” 其 实 开 不 是 真 的 修复 ,而 只 是 避免 进一步 的 GP 异常 。 以 0 作为 段 选 择 但 称 为 “ 空 
YER). 将 空 选 择 码 装 入 一 个 段 害 在 占 〈 除 CS 和 SS 以 外 ) 本 身 不 会 引起 GP RA, mss e 
通过 这 个 室 选择 码 访问 内 存 时 才 会 引起 异常 ， 但 那 是 国 到 用 户 空间 以 后 的 事 了 。 在 用 疡 空间 发 生 异 常 ， 
最 多 也 不 过 是 把 这 进程 “ 杀 ” 了 了 ， 放 不 会 在 系统 - :级 上 产生 问题 。 所 以 ， 这 里 的 修复 手段 实际 上 是 把 
问题 往 下 推 、 往 后 推 而 已 。110 行 的 “popl %es” 与 此 相同 。 

最 后 ， 为 什么 “iret” 也 可 能 发 生 问 题 ， 又 怎样 “修复 ”了 呢 ? 当 i386CPU M 302075 TH) H g [Fl SA 
户 空间 时 ， 费 从 系统 堆栈 中 恢复 用 户 堆栈 的 指针 ， 包 括 堆栈 段 寄存 器 的 内 容 ， 并 从 系统 堆栈 中 恢复 在 
用 户 空间 的 返回 地 址 ， 包 括 代 码 段 寄存 器 的 内 容 。 与 数据 段 寄存 器 %ds 类 似 ， 这 山 个 步 又 都 有 叫 能 发 
生 问 题 而 产生 GP 异常 ， 使 CPU RRA RETE. WA, BEERE? Xt CS 和 SS 不 能 通过 使 用 
PRAGA “HWE” EB, OY CS 和 SS 根本 不 接受 空 选择 码 ( 会 产生 GP 异常 )。 所 以 ， 问 题 比 
“popl %ds” 所 可 能 发 生 的 问题 更 为 产 重 。 而 解决 的 办 法 ， 则 只好 通过 do_exit( )〈 详 见 “进程 与 进 称 
调度 ”一 章 )， 将 当前 进程 “于 卒 保 车 ” 杀 掉 算 了 OA118—123 行 )。 把 当前 进程 杀 了 以 后 ， 内 核 会 调 
度 另 一 个 进程 成 为 当前 进程 。 所 以 ， 当 再 要 从 系统 空间 返回 到 用 户 空间 时 ， 是 返 冉 到 为 “个 进程 的 用 
户 空间 中 去 ， 那 时 候 些 从 系统 堆栈 中 恢复 的 寄存 器 副本 也 是 另 一 个 进程 的 副本 了 。 

系统 调用 sethostname( ) 的 实现 虽然 很 简单 ， 但 是 从 内 核 中 的 入 口 system call. 到 进入 
sys. sethostname( ) 前 的 这 一 段 代码 ， 以 及 从 sys_sethostname( ) 返 门 后 直到 完成 RESTORE_ALL 中 的 iret 
令 这 一 段 代 码 ， 则 是 所 有 系统 调 川 所 共用 的 。 不 管 什 么 系统 调 川 ， 其 进入 内 核 以 及 退出 内 核 的 过 程 
部 是 相同 的 。 以 后 ， 当 我 们 谈 到 系统 调用 时 ， 就 直接 从 内 核 中 的 实现 ， 如 sys_sethostname( ) 那 样 开始 。 

最 后 ， 偿 要 指出 一 个 读者 已 经 看 到 但 是 未 必 清 楚 地 意识 到 的 事实 ， 必 就 是 从 内 核 中 可 以 直接 访问 
当前 进程 的 用 户 室 问 ， 所 使 用 的 虚拟 地 址 也 与 当 进 程 处 于 用 户 空 间 时 的 地 址 完全 相同 。 汉 然 ， 反 过 来 
就 不 可 以 了 。 


3.9 系统 调用 号 与 跳 转 表 


文件 include/asm/unistd.h 为 每 个 系统 调用 定义 了 “个 惟 -- 的 编号 ， 称 为 系统 调用 号 。 部 分 纲 号 如 
ÞAR: 


8 #define __NR exit 
9 Hdefine | NR fork 
10 Hdefine | NR read 
1i #define NR write 
12 #define NR_open 
13 Hdefine NR close 
14 #dcfine __NR waitpid 
15 #define NR creat 





Nnu noe wh o — 
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16 Sdefine | NR link 9 
17 define — NR unlink 10 


18 Hdcfine _ NR execvo ll 








19 Hdefine | NR chdir 12 
20 Hdefine NR time 13 
2] #define NR mknod 14 


系统 调用 的 跳 转 表 是 SRA PA, DEEN EL AES FI TOF bct CR E AT pe HIS 
fr. BA A: arch/i386/kernel/entry.s 中 定义 的 。 数 组 的 大 小 由 常数 NR_syscalls 决定 ， 该 常数 在 
include/linux/sys.h 中 定义 为 256。 日 前 Linux JGE X T 221 个 系统 调用 ， 其 余 的 30 du ER PIE 
深 加 。 数 组 中 对 凡是 没有 定义 的 下 标 〔 系统 调用 号 ) 都 放 上 一 个 也 数 指针 ， 指 身 sys_ni_syscal( )， 其 
{ChE kernel/sys.c 中 : 


169 asmlinkage long sys ni syscall (void) 


170 í 
171 return -ENOSYS; 
172 } 


P 面 即 为 entry.S 中 数组 sys. call table 的 汇编 代码 。 第 656 行 处 的 rept NR, syscalls-221 系 gce 预 处 
至 命令 。 文 件 经 预 处 理 后 就 会 将 后 面 的 657 行 重复 (NR syscalls-221) 次 ， 也 即 35 次 。 


425 ENTRY (sys call table) 

















426 .long SYMBOL NAME(sys ni syscall)  /* 0 - old ^setup( )" system call&/ 
421 . long SYMBOL NAME(sys exit) 

428 .long SYMBOL NAME(sys fork) 

429 .long SYMBOL NAME(sys read) 

430 .long SYMBOL NAME(sys writc) 

431 .long SYMBOL NAME(sys open) f* 5 x/ 
432 .long SYMBOL NAME(sys close) 

433 . long SYMBOL NAME(sys waitpid) 

434 .long SYMBOL NAME(sys creat) 

435 .long SYMBOL NAME(sys link) 

436 . long SYMBOL NAME (sys_ unlink) /* 10 */ 
437 . long SYMBOL NAME (sys_execve) 

438 . long SYMBOL NAME (sys_chdir) 

439 . long SYMBOL NAME(sys time) 

440 . long SYMBOL, NAME (sys mknod) 

441 .long SYMBOL NAME(sys chmod) /* 15 x/ 
442 .long SYMBOL NAME(sys lchownl6) 

443 .long SYMBOL NAME(sys ni syscall) /* old break syscall holder */ 
444 .long SYMBOL NAME(sys stat) 

445 .long SYMBOL NAME(sys lscek) 

446 .long SYMBOL NAME(sys gotpid) /* 20 */ 
447 . long SYMBOL NAME(sys mount) 

448 .long SYMBOL NAME(sys oldumount) 

449 .long SYMBOL NAME (sys setuidl6) 
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450 .long SYMBOL NAME(sys getuidl6) 

45] .long SYMBOL NAME(sys stime) /* 25 */ 

452 .long SYMBOL NAME(sys ptrace) 

453 .long SYMBOL NAME (sys, alarm) 

454 .long SYMBOL NAME (sys. fstat) 

455 .long SYMBOL NAME (sys, pause) 

456 . Long SYMBOL NAME (sys, utime) /* 30 */ 

457 .long SYMBOL NAME(sys ni syscall)  /* old stty syscall holder */ 
458 .long SYMBOL NAME(sys ni syscall)  /* old gtty syscall holder */ 
459 .long SYMBOL NAME (sys access) 

460 .long SYMBOL NAME(sys nice) 

461 .long SYMBOL NAME(sys ni syscall) /x 35 *//* old ftime syscall holder */ 
462 .long SYMBOL NAME(sys sync) 

463 .long SYMBOL NAME(sys kill) 

464 .long SYMBOL NAME(sys rename) 

465 .long SYMBOL NAME(sys mkdir) 

466 .long SYMBOL NAME(sys rmdir) /* 40 */ 

461 .long SYMBOL NAME(sys dup) 

468 .long SYMBOL NAME(sys pipe) 

469 .long SYMBOL NAME(sys times) 

470 .long SYMBOL NAME(sys ni syscall)  /* old prof syscall holder */ 
411 .long SYMBOL NAME(sys brk) f* 45 */ 

472 .long SYMBOL NAME(sys setgidl6) 

473 .long SYMBOL NAME(sys getgidl6) 

414 .long SYMBOL NAME(sys signal) 

415 .long SYMBOL NAME(sys geteuidl6) 

416 .long SYMBOL NAME (sys_getegid16) /* 50 */ 

477 . long SYMBOL_NAME (sys_acct) 

478 . long SYMBOL NAME(sys umount) /* recycled never used phys( ) */ 
479 .long SYMBOL NAME(sys ni syscall)  /* old lock syscail holder */ 
480 .long SYMBOL NAME(sys ioctl) 

481 .long SYMBOL NAME(sys fcntl) /* 55 */ 

482 .long SYMBOL NAME(sys ni syscall)  /* old mpx syscall holder */ 
483 .long SYMBOL NAME(sys setpgid) 

484 .long SYMBOL NAME(sys ni syscall)  /* old ulimit syscall holder */ 
485 .long SYMBOL NAME(sys olduname) 

486 .long SYMBOL NAME(sys umask) /* 60 x/ 

487 .long SYMBOL NAME (sys. chroot) 

488 . long SYMBOL NAME(sys ustat) 

489 . long SYMBOL NAME(sys dup2) 

490 .long SYMBOL NAME(sys getppid) 

49] .long SYMBOL NAME(sys getpgrp) /* 65 */ 

492 .long SYMBOL NAME (sys_setsid) 

493 .long SYMBOL NAME (sys_sigaction) 

494 .long SYMBOL NAME (sys_sgetmask) 

495 . long SYMBOL NAME(sys ssetmask) 

496 .long SYMBOL NAME(sys setreuidl6) ^ /* 70 */ 

497 .long SYMBOL NAME(sys setregidl6) 
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498 
499 
500 
501 
502 
503 
504 
505 
506 
507 
508 
509 
510 
511 
512 
513 
514 
515 
516 
517 
518 
519 
520 
521 
522 
523 
524 
525 
526 
527 
528 
529 
530 
531 
532 
533 
534 
535 
536 
537 
538 
539 
540 
541 
542 
543 
544 
545 


. Long SYMBOL_N 
. long SYMBOL_N 
. long SYMBOL NAME (sys wait4) 

. long SYMBOL NAME(sys swapof Tf) f* 
.long SYMBOL NAME(sys sysinfo) 

.long SYMBOL NAME(sys ipc) 

.long SYMBOL NAME(sys (sync) 

.long SYMBOL NAME(sys sigreturn) 


第 3 章 ”中断 、 异 常 和 系统 调用 


. long SYMBOL NAME(sys sigsuspend) 
.long SYMBOL NAME(sys sigpending) 
.long SYMBOL NAME(sys sethostname) 
. long SYMBOL NAME(sys setirlimit) /* 
.long SYMBOL NAME(sys old getrlimit) 
.long SYMBOL NAME(sys getrusage) 
. long SYMBOL NAME(sys gettimeofday) 
. long SYMBOL NAME (sys. settimeofday) 
.long SYMBOL NAME (sys getgroupsl6) /* 
.long SYMBOL NAME(sys setgroupsl6) 
.long SYMBOL NAME (old select) 
.long SYMBOL NAME(sys symlink) 
.long SYMBOL NAME (sys. lstat) 
. long SYMBOL NAME(sys readlink) /* 
. long SYMBOL NAME(sys uselib) 
. long SYMBOL NAME (sys. swapon) 
. long SYMBOL NAME(sys reboot) 
.long SYMBOL NAME(old readdir) 
.long SYMBOL NAME (old mmap) /* 
.long SYMBOL NAME(sys munmap) 
. long SYMBOL NAME(sys truncate) 
.long SYMBOL NAME(sys ftruncate) 
.long SYMBOL NAME(sys fchmod) 
.long SYMBOL NAME(sys fchownl6) /* 
. long SYMBOL NAME(sys getpriority) 
. long SYMBOL NAME(sys setpriority) 
.long SYMBOL NAME(sys ni syscall)  /* 
.long SYMBOL NAME(sys statfs) 
.long SYMBOL NAME(sys fstatfs) /* 
. long SYMBOL NAME(sys ioperm) 
. long SYMBOL. NAME (sys. socketcall) 
.long SYMBOL NAME(sys syslog) 
. long SYMBOL NAME(sys setitimer) 
.long SYMBOL NAME(sys getiitimor) /* 
. Long SYMBOL_NA 
. long SYMBOL NAME(sys newlstat) 
. long SYMBOL NA 
. long SYMBOL NA 
. long SYMBOL NA 
.long SYMBOL NAME(sys vhangup) 
A 
A 





ME (sys_newstat) 


ME (sys_newf stat) 
ME (sys_uname) 
ME(sys_iopl) /* 


ME(sys ni syscall) /* 
ME (sys vm8601d) 











75 */ 


80 */ 


85 */ 


90 */ 


95 x/ 


old profil syscall holder */ 


100 */ 


105 */ 


110 */ 


old “idle” system call */ 


115 */ 


» 259 . 


546 
547 


549 


560 
561 
562 
563 
564 
565 
566 
567 
568 
569 
570 
571 
572 
973 
574 
515 
516 
577 
578 
919 
980 
581 
582 
583 
584 
585 
586 
587 
588 
589 
590 
591 
592 
593 


. 260 . 


. long 
. long 
. long 
. long 
. long 
.long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 





. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
.long 
. long 
. long 
. long 
. long 
. long 
. long 





. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 
.long 
. long 
. long 
. long 
. long 
. long 
. long 
. long 


Linux 内 核 源 代码 情 恕 分析 CEJ 
/* 120 */ 


SYMBOL NAME (sys clone) 

SYMBOL NAME(sys setdomainname) 
SYMBOL NAME (sys, nowuname) 
SYMBOL NAME(sys modify ldt) 
SYMBOL NAME (sys adjtimex) 
SYMBOL. NAME (sys mprotect) 
SYMBOL, NAME(sys sigprocmask) 
SYMBOL NAME (sys create module) 
SYMBOL, NAME (sys init module) 
SYMBOL NAME(sys delete module) 


/* 


SYMBOL NAME(sys get kernel syms) 





SYMBOL NAME(sys getpgid) 
SYMBOL NAME(sys fchdir) 
SYMBOL NAME(sys bdflush) 
SYMBOL. NAME (sys sysfs) 
SYMROL NAME(sys personality) 
SYMBOL NAME(sys ni. syscall) 
SYMBOL. NAME (sys setfsuidl6) 
SYMBOL NAME(sys setfsgidl6) 
SYMBOL NAME (sys, ll1seek) 
SYMBOL. NAME (sys. getdents) 
SYMBOL NAME (sys select) 
SYMBOL NAME(sys flock) 
SYMBOL. NAME (sys. msync) 
SYMBOL. NAME (sys. readv) 
SYMBOL NAME (sys. writev) 

A 





A 
A 
A 
SYMBOL NAME (sys quotact1) 
A 
A 
A 





A 
A 








A 

SYMBOL NAME(sys getsid) 
SYMBOL NAME(sys fdatasync) 
SYMBOL. NAME (sys. sysct1) 
SYMBOL NAME(sys mlock) 
SYMBOL NAME(sys munlock) 
SYMBOL NAME(sys mlockall) 
SYMBOL. NAME (sys munlockall) 











/* 


/* 


/* 


/® 


/* 


SYMBOL NAME(sys sched getparam) 
SYMBOL, NAME (sys, sched. set scheduler) 
SYMBOL NAME(sys sched getscheduler) 








SYMBOL NAME(sys sched yield) 


A 

A 
SYMBOL NAME (sys sched setparam) 

A 

A 


125 


/水 


135 


for 


140 


145 


150 


/* 


*/ 


130 */ 


*/ 


afs_syscall */ 


*/ 


*/ 


*/ 


155 */ 


SYMBOL NAME (sys sched get priority max) 
SYMBOL NAME (sys sched get priority min) /* 160 */ 
SYMBOL NAME(sys sched rr get interval) 


SYMBOL NAME (sys. nanos] eep) 
SYMBOL NAME (sys mremap) 
SYMBOL NAME (sys, set resuidl6) 
SYMBOL NAME (sys. getresuidl6) 
SYMBOL NAME (sys_vm86) 

SYMBOL NAME(sys query modulo) 





/* 165 */ 
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594 .long SYMBOL NAME(sys poll) 
595 .long SYMBOL NAME(sys nfsservctl) 
596 .long SYMBOL NAME(sys setresgidl6) /* 170 */ 
597 .long SYMBOL NAME (sys getresgidl6) 
598 . long SYMBOL. NAME(sys prctl) 
599 .long SYMBOL NAME(sys rt sigroturn) 
| 600 .long SYMBOL NAME(sys rt sigaction) 
601 . long SYMBOL NAME(sys rt sigprocmask)  /* 175 */ 
602 .long SYMBOL NAME(sys rt sigpending) 
E 603 .long SYMBOL NAME(sys rt sigtimedwait) 
604 .long SYMBOL NAME(sys rt sigqueueinfo) 
a 605 . long SYMBOL NAME(sys rt sigsuspend) 
| 606 .long SYMBOL NAME(sys pread) /* 180 */ 
: 607 .long SYMBOL NAME(sys pwrite) 
| 608 .long SYMBOL NAME(sys chownl6) 
i 609 .long SYMBOL NAME(sys getcwd) 
610 .long SYMBOL NAME (sys_capget) 
611 . long SYMBOL NAMF (sys_capset) /* 185 x/ 
612 . long SYMBOL NAME (sys, sigaltstack) 
613 . long SYMBOL NAME (sys, sendfile) 
614 . long SYMBOL, NAME(sys ni syscall) /* streams! */ 
615 .long SYMBOL NAME(sys ni syscall) /* streams2 */ 
616 .long SYMBOL NAME(sys vfork) /* 190 x/ 
617 . long SYMBOL NAME(sys getrlimit) 
618 .long SYMBOL NAME(sys mmap2) 
619 . long SYMBOL. NAME (sys Lruncate64) 
620 .long SYMBOL NAME(sys ftruncate64) 
621 . long SYMBOL NAME (sys. stat64) /* 195 */ 
622 . long SYMBOL NAME(sys lstat64) 
3 623 .long SYMBOL NAME (sys fstat64) 
: 624 . long SYMBOL NAME (sys lchown) 
i 625 . long SYMBOL NAME (sys getuid) 
626 . long SYMBOL NAME (sys_getgid) /* 200 */ 
627 . Jong SYMBOL NAME (sys_gotcuid) 
628 . Long SYMBOL NAME(sys getoegid) 
629 . long SYMBOL. NAME(sys setreuid) 
630 .long SYMBOL NAME(sys setregid) 
631 .long SYMBOL NAME(sys getgroups) /* 205 */ 
632 .long SYMBOL. NAME (sys setgroups) 
633 .long SYMBOL NAME (sys. fchown) 
634 .long SYMBOL NAME(sys setresuid) 
635 . long SYMBOL NAME(sys gelresuid) 
636 .long SYMBOL NAME (sys_sctresgid) /* 210 */ 
637 . long SYMBOL NAME(sys getresgid) 
638 .long SYMBOL NAME(sys chown) 
639 .long SYMBOL NAME(sys setuid) 
640 .long SYMBOL NAME (sys setgid) 
64 .long SYMBOL NAME(sys setfsuid) /* 215 */ 
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642 .long SYMBOL NAME(sys setfsgid) 

643 .long SYMBOL NAME(sys pivot root) 

644 .long SYMBOL NAME(sys mincore) 

645 .long SYMBOL NAME(sys madvise) 

646 .long SYMBOL NAME(sys getdents64) /* 220 */ 

647 .long SYMBOL NAME(sys fcnt164) 

648 .long SYMBOL NAME(sys ni syscall)  /* reserved for TUX */ 
649 

650 /* 

651 * NOTE!! This doesn't have to be exact - we just have 
652 * to make sure we have enough of the “sys ni syscall” 
653 * entries. Don't panic if you notice that this hasn't 
654 * been shrunk every time we add a new system call. 

655 */ 

656 .rept NR syscalls-221 

657 .long SYMBOL NAME(sys ni syscall) 

658 . endr 
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41 进程 四 要 素 


要 给 “进程 ”下 一 个 确切 的 定义 不 足 件 容易 的 事 。 不 过 ，“- 般 米 说 Linux 系统 中 的 进程 都 具备 下 
列 诸 要 素 : 
(0) 有 一 段 程序 供 其 执行 ， 就 好 像 场 戏 要 有 个 剧本 一 样 。 这 段 程序 不 ` 定 是 进程 所 专 有 ， 可 以 
与 其 他 进程 共用 ， 就 好 像 不 同 剧 团 的 许多 场 演出 可 以 共用 …- 个 剧本 - - 样 。 

Q) 有 起 码 的 “私有 财产 ” 这 就 是 进程 专用 的 系统 堆栈 空间 。 

3) 有 “户口 ”， 这 就 是 在 内 核 中 的 -个 task struct 数据 结构 ， 操作 系统 教科 书 中 常 称 为 “进程 控 
制 块 ”"”。 有 了 这 个 数据 结构 ， 进程 才能 成 为 内 核 调度 的 一 个 基本 单位 接受 内 核 的 调度 。 同 时 ， 
这 个 结构 又 是 进程 的 “财产 登记 卡 ” 记录 着 进程 所 占用 的 各 项 资源 。 

(4) 有 独立 的 存储 空间 ， 意 味 着 拥有 专 有 的 用 户 空间 ， 进 一 步 ， 还 意味 着 除 前 述 的 系统 空间 堆栈 
外 还 有 上 其 专用 的 用 户 空间 堆栈 。 注 意 ， 系 统 容 间 是 不 能 独立 的 ， 任何 进程 都 不 可 能 直接 不 
通过 系统 调用 ) 改 变 系 统 空 间 的 内 容 ( 除 其 全身 的 系统 空间 堆栈 以 外 )。 

XX UU AR B SE AE QE, 缺 了 其 中 任何 一 条 就 不 成 其 为 “进程 ”。 如 果 只 其 备 了 前 面 三 条 而 缺 第 山 条 ， 
那 就 称 为 “线程 ”。 特别 地 ， 如 果 完 全 没有 用 户 空间 ， 就 称 为 “内 核 线程 ”(kernel thread): Tidit 
用 户 空间 则 就 称 为 “用 户 线程 ”"。 在 不 致 引起 混淆 的 场合 ， 二 者 也 都 往往 简称 为 “线程 "。 读 者 让 第 2 
章 中 看 到 过 的 kswapd， 就 是 一 个 内 核 线程 。 读 者 要 注意 ， 不 要 把 这 里 的 “线程 ”与 有 些 系统 中 在 用 户 
空间 的 同一 进程 内 实现 的 “线程 ” 相 混淆 。 届 种 线程 显然 木 拥有 独立 、 CHRD ASHER, ATER - 
个 调度 单位 直接 受 内 核 调 上 度 。 而 且 ， 既 然 Linux 内 核 提 供 了 对 线程 的 支持 ，“ 般 也 就 没有 必要 再 在 进 
程 内 部 ， 即 用 户 空间 中 自行 实现 线程 。 

男 一 方面 ,进程 与 线程 的 区 分 也 不 是 十 分 严格 的 ， 一 般 在 讲 到 进程 时 常常 也 包括 了 线程 。 事 实 上 ， 
在 Linux CELA Unix) RAE, SUA WE” Z AVR HOE LA j SPARTA, LY 
AUR RARE, [DUET ERE] DU A LURE RETA, 并 与 父 进程 分 道 扬 镰 ， 成 为 真 目 意义 上 的 
进程 。 再 说 ， 线 程 也 有 “pid”， 也 有 task. struct 结构 ， 所 以 这 两 个 词 在 使 用 中 有 时候 并 不 产 格 加 以 区 分 ， 
要 根据 上 下 文理 解 其 含意 。 

还 有 ， 在 Linux 系统 中 “进程 ”(process) 和 “ 作 务 ”(task) 是 同 -个 意思 ， 在 内 核 的 代码 中 也 常 
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常 混用 这 两 个 名 词 和 概念 。 例 如 ， 每 “个 进程 都 睁 有 个 task. struct 数据 结构 ， 而 其 与 码 却 义 是 pid: 
uic El — ^ li RIA RE D BA) wake, up. process( )。 之 所 以 有 这 样 的 情况 是 因为 Linux 源 自 Unix 和 i386 
系统 结构 ， 而 Unix 中 的 进程 在 Intel 的 技术 资料 中 则 称 为 “任务 ”( 严 格 说 来 有 点 |* 别 ， 但 是 对 Linux 
和 Unix 的 实现 来 说 是 一 他 事 )。 

Linux 系统 运行 时 的 第 一 个 进程 是 在 初始 化 阶段 “捏造 ”出 来 的 。 而 此 后 的 进程 或 线程 则 都 是 由 一 
个 业已 存在 的 进程 像 细 胞 分 裂 屠 样 通过 系统 调用 复制 出 来 的 ， 称 为 “fork”( 分 义 ) BÀ "clone" (9E EE). 

除 上 述 最 起 翁 的 “财产 ” BD task. struct 数据 结构 和 系统 堆栈 之 外 , 一 个 进程 还 要 有 些 附加 的 资源 。 
例如 ， 上 而 说 过 ,“ 独 立 ” 的 存储 空间 意味 着 进程 拥有 用户 空 间 , 因此 就 要 有 用 十 虚 存 管理 的 mm struct 
数据 结构 以 及 下 属 的 vm area 数据 结构 ， 以 及 相应 的 页 面 日 录 项 和 页 面 表 。 但 那些 部 是 第 .位 的 ， 从 
属于 task, struct 的 资源 ， 而 task_struct 数据 结构 则 在 这 方面 起 着 登记 卡 的 作用 。 人 至 丁 进 程 的 其 体 实现 ， 
则 在 相当 程度 上 取决 于 宿主 CPU 的 系统 结构 。 

在 转 入 详细 介绍 进程 的 各 个 要 素 之 前 ， 我 们 先 讲 一 卜 i1386 系统 结构 所 提供 的 进程 管理 机 制 以 帮 
Linux 内 核对 这 种 机 制 的 特殊 运 几 和 处 迎 。 读 者 可 以 结合 第 2 章 中 的 有 关内 容 阅 读 。 

Intel 在 i386 系统 结构 的 设计 中 考虑 到 了 进程 〈 任 务 ) 的 管理 和 调度 ， 并 从 便 件 上 支持 任务 问 的 切 
换 。 为 此 日 的 ，Intel 在 i386 系统 结构 中 增设 了 另 一 种 新 的 段 ， 叫 做 “任务 状态 段 ” TSS。 A TSS & 
说 像 代码 段 、 数 据 段 等 HE, i BU, 实际 上 却 只 是 一 个 104 字 节 的 数据 结构 、 或 口 控制 块 ， 
用 以 记录 一 个 任务 的 关键 性 的 状态 信息 ， 包 括 : 

”任务 切换 前 儿 ( 也 就 是 切入 点 上 ) 该 任务 各 通用 寄存 器 的 内 容 。 

e ”任务 切换 前 儿 (切入 点 上 ) 该 任务 各 个 段 寄 存 器 (包括 ES. CS. SS. DS. FS 和 ES) 的 内 

Re 
e ”任务 切换 前 夕 〔〈 切 入 点 上 ) 该 任务 EFLAGS 寄存 器 的 内 容 。 
FES ueni CARL) iE TRS HBL ey ea EIP 的 内 容 。 
e ”指向 前 一 个 任务 的 TSS 结构 的 段 选择 码 。 当 前 任务 执行 IRET 指令 时 ， 就 返 同 到 由 这 个 段 选 
拌 码 所 指 的 《TSS 所 代表 的 ) 任务 〈 返 串 地 址 则 由 堆栈 决定 )。 
e ”该 任务 的 LDT 段 选择 码 ， 忆 指向 任务 的 LDT。 
控制 寄存 器 CR3 AAR, CIBA i Bon. 
e ”三 个 堆栈 指针 , 分 别 为 当 任务 运行 于 0 级 .1 级 和 2 级 时 的 堆栈 指针 , 包括 堆栈 段 寄存 器 SSO 
SS1 利 SS2， 以 及 ESP0、ESP1 和 ESP2 的 内 容 。 注 意 ， 在 CPU 中 只 有 一 个 SS 和 :个 ESP 
ZTA (HAE CPU 在 进入 新 的 运行 级 别 时 会 自动 从 当前 任务 的 TSS 中 装 入 相应 SS 和 ESP 
的 内 容 ， 实 现 堆 栈 的 切换 。 
e ”一 个 用 十 程序 跟踪 的 标志 位 T, 当 工 标 志 位 为 1 时 ,CPU 就 会 在 切入 该 进程 时 产生 次 debug 
S, Gp n] DO debug 异常 的 服务 程序 中 安排 所 需 的 操作 ， 如 加 以 记录 、 显 不、 等 等 。 
e 在 一 个 TSS Bet, BRT RAI 104 字 节 的 TSS 结构 以 外 ， 还 可 以 有 -… 些 附加 的 信息 。 其 中 
之 一 是 表示 VO 权限 的 位 峰 。i386 系统 结构 允许 VO 指令 在 比 0 级 为 低 的 状态 下 执行 ， 也 就 
是 说 可 以 将 外 设 驱 动 实现 于 -个 虐 卜 内 核 CO 级 ) 也 非 用 户 (3 级 ) 的 空间 中 ， 这 个 位 图 融 
是 用 证 这 个 口 的 。 另 个 此 “中 断 重 定向 位 图 ”， 用 于 vm86 模式 。 

像 其 他 的 “ 段 ” FE, TSS 也 草 在 段 措 述 表 中 有 个 表 项 。 不 过 TSS 的 描述 项 只 能 在 GDT "Is dii 
能 放 在 任何 一 个 LDT 中 或 IPT 中 。 如 果 通 过 一 个 段 选择 项 访问 A TSS, REPRE AY TL 标志 位 为 
1 (表示 使 用 LDT)， 就 会 产生 一 次 “总 保护 ”GP 异常 。TSS 描述 项 的 结构 与 其 他 的 段 描述 项 基本 相同 
(参看 第 230, HA AB (Busy) 标志 位 ,表示 相应 TSS 所 代 衣 的 任务 是 个 正在 运行 或 者 下 被 中 断 ， 
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为 外 ，CPU 中 还 增设 了 一 个 “任务 寄存 器 ”TR， 指 向 当前 任务 的 TSS。 相 应 地 ， 还 增加 了 一 条 指 
2 LTR, Xt TR 寄存 器 进行 装 入 操作 。 像 CS 和 DS 一 样 ，TR 也 有 一 个 不 可 见 的 部 分 ， 每 当 将 -个 段 
选择 码 装 入 到 TR PIT, CPU 就 自动 找到 所 选择 的 TSS 描述 项 并 将 其 装 入 到 TR 中 的 不 可 见 部 分 ， 以 
加 速 以 后 对 该 TSS 段 的 访问 。 

还 有 , 在 IDT KE, REPETI EE AnA S LELT 种 “任务 门 ” 任务 门 中 包含 着 一 
个 TSS Fess. 74 CPU MPRE 个 任务 门 时 ， 就 会 将 任务 门 中 的 段 选 拌 代 自 动 装 入 TR， 使 
TR 指向 新 的 TSS， 并 完成 任务 切换 。CPU 还 可 以 通过 IMP 和 CALL 指令 实现 任务 切换 ， 当 跳 转 或 调 
用 的 日 标 段 〈 代 码 段 ) 实际 上 指向 GDT 表 中 的 A TSS 描述 项 时 ， 就 会 引起 -次 任务 切换 。 

Intel 的 这 种 设计 确实 很 周到 ， 也 为 任务 切换 氟 供 了 一 个 非常 简 沾 的 机 制 。 但 是 ， 请 读 震 注意 ， 上 
CPU 自动 完成 的 这 种 任务 切换 并 不 是 像 读者 可 能 谋 以 为 的 那样 只 相当 于 “- -条 指令 ”"。 实 际 I, i386 
的 系统 结构 基本 上 是 CISC 的 ， 而 通过 IMP 指令 或 CALL 指令 《或 中 断 ) 完成 任务 切换 的 过 程 可 以 说 
是 典 净 的 、 世 至 是 极端 的 “复杂 指令 ” 执行 过 程 ， 其 执行 过 程 长 达 300 多 个 CPU 时 刨 周期 ( :条 POP 
指令 点 12 个 CPU 时 钟 周期 )。 在 执行 的 过 程 路 ，CPU 实际 上 做 了 所 有 可 能 需要 做 的 事 ， 而 其 中 有 的 沁 
在 一 定 的 条 件 下 本 米 是 可 以 简化 的 ， 有 的 事 则 可 能 在 : 定 的 条 件 下 应 该 按 不 同 的 方式 组 合 。 所 以 ，i386 
CPU 所 提供 的 这 种 任务 切换 机 制 就 好 像 是 一 种 “高 级 语言 ”的 上 成分。 你 固然 可 以 用 它 ， 但 对 于 操作 系 
统 的 设计 和 实现 而 言 ， 你 往往 会 选择 “汇编 语音 ”来 实现 这 个 机 制 ， 以 达到 更 高 的 效率 和 更 大 的 灵活 
性 . 更 重要 的 是 ,任务 的 切换 往往 不 是 弧 立 的 ， 常 常 跟 其 他 的 操作 有 联系 在 一 起 。 例 如 , 在 Unix All Linux 
系统 中 ， 任 务 切 换 就 只 发 生 于 系统 空间 ， 因 而 与 系统 调用 和 中 断 密切 有 联系 在 “起 ， 并 呈 有 许多 操作 可 
以 合并 。 

就 如 对 i386 所 提供 的 许多 其 他 功能 OP, ARABS, Linux 内 核实 际 上 并 不 使 用 1386 CPU të 
件 提供 的 任务 切换 机 制 。 不 过 ， 由 十 i386 CPU 要 求 软件 设置 TR 及 TSS， 内 核 中 便 只 好 “未 过 场 ” 地 
REH TR 及 TSS 以 满足 CPU 的 时 求 。 但 是 ， 内 核 中 并 不 使 用 任务 门 、 也 不 多 许 使 用 IMP 或 CALL 
指令 实施 任务 切换 。 内 核 只 是 在 初始 化 阶段 设置 TR， 使 之 指向 :个 TSS， 从 此 以 后 就 再 不 改变 TR 的 
AZT. EWEN, SS CPU (如果 有 多 个 CPU 的 话 ) 在 初始 化 以 后 的 全 部 运行 过 程 中 永远 各 白 使 用 
Hl 个 TSS。 同 时 ， 内 核 也 不 依靠 TSS 保存 每 个 进程 切换 时 的 寄存 里 副本 ， 调 是 将 这 些 寄存 器 的 出 本 
保存 在 各 个 进程 白 己 的 系统 空间 堆栈 路 ， 就 如 读者 在 第 3 章 ! 沾 所 看 到 的 那样 。 

XXE OK. TSS 中 的 绝 大 部 分 内 容 已 经 失去 了 原 米 的 意义 。 可 是 ， 在 第 3 音 中 讲 过 ， 当 CPU Bl]! 
靳 或 系统 调 诈 而 从 用 户 空 间 进 入 系统 宁 问 时 ， 会 出 于 运行 级 别 的 变化 而 自动 更 换 叭 栈 。 而 新 的 堆栈 指 
针 ， 包 括 堆栈 段 寡 存 器 SS 的 内 容 和 堆栈 指针 寄存 器 ESP 的 内 容 ， 则 取 门 “当前 ” 作 务 的 TSS。 由 上 下 
f£ Linux 中 只 使 用 两 个 这 行 级 别 ， 即 0 级 和 3 级 ， 所 以 TSS 中 为 另 岗 个 级 别 ( 即 1 级 和 2 级 ) BEI 
堆栈 指针 副本 也 失去 了 意义 。 于 是 ， 对 十 Linux 内 核 来 说 ，TSS 中 有 意义 的 就 只 剩 下 了 0 级 的 堆栈 指 
针 ， 也 就 是 SSO 和 ESPO LAT. Intel 原来 的 意图 是 让 TR 的 内 容 ， 随 着 不 同 的 TSS， 随 着 任务 的 切换 
而 走马 灯 似 地 转 。 吕 是 在 Linux 内 核 中 却 变 成 了 “ 铁 打 的 营 租 流水 的 兵 ”， 就 一 个 TSS， 像 RER, 
一 经 建立 就 占 也 不 动 了 。 遇 里面 的 内 容 ， 也 就 是 当前 任务 的 系统 堆栈 指针 ， 则 随 着 进程 的 调度 切换 而 
流水 似 地 变动 。 这 里 的 原因 在 十 : dels TSS 中 SSO fI ESPO 所 化 的 开销 比 通过 装 入 TR 以 出 换 -个 TSS 
要 小 得 多 。 因 此 ， 企 Linux 内 核 中 ，TSS 并 不 是 属于 其 个 进程 的 资源 ， 而 是 个 局 性 的 公共 资源 。 在 多 
处 理 融 的 情况 下 ， 尽 管内 核 中 确实 有 多 个 TSS， 但 是 每 个 CPU HRA A TSS, -经 装 入 就 不 再 变 
Is 

那么 ， 这 个 TSS 是 什么 样 的 呢 ? iE include/asm-i386/processor.h 中 对 INIT. TSS 的 定义 ， 

392 #define INIT TSS | \ 
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393 
394 
395 
396 
397 
398 
399 
400 
401 
402 
403 
404 
405 
406 
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0,0, /* back link, blh */ \ 

sizeof (init stack) + (long) &init stack, /* espO */ \ 
__KERNEL_DS, 0, /* ssÜ */ \ 
0,0,0,0,0,0, /* stackl, stack2 */ \ 

0, /* cr3 */ N 

0,0, /* eip, eflags */ 

0,0,0,0, /* eax, ecx, edx, ebx */ \ 
0,0,0,0, /* esp, ebp, esi, edi */ \ 
0,0,0,0,0,0, /* es, cs, ss */ \ 
0,0,0,0,0,0, /* ds, fs, gs */ \ 

. LDT(0),0, /* ldt */ \ 

0, INVALID IO BITMAP OFFSET, /* tace, bitmap */ \ 
{0, } /* ioperm */ X 


) 


这 里 把 系统 中 第 一 个 进程 的 SS0 WEE, KERNEL_DS, ifijf& ESPO 设置 成 指向 &init_stack 的 顶端 。 
对 INIT. TSS 的 引用 则 在 kernel/init_task.c 中 给 出 : 


26 
27 
28 
29 
30 
31 
32 
33 


/水 

per-CPU TSS segments. Threads are completely 'soft' on Linux, 

no more per-task TSS s. The TSS size is kept cachelinc-aligned 
so they are allowed to end up in the .data. cacheline aligned 
section. Since TSS's are completely CPU-local, we want them 

on exact cacheline boundaries, to eliminate cacheline ping-pong. 


* a X X 


*/ 
struct tss_struct init tss[NR CPUS] ^ cacheline aligned = 
{ [0 ... NR CPUS-1] = INIT TSS }: 


结构 数组 init tss 的 大 小 为 NR CPUS. BAZ CPU 的 个 数 。 每 个 TSS 的 内 容 都 相同 ， 部 由 
INIT_TSS 定义 。 此 外 ， 每 个 TSS 的 起 始 地 址 玫 与 两 速 缓存 中 的 缓冲 行 对 齐 。 
数据 结构 tss. struct 是 在 processorh 中 定义 的 ， 它 反映 了 TSS 段 的 结构 : 


327 
328 
329 
330 
331 
332 
333 
334 
335 
336 
337 
338 
339 
340 
341 


struct tss struct | 
unsigned short back link,  blh; 
unsigned long esp0: 
unsigned short ssO,  ssÜh; 
unsigned long espl; 
unsigned short ssl,  ssih; 
unsigned long esp2; 
unsigned short ss2,  ss2h; 
unsigned long __er3; 
unsigned long eip; 
unsigned long eflags; 
unsigned long eax, ecx, edx, ebx; 
unsigned long esp; 
unsigned long ebp; 
unsigned long esi; 
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342 unsigned long edi; 

343 unsigned short es, esh; 

344 unsigned short cs, | csh; 

345 unsigned short ss, ssh; 

346 unsigned short ds, dsh; 

347 unsigned short fs, __fsh; 

348 unsigned short gs, __gsh; 

349 unsigned short ldt, ^ ldth; 

350 unsigned short trace, bitmap; 

351 unsigned long io bitmap[IO BITMAP SIZE+1]; 
352 /* 

353 * pads the TSS to be cacheline-aligned (size is 0x100) 
354 */ 

355 unsigned long cacheline filler[5]; 

356 }; 


前 而 讲 过 ， 每 个 进程 都 有 一 个 task struct XE eA Ro AN A AERA ERR rmm Du). KO 
缺 不 可 , 又 有 紧密 的 联系 , 所 以 在 物理 存储 空间 中 也 连 华 一 起 ,内 核 在 为 每 个 进程 分 配 task. struct 
结构 时 ， 实 际 上 分 配 两 个 连续 的 物理 页 面 ( 共 8192 字 节 )。 这 两 个 页 面 的 底部 用 作 进 程 的 task, struct 
结构 ， 而 在 结构 的 上 而 就 用 作 进程 的 系统 空间 堆栈 ， 见 图 4.1。 


| | 系统 空间 堆栈 。 ”大约 7KB) 
贿 个 连续 的 物 埋 页 而 zx 
(8KB) 


AAA struct task struct 《大 约 IKB) 


图 4. 1 进程 系统 堆栈 示意 图 


数据 结构 task. struct 的 大 小 约 IK 宁 节 ， 所 以 进程 系统 空间 堆栈 的 大 小 约 为 7K 字 节 。 注 意 ， 系 统 
空间 堆栈 的 空间 不 像 用 户 空间 堆栈 那样 可 以 在 运行 时 动态 地 扩展 〈 见 第 2 章 )， 而 是 静态 地 确定 了 的 。 
所 以 ， 在 中 断 服 务 程 序 、 内 核 软 中 断 服务 程序 以 及 其 他 设备 驶 动 程序 的 设计 中 ， 应 注意 不 能 让 这 些 函 
数 幅 食 太 深 ， 同 时 ， 在 这 些 函 数 中 也 不 宜 使 用 大 多 、 太 大 的 局 部 变量 。 像 下面 程序 中 这 样 的 局 部 变量 
就 应 该 避免 : 


int something( ) 


{ 
char buf [1024]; 
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这 里 的 buf 是 局 部 变 旺 ， 因 为 是 仁 堆 栈 中 ， 它 一 下 子 就 耗 去 了 IK 字 节 ， 显 然 是 不 合适 的 。 
进程 task struct 结构 以 及 系统 空间 堆栈 的 这 种 特殊 安排 ,决定 了 内 核 中 一 些 宏 操 作 的 定义 


(processor.h ): 


446 Hdetine THREAD SIZE (2*PAGE SIZE) 
447  &define alloc task struct( ) ((struct task struct *) \ 

get free pages (GTP KERNEL, 1)) 
448  &define free task struct(p) free pages((unsigned long) (p), 1) 


THREAD SIZE X: XJ PAP OUR, Ez RET A RE (一 个 进程 必 定 同时 义 是 一 个 内 核 线程 ) 的 
这 两 项 基本 资源 所 占 的 物理 存储 空间 大 小 。 至 二 alloc_task_struck( ) 的 实现 ， 读 者 也 许 会 想像 成 这 样 : 


struct task struct *t = kmalloc(sizeof(struct task struct)) ; 


实际 上 却 不 是 ， 这 是 因为 所 分 沸 的 并 不 仅仅 是 task, struct 数据 结构 的 大 小 ， 而 是 连同 系统 空间 堆栈 所 
需 的 空间 一 起 分 配 。 注 意 ，__get_free_pages( ) 中 第 二 个 参数 的 值 1 表示 2:， 也 就 是 项 个 负面 。 

当 进 程 企 系 统 空间 运行 时 ， 常 常 需要 访问 当前 进程 白 身 的 task_struct 数据 结构 。 为 此 目的 ， 内 核 
中 (current.h) 定 义 了 一 个 宏 操 作 current， 提 供 指向 当前 进程 task_struct 结构 的 指针 : 


6 static inline struct task struct * get current (void) 

7 { 

8 struct task struct *current ; 

9 . asm  ('andl %%esp, %0; ":"—r" (current) : "0^ (C 8191UL); 
10 return current; 

ll } 

12 

13 #define current get current( ) 


第 9 行 通过 将 当前 的 推 栈 指针 寄存 器 ESP 的 内 容 与 8191UL COxfffffe00) 相 “ 与 ”而 得 到 当前 进 
程 task_struct 结构 的 起 始 地 址 〈 汇 编 代 码 的 解释 可 参 在 第 2 章 和 第 3 章 中 的 儿 个 例子 )。 结 合 前 面 的 图 
4.1 和 说 明 ， 读 者 应 不 难 理解 为 什么 这 样 束 可 以 得 到 所 需 的 地 址 。 

那么 ， 为 什么 不 把 这 地 由 放 在 一 个 全 局 量 中 ， 使 得 每 次 调度 ~ 个 新 的 进 可 运行 时 就 将 该 进程 的 
task struct 结构 的 起 始 地 址 写 入 这 个 变量 ， 以 后 便 随 时 可 用 ， 这 样 不 是 更 有 效 吗 ? 答案 恰恰 相反 。 一 条 
AND 指令 的 执行 只 需 4 个 CPU 时 钟 周期 ， 而 一 条 从 寄存 器 到 寄存 器 的 MOV 指令 也 才 2 个 CPU 时 钟 
启 期 ， 所 以 ， 像 这 样 在 需要 时 才 临 时 把 它 计 算出 米 反 而 效率 更 高 。 读 者 从 这 里 也 可 以 看 出 ， 高 水 平 的 
系统 程序 员 的 “抠门 ” 自 是 到 了 极点 。 

与 此 相 类 似 的 ， 还 有 人 在 进入 中 断 和 系统 调用 时 所 引用 的 安 操 作 GET. CURRENT. Jl A E 
include/asm-i386/hw. irq.h 中 定义 的 : 


113 #define GET CURRENT \ 


114 “movl %esp, %ebx\n\t” \ 
115 “andl $-8192, %ebx\n\t” 
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我 们 华 第 2 章 中 跳 过 了 对 这 段 程序 的 解释 ， 因 为 那 时 还 没有 讲 到 进程 的 系统 空间 堆栈 与 其 
task_struct 结构 之 间 的 关系 。 
task struct 的 定义 在 include/linux/sched.h 中 给 出 : 


277 struct task struct | 


278 /* 

279 * offsets of these are hardcoded elsewhere . touch with care 
280 */ 

281 volatile long state; /* -1 unrunnable, 0 runnable, >0 stopped */ 
282 unsigned long flags; /* per process llags, defined below */ 
283 int sigpending; 

284 mm segment t addr limit; /* thread address space: 

285 0-OxBFFFFFFF for user-thead 

286 O-OxFFFFFFFF for kernel-thread 

287 */ 

288 struct exec domain *exec domain; 

289 volatile long need resched; 

290 unsigned long ptrace; 

29] 

292 int lock depth; /* Lock depth */ 

293 

294 /* 

295 * offset 32 begins here on 32-bit platforms. We keep 

296 * all fields in a single cacheline that are needed for 

297 * the goodness( ) loop in schedule( ). 

298 */ 

299 long counter; 

300 long nice; 

301 unsigned long policy; 

302 struct mm_struct *mm; 

303 int has cpu, processor; 

304 unsigned long cpus allowed; 

305 /* 

306 * (only the 'next' pointer fits into the cacheline, but 
307 * that’s just fine.) 

308 */ 

309 struct list head run list; 

310 unsigned long sleep time; 

311 

312 struct task struct *next task, *prev_task; 

313 struct mm_struct *active mm; 

314 

315 /* task state */ 

316 struct linux binfmt *binfmt; 

317 int exit code, exit signal; 

318 int pdeath signal; /* The signal sent when the parent dies */ 
319 /* 9?? x/ 
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320 unsigned long personality; 
321 int dumpable:1; 
322 int did exec:1; 
323 pid t pid; 
324 pid t pgrp; 
325 pid t tty old pgrp; 
326 pid t session; 
321 pid t tgid; 
328 /* boolean value for session group leader */ 
329 int leader; 
330 /* 
331 * pointers to (original) parent process, youngest child, younger sibling, 
332 * older sibling, respectively. (p—-father can be replaced with 
333 * p-^»p pptr— pid) 
334 */ 
335 struct task struct *p opptr, *p pptr, *p cptr, *p ysptr, *p ospir; 
336 struct list head thread group; 
337 
338 /* PID hash table linkage. */ 
339 struct task struct *pidhash next; 
340 struct task struct **pidhash pprev; 
341 
342 walt queue head t wait chldexit; /* for wait4( ) */ 
343 struct semaphore *vfork sem; /* for vfork( ) */ 
344 unsigned long rt priority; 
345 unsigned long it real value, it prof value, it virt value; 
346 unsigned long it real incr, it prof incr, it virt incr; 
347 struct timer list real timer: 
348 struct tms times; 
349 unsigned long start_time; 
350 long per_cpu_utime{NR_CPUS], per_cpu_stime[NR CPUS]; 
351 /* mm fault and swap info: this can arguably be seen as 
either mm-specific or thread-specific */ 
352 unsigned long min flt, maj flt, nswap, cmin flt, cmaj flt, cnswap; 
353 int swappable:!; 
354 /* process credentials */ 
355 uid t uid, euid, suid, fsuid; 
356 gid t gid, egid, sgid, fsgid; 
357 int ngroups; 
358 gid t — groups[NGROUPS] ; 
359 kernel cap t — cap effective, cap inheritable, cap permitted; 
360 int keep capabilities:l; 
361 struct user struct *user; 
362 /* limits */ 
363 struct rlimit rlim[RLIM NLIMITS]: 
364 unsigned short used math; 
365 char comm[16]; 


366 /* file system info */ 
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367 int link count; 

368 struct tty struct *tty: /* NULL if no tty */ 
369 unsigned int locks; /* How many file locks are being held */ 
370 /* ipc stuff */ 

371 struct sem undo *semundo; 

372 struct sem queue *semsleeping; 

373 /* CPU-specific state of this task */ 

374 struct thread_struct thread; 

375 /* filesystem information */ 

376 struct fs struct *fs; 

377 /* open file information */ 

378 struct files struct *files; 

379 /* signal handlers */ 

380 spinlock t sigmask lock; /* Protects signal and blocked */ 
381 struct signal struct *sig; 

382 

383 sigset t blocked; 

384 struct sigpending pending; 

385 

386 unsigned long sas ss sp; 

387 Size t sas Ss size; 

388 int (knotifier) (void *priv); 

389 void *notifier data; 

390 sigset t *notifier mask; 

391 

392 /* Thread group tracking */ 

393 u32 parent exec id; 

394 u32 self exec id; 

395 /* Protection of (de-)allocation: mm, files, fs, tty */ 
396 spinlock t alloc lock; 

397 O}: 


先 把 结构 中 几 个 特别 重要 的 成 分 介绍 -- 上 下， 其 余 则 留待 以 后 用 到 的 时 候 再 来 介绍 。 这 些 成 分 大 体 
可 以 分 成 状态 、 性 质 、 资 源 和 组 织 等 几 大 类 。 
第 281 行 的 state 表示 进程 当前 的 运行 状态 ， 上 基体 定义 见 sched.h: 


84 Hdefine TASK RUNNING 

85 &define TASK INTERRUPTIBLE 
86 "define TASK UNINTERRUPTIBLE 
87 define TASK ZOMBIE 

88 define TASK STOPPED 


aor M rn C 


状态 TASK_INTERRUPTIBLE 和 TASK UNINTERRUPTIBLE JA ort f b EROR A. f, 
TASK UNINTERRUPTIBLE ARA T “REIR” WAAR “UR” (signal, BEK “BPW” 的 
ITH, if TASK_INTERRUPTIBLE JU ATLA "zi" B SIDE TUE. ARE TT A PRR, ib 
AS ETE A AS IE] RISE BO ERR, GS aE SE AHI, PE sleep_on( ) 利 wake. up()/H T 1X 


- 271. 


Linux 内 核 源 代 码 情景 分 析 〈 .1|. 册 》 


度 睡眠 ， 而 interruptible_sleep_on( ) 利 wake, up. interruptible( ) 则 用 十 浅 度 睡眠 。 深 度 睡 虐 一 般 只 用 于 临 
界 区 和 关键 性 的 部 位 ， 和 而 “可 中 靳 ”的 睡眠 那 就 是 通用 的 了 。 特 别 ， 冶 进程 在 “阻塞 忻 ”(blocking ) 
的 系统 调用 中 等 待 某 一 事件 发 生 时 ， 应 该 进入 “可 中 断 ” 睡 眼 而 不 应 深度 睡眠 。 例 如 ， 汉 进程 等 符 操 
作 人 员 按 某 个 键 的 时 候 ， 号 不 应 该 进入 深度 睡 眼 ， 否 则 就 不 能 对 别 的 事件 作出 反应 ， 别 的 进程 就 不 能 
通过 发 一 个 信号 来 * 杀 ” 掉 这 个 进程 了 。 还 应 该 注意 , 这 里 的 INTERRUPTIBLE 或 UNINTERRUPTIBLE 
跟 “ 中 断 ” 芭 无 关系 ， 而 只 是 说 睡眠 能 否 因 其 他 事件 而 中 断 ， 即 唤醒 。 不 过 ， Brig sdb del p E EE “15 
5^, Wl S CS bs E SPS BAIT, PAEA A INTERRUPTIBLE 也 是 指 这 种 “ 软 中 

TASK RUNNING TRAGER ALA ERE EDU P, RANAR E "I WU JERE US, 
表示 这 个 进程 可 以 被 调度 执行 而 成 为 当前 进程 。 当 进程 处 于 这 样 的 可 执行 (或 就 绕 ) 状态 时 ， ik 
将 该 进程 的 task. struct 结构 通过 其 队列 头 ron_list Cab 309 iT) FEA -个 “运行 队列 ”。 

TASK ZOMBIE 状态 表示 进 称 已 经 “去 性 ”Cexit) 而 “ 户 门 ”尚未 注销 。 

TASK STOPPED 主 归 用 于 调试 目的 。 进程 接收 人 钊 一 个 SIGSTOP 信号 后 就 将 运行 状态 收成 
TASK STOPPED 而 进入 “ 挂 起 ”状态 ， 然 后 在 接收 到 R 7 时 又 恢复 继续 运行 。 

在 本 章 “ 进 程 的 调度 与 切换 ”一 节 中 有 -个 进程 的 状态 转换 术 意 图 “第 357 页 图 4.40, VERE 
先 翻 过 去 看 一 下 。 

第 282 行 中 的 flags 也 是 反映 进程 状态 的 信息 ， 但 并 不 是 这 行 状态 ， 和 而 是 与 管理 有 关 的 其 他 信息 。 
这 些 标志 位 也 是 在 sched.h 中 定义 的 : 





399 /* 

400 * Per process flags 

401 */ 

402 Hdeftine PF ALIGNWARN 0x00000001 /x Print alignment warning msgs */ 
403 /* Not implemented yet, only for 486*/ 

404 &8define PF STARTING 0x00000002 /* being created */ 

405 #define PF EXITING 0x00000004 /* getting shut down */ 

406 define PF. FORKNOEXEC 0x00000040 /* forked but didn't exec ¥/ 

407 8define PF SUPERPRIV 0x00000100 /* used super-user privileges */ 
408 #define PF DUMPCORE 0x00000200 /* dumped core */ 

409 #define PF SIGNALED 0x00000400 /* killed by a signal */ 

410 &8define PF MEMALLOC 0x00000800 /* Allocating memory */ 

411 Hdefine PF_VFORK 0x00001000 /* Wake up parent in mm reiease */ 
412 

413 &define PF USEDFPU 0x00100000 /* task used FPU this quantum (SMP) */ 


代 但 作者 所 加 的 注解 已 经 说 明了 各 个 标志 位 的 作用 ， 这 里 束 不 多 说 了 。 


除 IRI state 和 flags 以 外 ， 反 映 当 前 状态 的 成 分 还 有 下面 这 么 

sigpending 一 一 此 小 进程 收 到 了 “信号 ”人 尚未 处 理 。 与 这 全 标志 相 联 系 哆 是 与 信号 队 列 有 关 
sigqueue. sigqueue tail. sig 等 指针 以 及 sigmask lock, signal, blocked 等 成 分 。 请 详 见 “ 进 
Feeds" meu" —8. PRAT BUR. 

counter 一 一 与 调度 有 关 ， 详 见 “ 进 程 的 调度 与 切换 ”一 站 。 

need_sched 一 一 与 调度 有 关 ， 表 示 CPU 从 系统 空间 返回 用 户 空间 前 夕 要 进行 一 次 调度 。 


.272. 


10 
11 
12 
13 


15 
16 
17 
18 
19 
20 
21 
22 
23 
24 
29 
26 
27 
28 
29 
30 
3l 
32 


第 4 音 ERS BER RE 
上 列 当前 状态 都 反映 了 进程 的 动态 特征 ， 偿 有 一 些 则 反映 静态 特征 : 
add_limit 一 一 虚 人 存 地 址 空间 的 上 限 。 对 进程 而 寺 是 其 用 户 空间 的 上 限 ， 所 以 是 0xbfff ffff， 对 内 核 
线程 而 言 则 是 系统 空间 的 .上限 ， 所 以 是 Oxffff ffff。 
Personality 一 一 由 于 Unix 有 许多 不 同 的 版 本 和 变种 , 应 用 程序 也 就 有 了 适用 范围 , 例如 Unix SVR4 
的 应 用 程序 就 未 必 与 为 Linux 开发 的 其 他 软件 完全 兼容 。 所 以 根据 执行 程序 的 不 同 ， 每 个 进 
程 都 有 其 “个 性 ”。 文 件 include/linux/personality.h Fix ST AKA: 








/* Flags for bug emulation. These occupy the top three bytes. */ 


&define STICKY TIMEOUTS 0x4000000 
#define WHOLE SECONDS 0x2000000 
#define ADDR LIMIT 32BIT 0x0800000 


/* Personality types. These go in the low byte. Avoid using the top bit, 
* it will conflict with error returns 


*/ 

define PER MASK (0xOOff) 

tidefine PER LINUX (0x0000) 

&define PER LINUX 32BIT (0x0000 | ADDR LIMIT 32BIT) 
define PER SVR4 (0x0001 , STICKY TIMEOUTS) 
define PER SVR3 (0x0002 | STICKY TIMEOUTS) 


üdefine PER SCOSYR3 (0x0003 | STICKY TIMEOUTS | WHOLE SECONDS) 
#define PER WYSEV386  (0x0004 | STICKY TIMEOUTS) 


&define PER ISCRA (0x0005 | STICKY TIMEOLTS) 

#define PER BSD (0x0006) 

define PER SUNOS (PER BSD i STICKY TIMEOUTS) 
&define PER XENIX (0x0007 : STICKY TIMEOUTS) 


#define PER LINUX32 (0x0008) 

#define PER IRIX32 (0x0009 | STICKY TIMEQUTS) /* IRIX5 32-bit */ 
üdefine PER IRIXN32 (0x000a | STICKY TIMEOUTS) /* IRIX6 new 32-bit */ 
&define PER IRIX64 (0x000b | STICKY TIMEOUTS) /x IRIX6 64-bit */ 
&define PER RISCOS (0x000c) 

#define PER SOLARIS (0x000d | STICKY TIMEOUTS) 


cxec_domain 一 一 除了 personality 以 外 ， 应 用 程序 还 有 一 些 其 他 的 版 本 间 的 差异 ， 从 而 形成 了 不 辐 
的 “执行 域 ” ”这 个 指针 就 指向 描述 本 进程 所 属 执行 域 的 数据 结构 。 

binfmt 应 用 程序 的 文件 格式 ， 如 aout. elf 等 。 详 见 “ 系 统 调用 exec” -iio 

exit_code、exit_signal、pdeath_signal 一 一 洋 见 “系统 调用 exit( ) 与 wait4( )”。 

pid 一 一 进程 号 。 

pgrp、scession、leader 一 一 当 个 岂 户 登录 到 系统 时 ， 语 寺 始 了 一 个 进程 组 《session)， 此 后 创建 的 
进程 部 属于 这 同一 个 session。 此 外 ， 者 于 进程 可 以 通过 “管道 ” 弓 合 在 … -起 ， 如 “ls1wec -1”， 
从 而 形成 进程 组 。 详 见 “ 系 统 调用 exec” - 节 。 

priority、rtL_priority 一 一 优先 级 划 以 及 “实时 ”优先 级 别 ， 详 抑 “进程 的 调度 与 切换 ” 

policy 一 一 运用 十 本 进程 的 调度 政策 ， 详 见 “ 进 程 的 调度 与 切换 ”。 

parent exec id. self excc id— — SARAH (session) EX, 1 “RAWH exit( ) 与 wait4( )”。 
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主要 与 文件 操作 权限 有 关 ， 见 “文件 系统 ”一 





euid、suid、fsuid、gid、egid、sgid、fsgid 
章 。 


cap_effective. cap_inheritable, cap_permitted———- 一般 进 程 都 不 能 “为 所 和 欲 为 ”而 是 各 自 被 赋予 


了 各 种 不 同 的 权限 。 例 如 ，- 个 进程 是 寿 可 以 通过 系统 调用 ptrace ) 跟 踪 男 一 个 进程 ,就 是 由 
该 进程 是 否 具有 CAP_SYS_PTRACE 授权 决定 的 ; 一 个 进程 是 否 有 权重 新 引导 操作 系统 ， 则 
取决 于 该 进程 是 否 共 有 CAP SYS BOOT 授权 。 这 样 ， 就 把 进程 的 各 种 权 跟 分 细 了 ， 而 不 再 
是 笼统 地 取决 于 个 进程 是 省 是 “特权 用 户 ” 进 程 。 文 件 include/linux/capability.h 中 定义 了 许 
多 这 样 的 权限 ， 代 码 的 作者 还 加 了 相当 详细 的 注解 ( 详 见 “ 文 件 系 统 ” 一 章 )。 每 一 种 权限 部 
由 一 个 标志 位 代表 ， 内 核 路 提供 了 一 个 inline K% capable( )， 用 米 检验 当前 进程 是 否 共 有 其 
种 权限 。 如 capable(CAP_SYS_BOOT)， 束 是 俭 查 当 前 进程 是 否 有 权重 引导 操作 系统 (返回 非 
0 表示 有 权 )。 值 得 注意 的 是 ， 对 操作 权限 的 这 种 划分 与 文件 访问 权限 结合 在 起， 形成 了 系 
统 安全 性 的 基础 。 在 坝 今 的 网 络 时 代 ， 这 种 安全 性 正在 变 得 愈 来 您 重要 ， 而 这 方面 的 研究 与 
发 展 也 是 一 个 重要 的 课题 。 


User 一 一 指向 一 个 user struct 结构 ， 该 数据 结构 代表 着 进程 所 属 的 用 户 。 注 意 这 跟 Unix 内 核 中 每 


个 进程 的 user 结构 是 两 码 事 。Linux 内 核 中 的 user 结构 是 非常 简单 的 , 详 见 “系统 调用 fork)” 
一 ' 节 。 


rlim 一 一 这 是 一 个 结构 数组 ， 表 明 进 程 对 各 种 资源 的 使 用 数量 所 受 的 限制 。 读 者 在 “存储 管理 ”一 


40 St 
41 
42 
43  ]; 


对 i3 


章 中 山 经 看 到 过 其 应 用 。 数 据 结构 rlimit 是 在 include/linux/resource.h 中 定义 的 : 


ruct rlimit { 
unsigned long rlim cur; 
unsigned long rlim max; 


86 环境 而 言 ， 进 程 可 用 资源 共有 RLIM NLIMITS JU, HD 10 项 。 每 种 资源 的 限制 在 文件 


linux/include/asm/resource.h 中 给 出 : 


4  /* 

5 * 

6 * 

7 

8 

9 #d 
10 #d 
11 #d 
12 #d 
13 #d 
14 &d 
15 #d 
16 td 
17 #d 
18 #d 
19 
20 #d 


#define RLIMIT_CPU 


Resource limits 


/ 


/* CPU time in ms */ 

/* Maximum filesize */ 
/* max data size */ 
efine RLIMIT STACK /* max stack size */ 
efine RLIMIT CORE /* max core file size */ 


0 
efine RLIMIT FSIZE 1 
2 
3 
4 
efine RLIMIT RSS 5 /* max resident set size */ 
6 
7 
8 
9 
0 


efine RLIMIT DATA 


efine RLIMIT NPROC /* max number of processes */ 
efine RLIMIT NOFILE 
efine RLIMIT MEMLOCK 
efine RLIMIT AS 

efine RLIMIT LOCKS 1 


/* max number of open files */ 

/* max locked-in-memory address space */ 
/* address space limit */ 

/* maximum file locks held */ 


efine RLIM NLIMITS — 11 
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还 有 …- 些 成 分 代表 进程 所 占有 和 使 用 的 资源 ， 如 mm. active mm. fs, files. tty, real, timer, times. 
it real value 等 ， 对 这 些 成 分 都 有 专门 的 章节 加 以 介绍 ， 这 里 就 不 重复 了 。 

全 于 统计 信息 ， 则 主要 有 per_cpu_utimef 1 和 per. cpu. stime[ ] 两 个 数组 ， 表 示 该 进程 在 各 个 处 理 器 
上 在 多 处 理 路 SMP 结构 中 ， 个 进程 可 以 受 调 上 度 在 不 同 的 处 理 器 上 运行 ) 运行 十 用户 空 间 和 系统 空 
间 的 累计 时 间 。 而 数据 结构 times 中 则 是 对 这 些 时 间 的 汇总 。 些 外， 还 有 对 发 主页 而 异常 次 数 的 统计 
min flt, maj flt 以 及 换 入 / 换 出 的 次 数 nswap 等 。 当 个 进程 通过 do_exit( ) 结 束 其 生命 时 ， 该 进程 的 
FRA BAHAR |, TWO RESET fae ART EY “RT” 信心 ， 如 相对 于 min. flt 
有 cmin_flt， 在 数据 结构 times 路 相对 于 tms_utime 有 tms_cutime 等 。 

最 后 ， 每 一 个 进程 都 不 是 孤立 地 存在 十 系统 中 ， 出 总 是 根据 不 同 的 日 的 、 关 系 和 沉 要 与 其 他 的 进 
程 相 联 系 。 从 内 核 的 角度 看 ， 则 是 要 按 不 同 的 有 的 和 性 质 将 每 个 进程 纳入 不 同 的 组 织 中 。 第 个 组 织 
是 由 每 个 进程 的 “家 庭 与 社会 关系 ”形成 的 “宗族 ”或 家谱”。 EO AR, 通过 指针 p_opptr、 
p_pptr、p_cptr、p_ysptr 和 p_osptr 构成 。 其 中 p opptr 和 p. pptr 指向 父 进程 的 task. struct 结构 ，p_cptr 
指 问 最 “年 轻 ” 的 子 进程 ， 而 p_ysptr 和 p osptr 则 分 别 指向 其 “哥哥 ”和 “弟弟 ”， 从 而 形成 -个 了 进 
程 链 。 这 些 指针 确定 了 一 个 进程 在 其 “宗族 ”中 的 上 上、 下、 左 、 右 关系 ， 详 见 本 章 中 对 fork( YI exit ) 
的 叙述 。 

图 4.2 就 是 这 个 进程 “家 谱 ” 的 示意 图 。 







p pptr 
p eptr 


p_osptr 


最 年 轻 的 子 进 程 最 老 的 子 进程 





p.ysptr p_ysptr 


图 4.2 进程 家 谱 示 意图 


这 个 组 织 虽 然 伺 定 了 每 个 进程 的 “宗族 ”关系 ， 涵 盖 了 系统 中 所 有 的 进程 ， 但 是 ， 此 在 这 个 组 纵 
中 根据 进程 号 pid 找到 :个 进程 却 非 妨 事 。 进 程 号 的 分 配 是 机 当 随 机 的 ， 在 进行 号 路 并 本 包含 什 何 可 
以 用 来 找到 一 个 进程 的 路 径 信息 ， 而 给 定 -个 进程 号 要 求 找 到 该 进程 的 task struct 结构 却 勾 是 常常 些 
用 旬 的 一 种 操作 。 于 是 ， 就 有 了 第 .个 组 织 ， 那 就 是 一 个 以 杂凑 表 为 基础 的 进程 队列 的 阵列 。 当 给 定 
一 个 pid 要 找到 该 进程 时 ， 先 对 pid 施行 杂凑 计算 ， 以 计算 的 结果 为 下 标 在 杂凑 表 中 找到 一 个 队 询 ， 再 
顺 者 庶 队 列 就 可 以 较 容 易 地 找到 特定 的 进程 了 。 打 凑 赤 pidhash 是 在 kernel/fork.c 中 定义 的 : 
35 struct task struct #pidhash[PLIDHASH SZ]; 

Ae XM K^ PIDHASH. SZ WU include/linux/sched.h 中 定义 ， 


485 #define PIDHASH SZ (4096 >> 2) 
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杂凑 表 的 大 小 为 1024。 由 于 每 个 指针 的 大 小 是 4 个 字 节 ， 所 以 整个 杂凑 表 《〈 丰 包括 各 个 队列 ) 正 
好 占 一 个 页 面 。 每 个 进程 的 task struct 数据 结构 都 通过 其 pidhash_next 和 pidhash_pprev 两 个 指针 链 入 
到 杂 凌 表 中 的 某 个 队列 中 ， 同 :队列 中 所 有 进程 的 pid 者 具有 相同 的 杂 凌 值 。 由 十 杂 读 表 的 使 用 ， 要 
找到 pid 为 某 个 给 定 值 的 进程 就 很 迅速 了 。 

当 内 核 需要 对 每 -个 进程 做 点 什么 事情 时 , 还 需要 将 系统 中 所 有 的 进程 都 组 织 成 一 个 线性 的 队列 ， 
这 样 就 可 以 通过 个 简单 的 for 循环 或 while 循 坏 遍历 所 有 进程 的 task. struct 结构 。 所 以 ， 第 二 个 组 织 
就 是 这 么 -个 线性 队列 。 系统 中 第 一 个 建立 的 进程 为 init_task， 这 个 进程 就 是 所 有 进程 的 总 根 ， 所 以 这 
个 线性 队列 就 是 以 init task. 为 起 点 《也 可 把 它 看 成 是 一 个 队 涉 )， 后 继 答 创建 .… 个 进程 就 道 过 其 
task. struct 结构 中 的 next. task 和 prev. task 两 个 指针 链 入 这 个 线性 队列 中 。 

每 个 进程 都 必然 同时 身 处 这 三 个 队列 之 中 ， 直 到 进程 消亡 时 才 从 这 三 个 队列 中 摘除 ， 所 以 这 二 个 
队列 者 是 静态 的 。 

在 运行 的 过 程 中 ， 一 个 进程 还 可 以 动态 地 链接 进 “ 可 执行 队列 ”接受 系统 的 调度 。 实 际 上 ， 这 是 
最 重要 的 队列 ， 一 个 进程 只 有 人 在 可 执行 队列 中 才 有 可 能 受到 调度 而 投入 运行 。 与 前 儿 个 队列 不 同 的 是 ， 
一 个 进程 的 task, struct 是 通过 其 list head 数据 结构 run lists 而 不 是 个 别 的 指针 , 链接 进 可 执行 队列 的 。 
以 前 说 过 ， 这 是 用 于 双向 链接 的 通用 数据 结构 ， 有 具有 一 些 与 之 配套 的 函数 或 宏 操 作 ， 处 理 的 效率 比较 
高 ， 也 使 代码 得 以 简化 。 可 执行 队列 的 变化 是 非常 频繁 的 ， 一 个 进程 进入 睡眠 时 就 从 队列 中 脱 链 ， 被 
唤醒 时 则 又 链 入 到 该 队列 中 , 在 调度 的 过 程 中 也 有 可 能 会 改变 一 个 进程 在 此 队列 中 位 置 ,。 VE UA TE 3E 
程 凋 度 与 进程 切换 ”以 及 “系统 调用 nanosleep( )" THA KB. 
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束 像 此 上 万 物 都 有 产生 、 发 展 与 消亡 的 过 程 - 一 样 ， 每 个 进程 也 有 被 创建 、 执 行 某 段 程序 以 及 最 乒 
消亡 的 过 程 。 在 Linux 系统 中 ， 第 :个 进程 是 系统 固有 的 、 与 生 俱 来 的 或 者 说 是 由 内 核 的 设计 者 安排 
好 了 的 。 内 核 在 引导 并 完成 了 基本 的 初始 化 以 后 ， 就 有 了 系统 的 第 一 进程 《实际 上 是 内 核 线程 )。 除 此 
之 外 ， 所 有 其 他 的 进程 和 内 核 线 程 部 由 这 个 原始 进 称 或 其 子孙 进程 所 创建 ， 玫 是 这 个 原始 进程 的 “后 
R” E Linx 系统 中 ， 个 新 的 进程 ` 定 此 由 一 个 已 经 存在 的 进程 “复制 ”出 米 ， 而 不 是 “创造 ” 出 
K 《而 所 谓 “创建” 实际 就 是 复制 )。 所 以 ，Linux Rt (Unix 也 一样 ) 并 不 向 用 卢 《 即 进程 ) 提供 类 
似 这 样 的 系统 调 有 诈 : 





int creat proc(int (*fn)(void*), void *arg, unsigned long options); 


可 是 在 很 多 操作 系统 (包括 一 些 Unix 的 变种 ) 中 部 采用 了 “ CU dE. v "OD d 个 
进程 ， 并 使 该 进程 从 函数 指针 fn 所 指 的 地 方 开始 执行 。 根 据 不 同 的 情况 和 设计 ， 参 数 fin Urn] CLR 
个 可 执行 程序 的 文件 名 。 这 时 所谓“ 创造 ”包括 为 进程 分 配 所 需 的 资源 、 包 括 属 十 最 低 限 度 的 task. struct 
数据 结构 和 系统 空间 堆栈 ， 并 初始 化 这 些 资 源 ， 还 更 设 置 其 系统 空间 堆栈 ， 使 得 这 个 新 进程 看 起 米 就 
好 像 是 一 个 本 来 驶 已 经 存在 而 正在 睡眠 的 进程 。 演 这 个 进程 被 调度 运行 的 时 候 ， 其 DRE qst 
a “恢复 ”过 行 时 的 下 一 条 指令 ， 则 就 在 fn 所 指 的 地 方 。 这 个 “ 子 进程 ” 生 下 米 时 两 于 空空 ， 却 可 以 

完全 独立 ， 并 不 与 其 父 进程 共享 资源 。 

但 是 ，Linux CELA Unix) 采用 的 方法 却 不 同 。 
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Linux 将 进程 的 创建 与 日 慰 程 序 的 执行 分 成 两 步 。 第 一 步 是 从 已 经 存在 的 “ 父 进 程 ” 趾 像 细 胞 分 裂 
一 样 地 复制 出 一 个 “了 进程 ?>。 这 里 所 谓 像 “ 细 胞 分 裂 FE”, 只 是 打 个 比方 ， 实 际 上 ， 复 制 出 来 的 子 
进程 有 自己 的 task struct. 结构 和 系统 空间 堆栈 ， 但 与 父 进程 共享 其 他 所 有 的 资源 。 例 如 ， 要 是 父 进 种 
打 并 了 五 个 文件 ， 滥 么 子 进 程 也 有 五 个 打开 的 文件 ， 而 且 这 些 文件 的 当前 读 写 指针 也 停 在 相同 的 地 方 。 
所 以 ， 这 一 步 所 做 的 是 “复制 ” Linux 为 此 提供 了 两 个 系统 调用 ， 个 是 fork()， 另 一 个 是 clone( )。 
两 者 的 区 划 在 才 fork ) 是 全 部 复制 ， 父 进程 所 有 的 资源 全 部 通过 数据 结构 的 复制 “遗传 ”给 子 进 程 。 
Ifi clone( ) 则 可 以 将 资源 有 选 搓 地 复制 给 进程， 而 没有 复制 的 数据 结构 则 通过 指针 的 复制 让 子 进程 具 
"Rs 在 极端 的 情况 下 ,一 个 进程 可 以 clone ) 出 一 个 线程 。 MA, 系统 调 川 fork ) 是 无 参数 的 , 而 clone( ) 
则 带 有 参数 。 读 者 也 许 已 经 意识 人 到，fork( ) 其 实 比 clone( ) 风 接近 本 来 意义 上 的 “克隆 ”。 确 实 是 这 样 ， 
WD Ze T fork( AA Unix 的 初期 即 已 存在 ， 刷 时 候 “ 交 隆 ” 这 个 词 还 不 像 现在 这 么 流行 ， 而 既然 业 山 存 
在 ， 就 不 宜 更 改 了 。 否 则 ， 也 许诺 该 占 换 一 下 名 字 。 后 来 ， 义 增设 了 一 -个 系统 调用 vfork( )， 也 不 带 参 
数 ， 伍 是 除 task struct 结构 和 系统 空间 堆栈 以 外 的 资源 全 部 通过 数据 结构 指针 的 复制 “遗传 ”， 所 以 
vfork( ) 出 来 的 是 线程 而 不 是 进程 。 读 者 将 会 看 到 ，vfork( ) 主 要 是 出 十 效率 的 考虑 而 设计 并 提供 的 。 

第 . 步 是 日 标 程 序 的 执行 。 一 般 米 说 ， 创 建 个 新 的 进程 是 因为 有 不 同 的 目标 程序 要 让 新 的 程序 
去 执行 《但 也 不 : 定 )， 所 以 ， 复 制 完 成 以 后 ， 子 进程 通常 要 与 父 进程 分 道 扬 镰 ， 走 自己 的 路 。Linux 
为 此 提供 了 “个 系统 调用 execve( )， 让 一 个 进程 执行 以 文件 彤 式 存 在 的 一 个 可 执行 程序 的 映 象 。 

VE SE In]: 这 两 种 方案 到 底 哪 -一 种 好 ?应 该 说 是 各 有 刊 丈 。 但 是 更 应 该 党，Linux 从 Unix 继 
承 下 来 的 这 种 分 同步 走 ， 并 且 在 第 步 中 采取 复制 方式 的 方案 ， 利 远大 于 次 。 从 效率 的 角度 看 ， 分 防 
AERA READ. DES FAERIE SR SEU. MD task struct 数据 结构 、 系 统 空间 堆栈 、 丰 
面 表 等 等 ， 对 父 进 称 的 代 舍 用 全 局 作 量 则 并 不 瑚 要 复制 ， 而 只 是 通过 只 读 访 问 的 形式 实现 共享， 仅 在 
而 要 写 的 时 候 才 通过 copy_on_write 的 手段 为 所 涉及 的 抽出 建立 “个 新 的 副 木 。 所 以 ， 总 的 米 说 复制 的 
代价 是 很 低 的 ， 但 是 通过 复制 而 继承 下 来 的 资源 则 往往 对 -了 进程 很 有 几 。 读 者 以 后 会 看 到 ， 在 计算 机 
网 络 的 实现 中 ， 以 及 起 client/server 系统 中 的 server 一 方 的 实现 中 ，fork( ) 或 clone( ) 常 常 是 最 白 然 、 最 
有 效 、 最 适宜 的 手段 。 笔 者 有 时 候 简 直 怀疑 ， 到 底 是 先 有 fork ) 还 是 先 有 client/servyver， 因 为 fork( ) 似 
乎 号 是 专门 为 此 向 设 计 和 的 。 更 重 妆 的 好 处 是 ， 这 样 有 利于 父 、 了 进程 间 遂 过 pipe 米 建 立 起 一 种 简单 有 
效 的 进程 间 通 信 管道 ， 并 且 从 而 产生 了 操作 系统 的 用 户 价 向 即 shell 的 “管道 ”机 制 。 这 一 点 ， 对 十 
Unix 的 发 展 和 推广 应 用 ， 对 二 Unix 程序 设计 环境 的 形成 ， 对 于 Unix 程序 没 计 风格 的 形成 ， 部 有 着 非 
常 深 远 的 影响 。 可 以 说 ， 这 是 项 人 才 的 发 明 ， 它 在 很 大 程度 上 改变 了 操作 系统 的 发 展 方 目 。 

当然 ， 从 男 一 角度 , 也 距 是 从 程序 设计 界面 的 角度 来 看 , 则 “… 揽 了 ”的 方案 更 为 简洁 。 不 过 fork) 
加 execve( ) 的 方案 也 并 不 复杂 很 多 。 进 一 步 说 ， 这 也 像 练武 或 演戏 一 样 有 个 固定 的 “招式 ”” DE 
了 以 后 就 不 觉得 复杂 ， 也 很 少 变化 了 。 和 再 说 ， 如 果 有 必 此 也 可 以 通过 程序 库 丘 供 RU ET" WE 
凋 数 ， 将 这 两 步 包装 在 一 起 。 

创建 了 子 进程 以 后 ， 父 进程 有 二 个 选择 。 第 -是 继续 走 身 己 的 路 ， 与 了 进程 分 道 扬 镰 。 只 是 如 果 
进程 先 于 父 进程 “ 雯 此 ”， 则 由 内 核 给 父 进程 发 -个 报表 的 信号 。 第 二 是 停 下 来 ， 也 就 是 进入 有 睡 眼 状 
态 ， 等 待 了 进程 完成 其 使 命 而 最 终 云 此， 然后 父 进 程 主 继续 运行 。Linux WILE SP RSA, 
wait4( ) 和 wait3( )。 两 个 系统 调用 基本 相同 ，wait4( ) 等 待 某 个 特定 的 子 进程 去 己 ， 而 wait3( ) 则 等 待 任 
何 一 个 了 进程 去 世 。 第 三 个 选择 是 “自行 退出 历史 舞台 ”， 结 束 白 己 的 生命 。Linux 为 此 设置 了 -个 系 
SOUS HI exit( )。 这 里 的 第 二 个 选择 其 实 不 过 是 第 个 选择 的 一 种 特例 ， 所 以 从 本 质 上 说 是 央 种 选 拌 ; 
种 是 父 进 穆 不 受阻 的 Cnon, blocking) 方式 ， 也 称 为 “异步 ”的 方式 : 0j A EHS Clocking) 
方式 ， 或 者 也 称 为 “同步 ”的 方式 。 
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下 面 是 -个 用 来 演示 进程 的 这 种 “生命 周期 ”的 简单 程序 : 

| #include <stdio. h> 

2 

3 int main( ) 

4 d 

5. int child; 

6 char *args[ ] = (,/bin/echo^, “Hello”, "World!^, NULL]; 
7 

8. if ( (child = fork( ))) 

9. { 

10. /* child */ 

11. printf (“pid %d: %d is my father\n”, getpid( ), getppid( )); 
12. execve("/bin/echo”, args, NULL); 

13. printf ("pid *d: 1 am back, something is wrong! Wn", getpid( )); 
14. } 

15. else 

16. { 

17. int myself = getpid( ); 

18. printf ("pid Xd: %d is my son\n”, myself, child); 
19. wait4 (child, NULL, 0, NULL); 

20. printf ("pid %d: donc\n”, myself); 

2]. } 

22: return 0; 

23. ] 


这 里 ， 进 入 main ) 的 进程 为 父 进程 ， 它 全 第 8 行 执行 了 系统 调用 fork( ) 创 建 一 个 子 进程 ， 也 就 是 
复制 一 个 了 进程 。 了 进程 复制 出 来 以 后 ， 就 像 其 父 进程 一 样 地 接受 内 核 的 调度 ， 而 卫 具 有 相同 的 返回 
地 址 。 所 以 ， 当 父 进 程 和 于 进程 受 调 虐 继续 运行 而 从 内 核 空间 返回 时 都 返回 到 同 -点 上 。 以 前 的 代码 
上 只 有 一 个 进程 执行 ， 而 从 这 点 开始 却 有 两 个 进程 在 执行 了 。 复 制 出 来 的 了 进程 全 而 地 继承 了 父 进 程 
的 所 有 资源 和 特性, 但 还 是 有 一 些 细微 却 重 归 的 区 判 。 首 先 ， 子 进程 有 个 不 同 于 父 进程 的 进程 号 pid, 
ii AP RERERY task_struct 中 有 几 个 字段 说 明 谁 是 它 的 父亲 ， 就 像 人 们 的 户口 或 档案 中 也 有 相应 的 栏 日 
一 样 。 其 次 ， 也 许 更 为 重要 的 是 ， 二 者 从 fork ) 返 回 时 所 具有 的 返回 值 不 -- 样 。 当 了 进程 从 fork “B 
Fl” 时 ， 其 返 同 值 为 0; 出 父 进 程 从 fork( ) 返 回 时 的 返回 但 夯 是 子 进程 的 pid， 这 是 不 可 能 为 0 的。 这 
样 ， 第 8 行 的 证 语句 就 可 以 根据 这 个 特征 把 二 者 区 分 开 来 ， 使 两 个 进程 各 自 知 道 “ 我 是 谁 ?。 然 后 ， 第 
10 一 12 行 属 于 子 进程 ， 而 16 一 19 行 属 十 父 进程 ， 虽 然 两 个 进程 具有 相同 的 视野 ， 部 能 “看 到 ”对 方 所 
要 执行 的 代码 ， 但 是 f 语句 将 它们 各 日 的 执行 路 线 分 上 并 了 。 在 这 个 程序 中 ， 我 们 选择 了 让 父 进 程 停 下 
来 等 待 ， 所 以 父 进程 执行 wait4( ); 而 子 进程 则 通过 execve( ) 执 行 “/bin/echo”。 子 进程 在 执行 echo 以 
Jeudi AA 13 行 ， 而 是 “壮士 一 去 不 复 返 ”。 这 是 因为 在 /bin/echo 中 必定 有 一 个 exit( ) 调 用 ， 
使 了 进程 结束 它 的 生命 。 对 exi ) 的 调用 是 每 一 个 可 执行 程序 映 象 愉 有 的 , 虽然 在 我 们 这 个 程序 中 并 没 
有 调 几 它 ， 而 是 以 return 语句 从 main( ) 返 回 ， 但 是 gcc 任 编 译 和 连接 时 会 白 动 加 上 ， 所 以 谁 也 逃 不 过 

由 于 了 进程 与 父 进程 样 接受 内 核 调度 ， 而 每 次 系统 调 川 部 有 可 能 引起 调度 ， 所 以 二 者 返回 的 先 
后 次 序 是 不 定 的 ， 也 不 能 根据 返回 的 先后 来 硝 定 谁 是 父 进程 准 是 了 进程 。 
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还 要 指出 ，Linux 内 核 中 俏 实 有 个 貌似 “一 揽 子 ”创建 内 核 线程 的 函数 (常常 称 为 “ 原 语 ”) 
kernel thread( )， 供 内 核 线程 调 有 用。 但是， 实际 上 这 只 是 对 clone( ) 的 包装 ， 它 并 不 能 像 调用 execve( ) 
时 那样 执行 一 个 可 执行 映 象 多 件 ， 而 只 是 执行 内 核 中 的 某 一 个 函数 。 我 们 不 妨 看 一 下 它 的 代 个 ， 这 十 
在 arch/i386/kernel/process.c 中 给 出 的 : 


439 int kernel thread(int (*fn)(void *), void * arg, unsigned long flags) 
440 { 


44} long retval, dO; 

442 

443 asm volatile ( 

444 "movl %%esp, %%esi\n\t” 

445 “int $0x80\n\t” /* Linux/i386 system call */ 
446 "cmpl %%esp, %%esi\n\t” /* child or parent? */ 
447 "je If\n\t”’ /* parent - jump */ 

448 /* Load the argument into cax, and push it. That way, it does 
449 * noL matter whether the called function is compiled with 
450 * -mregparm or noi.  */ 

451 "movl %4, %%eax\n\t” 

452 “pushl %%eax\n\t” 

453 "call #%5\n\t” /* call fn */ 

454 “mov1 %3, %0\n\t” /* exit */ 

459 "int $0x80\n” 

456 IAN 

457 :=&a” (retval), "-&S^ (d0) 

458 :0” ( NR clone), "i^ (__NR exit), 

459 ^r (arg), “r” (fn), 

460 "b^ (flags | CLONE. VM) 

461 : "memory^); 

462 return retval; 

463 } 


这 里 445 和 455 行 的 指令 “int $0x80” MARA. MARSA S LAM Ri BANE? 请 看 
第 457 行 的 输出 部 ， 这 里 寄存 器 EAX 与 变量 retval 相 结合 作为 %0 ， 而 在 458 行 开 始 的 输入 部 里 又 规 
定 ， %0 应 事先 赋值 为 __NR_clone。 所 以 ， 在 进入 454 行 时 寄存 器 EAX 已 经 被 设置 成 “NR_clone， 
即 clone( ) 的 系统 调用 与 。 从 clone( ) 返 回 以 后 ， 这 里 采用 了 一 种 不 同 的 方法 |x 分 父 进程 与 子 进程 ， 就 是 
将 返回 时 的 堆栈 指针 与 保存 在 寄存 器 ESI 中 的 父 进程 的 堆栈 指针 进行 比较 。 由 二 每 “个 内 核 线程 都 有 
自 忆 的 系统 空间 堆栈 ， 了 进程 的 堆栈 指针 必然 与 父 进程 不 同 。 那 么 ， 为 什么 不 采用 像 fork VERTE 
出 的 方法 呢 ? 这 是 因为 clone( ) 所 产生 的 子 线程 可 以 具有 与 父 线程 相同 的 pid, 如 果 pid 为 0 的 内 核 线程 
再 clone( ) 一 个 子 线程 ， 则 了 线程 的 pid 就 也 有 可 能 是 0。 所 以 ， 这 里 采用 的 比较 堆栈 指针 的 方法 ， 是 
更 为 可 靠 的 。 冶 然 ， 这 个 方法 只 有 对 内 核 线 程 才 适 用 ， 央 为 普通 的 进程 都 在 用 户 空 间 ， 根 本 就 不 知道 
其 系统 空间 堆栈 到 底 在 哪里 。 

前 面 讲 过 ， 内 核 线程 不 能 像 进 程 ” 样 执行 一 个 可 执行 映 象 文件 ， 出 只 能 执行 内 核 中 的 -一 个 明 数 。 
453 行 的 call 指令 就 是 对 这 个 函数 的 调用 。 遇 数 指针 9%5 Ab f| AWE? M 457 行 的 输出 部 开始 数 .一 下 ， 就 
可 以 知道 %5 与 变量 fn 相 结 合 ,而 那 下 是 kernel thread( ) 的 第 个 参数 。 内 核 线程 与 进程 在 执行 日 标 程 
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序 的 方式 上 的 这 种 不 同 ， 又 引发 出 另 一 个 重要 的 不 同 ， 那 就 是 进程 在 调用 execve( ) 之 后 不 再 返回 ， 侧 
E “BRAS”, 在 所 执行 的 程序 中 去 世 。 吕 是 内 核 线 程 愉 不 过 是 调用 一 个 日 标 函 数 ， 当 然 要 从 那个 消 
数 返 回 。 所 以 ， 这 里 在 455 行 又 进行 一 次 系统 调用 ， 而 这 次 的 系统 凋 用 号 在 多 3 中 ， 那 是 NR. exit. 

以 后 ,我们 将 围绕 着 朋 面 的 那个 程序 来 介绍 系统 凋 用 fork( )、clone( ). execve( )、wait4( ) 以 及 exit( ) 
的 实现 ， 使 读 考 对 进程 的 创建 、 执 行 以 及 消亡 有 更 深入 的 理解 。 


43 系统 调用 fork( )、vfork( ) 与 clone( ) 


Hj IRI CL ZO 8 2238 P 48 13. fork( ) 与 clone() -者 的 作用 和 区 别 。 这 里 先 来 看 一 下 二 者 在 程序 设计 接口 
上- 的 不 同 : 


pid t fork(void); 
int clone(int(kfn) (void * arg), void * child stack, int flags, void * arg) 


系统 调用 __clone( ) 的 主要 用 途 是 创建 一 个 线程 ， 这 个 线程 可 以 是 内 核 线程 ， 也 可 以 是 用 户 线程 。 
创建 用 户 空 间 线 程 时 ， 本 以 给 定子 线程 用 户 空 间 堆 栈 的 位 置 ， 偿 可 以 指定 子 进程 运行 的 起 点 。 同 时 ， 
也 可 以 用 __clone( ) 创 建 进程 ， 有 选择 地 复制 父 进程 的 资源 。 而 fork( )， 则 是 全 面 地 复制 。 偿 有 一 个 系 
统 调用 vfork()， 其 作用 也 是 创建 一 个 线程 ， 但 主要 只 是 作为 创建 进程 的 中 闻 步 又， 日 的 在 寺 提 高 创建 
时 的 效率 ， 减 少 系统 开销 ， 其 程序 设计 接口 则 与 fork 相同 。 

这 几 个 系统 调用 的 代码 都 企 arch/i386/kernel/process.c F: 


690 asmlinkage int sys fork(struct pt regs regs) 


691 { 

692 return do_fork{STGCILD, regs. esp, &regs, 0); 
693} 

694 

695 asmlinkage int sys_clone(struct pt_regs regs) 

6906 { 

697 unsigned long clone flags: 

698 unsigned long newsp; 

699 

700 clone_flags = regs. ebx; 

701 newsp = regs. ocx; 

702 if (!newsp) 

703 newsp = regs. esp; 

704 return do fork(clone flags, newsp, &regs, 0); 
705} 

706 

707 /* 

708 * This is trivial, and on the face of it looks like it 
709 * could equally well be done in user mode. 

710 * 

Til * Not so, for quite unobvious reasons - register pressure 
112 * [n user mode vfork( ) cannot have a stack frame, and if 
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713 
714 
715 
716 
717 
718 
719 
720 


于 这 
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* done by calling the "clone( )" system call directly, you 
* do not have enough call-clobbered registers to hold all 
* the information you need. 
*/ 
asmlinkage int sys vfork(siruct pt regs regs) 


{ 
return do fork(CLONE VFORK | CLONE VM | SIGCHLD, regs.esp, &regs, 0); 


} 


n. =P RSA SC AB ALIA do_fork( ) 来 完成 的 ， 不 同 的 只 是 对 do. fork ) 的 调用 参数 。 关 
些 参数 所 起 的 作用 ， 读 了 do_fork( ) 的 代码 以 后 就 会 清楚 。 注 意 sys_clone( ) 中 的 regs.ecx， 就 是 调 


用 __clone( ) 时 的 参数 child_stack， 读 者 如 果 还 不 清楚 ， 可 以 回 到 第 3 前 “系统 调用 ” - 节 顺 着 代码 六 


角 。 调 用 __clone( ) 时 可 以 为 子 进 程 设置 个 独立 的 用 广 空间 堆栈 (在 同一 个 用 户 空间 中 )， 如 果 


child stack 为 0， 就 表示 使 用 父 进程 的 用 广 空间 堆栈 。 这 三 个 系统 调用 的 十 体 部 分 do_fork( ) 是 在 
kernel/fork.c 中 定义 的 。 这 个 函数 比较 大 ， 让 我 们 逐 段 往 下 看 : 


[sys_fork( ) > do. fork( )] 


546 
547 
548 
549 
550 
551 
552 
553 
554 
999 
956 
557 
558 
559 
560 
561 
562 
563 
564 
565 
566 
567 
568 
569 
570 
571 
572 
578 
574 


* Ok, this is the main fork-routine. Tt copies the system process 

* information (task[nr]) and sets up the necessary registers. lt also 
* copies the data segment in its entirety. The "stack start and 

* "stack top^ arguments are simply passed along to the platform 

* specific copy thread( ) routine. Most platforms ignore stack top. 
* For an example that's using stack top, see 
* arch/ia64/kernel/process. c. 


int do fork(unsigned long clone flags, unsigned long stack start, 
struct pt regs *regs, unsigned long stack size) 


{ 
int retval = -ENOMEM; 
struct task struct *p; 
DECLARE MUTEX LOCKED (sem) ; 


if (clone flags & CLONE blD) { 
/* This is only allowed from the boot up thread */ 
if (current-^pid) 
return —-EPERM: 


current-?vfork sem = &sem; 
p = alloc task struct( ); 
if (1p) 

goto fork out; 


*p = *current; 
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第 560 行 的 宏 操 作 DECLARE. MUTEX. LOCKED( ) 定 义 和 创 建 了 一 个 用 十 进程 间 互 斥 和 同步 的 信 
号 量 ， 其 定义 和 实现 见 第 6 章 “ 进 程 间 通 信 ”。 

参数 clone flags 由 两 部 分 组 成 ， 其 最 低 的 字 他 为 信号 类 型 ， 用 以 规定 子 进 程 去 必 时 应 该 向 父 进程 
发 出 的 信号 。 我 们 已 经 看 到 ， 对 于 fork( ) 和 vfork( ) 这 个 信号 就 是 SIGCHLD, Ih Xf__clone( ) 则 该 位 段 
可 由 调用 者 决定 。 第 二 部 分 是 一 些 表示 资源 和 特性 的 标志 位 ， 这 些 标志 位 是 在 include/linux/sched.h 中 
定义 的 : 


30 /* 

31 * cloning flags: 

32 */ 

33 #define CSIGNAL 0x000000ff /* signal mask to be sent at exit */ 

34 &deline CLONE VM 0x00000100 /* set if VM shared between processes */ 

35 #define CLONE FS 0x00000200 /* set if fs info shared between processes */ 


36 #define CLONE FILES 0x00000400 /* set if open files shared betweenprocesses */ 
37 Hdefine CLONE SIGHAND 0x00000800 /* set if signal handlers and 
blocked signals shared */ 

38 #define CLONE PID 0x00001000 /* set if pid shared */ 

39 #define CLONE PTRACE 0x00002000 /* set if we want to let tracing 
continue on the child too */ 

40 #define CLONE VFORK 0x00004000 /* set if the parent wants the child to 
wake it up on mm releasc */ 

Al Hdefine CLONE PARENT 0x00008000 /* set if we want to have the same parent 
as the cloner */ 

42 define CLONE THREAD 0x00010000 /* Same thread group? */ 

43 

44 #define CLONE SIGNAL (CLONE SIGHAND | CLONE THREAD) 


对 于 fork( )， 这 一 部 分 为 全 0， 表 纲 对 有 关 的 资源 都 要 复制 而 不 是 通过 指针 共享 。 出 对 vfork()， 
则 为 CLONE_VFORK ICLONE_VM， 表 示 父 、 子 进程 共用 《用 户 ) 虚 存 区 间 ， 并 旦 当 子 进程 释放 其 虚 
存 区 问 时 要 唤醒 父 cs E M iis 
志 位 CLONE PID ERRE, “SiR PE 08. S. TEE CERRO 共用 同一 个 进程 号 ， 也 
就 中 说 ， 子 进程 虽然 有 其 日 己 的 task. struct 数据 结构 ， 却 使 用 父 进程 的 Pid。 介 是， e Sut, " 
就 是 系统 中 的 点 始 进程 《实际 上 是 线程 )， 才 允许 这 样 来 调用 __clone( )， 所 以 564 行 对 此 加 以 检查 。 

接着 ， 通 过 alloc task struct( ) 为 子 进程 分 配 两 个 连续 的 物理 页 而 ， 低 端 用 作 子 进程 的 task_stmct 
结构 ， 高 端 则 用 作 基 系统 空间 堆栈 。 

注意 574 行 的 赋值 为 整个 数据 结构 的 赋值 。 这 样 ， 父 进程 的 整个 task struct 就 被 复制 到 了 了 进程 
的 数据 结构 中 。 经 编 详 以 后 ， 这 样 的 赋值 是 用 memepy( ) 实 现 的 ， 所 以 效 举 很 高 。 

接着 看 下 CER Cfork.c): 


[sys_fork( ) > do_fork( )] 
576 retval = -EAGAIN; 


577 if (atomic_read(&p—>user->processes) >- p->rlim{RLIMIT NPROC]. rlim cur) 
578 goto bad fork free: 
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579 
580 
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254 
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atomic_inc(&p->user-> count); 
atomic inc(&p-^user-?processes); 


/* 
* Counter increases are protected by 
* the kernel lock so nr threads can't 
* increase under us (but it may decrease). 
*/ 
if (nr threads >= max threads) 
goto bad fork cleanup count; 


get exec domain(p-^exec domain); 


if (p->binfmt && p—>binfmt—>module) 
MOD TNC USE COUNT (p->binfmt—>module) ; 





p->did_ exec = 0; 
p-^swappable = 0; 
p->state = TASK UNINTERRUPTIBLE; 


copy flags(clone flags, p); 
p->pid = get pid(clone flags); 


在 task. struct 结构 中 有 个 指针 user， 用 来 指向 一 个 user_struct 结构 。 “个 用 户 常常 有 许多 个 进程 ， 
所 以 有 关 用 户 的 一 些 信息 并 不 专属 于 某 一 个 进程 。 这 样 ， 属 于 同 -用户 的 进程 就 可 以 通过 指针 user 共 
享 这些 信 息 。 显 然 ， 每 个 用 户 有 且 上 只 有 一 个 user_struct 结构 。 结 构 中 有 个 计数 count， 对 属于 该 用 户 
的 进程 数量 计数 。 可 想 而 知 ， 内 核 线程 并 不 属 十 某 个 用 户 ， 所 以 其 task. struct 中 的 user 指针 为 0。 这 个 
数据 结构 的 定义 在 include/linux/sched.h F: 


/* 


* Some day this will be a full-fledged user tracking system.. 


*/ 


struct user struct | 


ts 


atomic t __count;  /* reference count */ 
atomic t processes; /* How many processes does this user have? */ 
atomic t files; /* How many open files does this user have? */ 


/* llash table maintenance information */ 
struct user struct *next, **pprev; 
uid t uid; 


熟悉 Unix 内 核 的 读者 要 注意 ， 不 要 把 Unix 的 进程 控制 结构 中 的 user 区 与 这 里 的 user. struct 结构 
相 混 淆 ， 二 者 是 截然 不 同 的 概念。 在 kernel/userc 中 还 定义 了 个 user_struct 结构 指针 的 数组 uidhash: 
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19 #define UIDHASH BITS 8 
20 #def ine UIDHASH SZ (1 << ULDHASH BITS) 


26 static struct user struct *uidhash table[UIDHASH SZ]: 


这 是 PARE Chash) KR. WAP ZWARE, Men AE 4 BH € UE 
user. struct 结构 。 

各 进程 的 task struct 结构 中 还 有 个 数组 rm. WRK KPA CREE HB B BI. di 
rlim[RLIMIT NPROC[SEXXGE T iiit Ee Pr SS A RI EAT eee. A, unto gp ERES HI 
PRR FABRA PRA ee DOES gU SAUER BIE. SEP fel fok 0T. BA, WT 
不 属 寺 任 何 用 户 的 内 核 线程 怎么 办 呢 ? 587 TT LEA TERCER LAE EE A Be TT BZ LAY 

一 个 进程 除了 属 十 茶 一 个 用 户 之 外 ,还 属 十 茶 个 “执行 域 ”。 总 的 来 说 ，Linux Ab Unix [E]. T des 
并 且 符 合 POSIX 的 规定 。 但 是 ， 有 很 多 版 本 的 操作 系统 同样 是 Unix Eh, ERA POSIX 规定 ， 互 
相 之 间 在 实现 细节 .上 却 仍 然 有 明 蚂 的 不 同 。 例如，AT&T 的 Sys V 和 BSD 4.2 就 有 相 尖 的 不 同 ， 而 Sun 
的 Solaris 又 有 区 别 ， 这 就 形成 了 不 同 的 执行 成。 如 果 一 个 进程 所 执行 的 程序 是 为 Solaris 开发 的 ， 那么 
这 个 进程 就 属于 Solaris 执行 域 PER. SOLARIS. "325, 7: Linux 上 运行 的 绝 大 多 数 程 序 都 属于 Linux 
HITER. Æ task struct 结构 中 有 一 个 指针 exec_domain， 可 以 指向 一 个 exec_domain MGR ZH. MET 
include/linux/personality.h 中 定义 的 : 


38 /* Description of an execution domain personality range supported 
39 * lcall7 syscall handler, start up / shut down functions etc 

40 * N.B. The name and leall7 handler must be where they are since the 
41 * offset of the handler is hard coded in kernel/sys call.S 

42 */ 

43 struct exec domain { 

44 const char *name; 

45 lcall? func handler; 

46 unsigned char pers low, pers high; 

41 unsigned long * signal map; 

48 unsigned long * signal invmap; 

49 struct module * module; 

50 struct exec domain *next; 

51 }; 


函数 指针 handler, FAT WS 3 FI RRRA AH, 我 们 并 不 关心 。 字 TI pers. low 为 某 种 域 的 代 全， 
fj PER LINUX. PER SVR4, PER BSD 和 PER. SOLARIS 等 等 。 

我 们 化 这 里 主要 关心 的 结构 成 分 是 module, 这 是 指 问 某 个 module 数据 结构 的 指针 。 读 者 在 有 关 文 
件 系 统 和 设备 驱动 的 萤 节 中 将 会 看 到 ， 侍 Linux 系统 中 设备 豫 动 程序 串 以 设计 并 实现 成 “动态 安装 模 
块 ”module， 使 其 在 运行 时 动态 地 安装 和 拆除 。 这 些 “ 动 态 安 装 模 块 ”与 运行 中 的 进程 的 执行 域 有 密 
UNS. Blan, :个 属于 Solaris 执行 域 的 进程 就 很 可 能 ， 州 到 专门 为 Solaris 设置 的 一 些 模块 ， 上 只 要 
还 有 个 这 样 的 进程 在 运行 ， 这 些 为 Solaris 所 址 的 模块 就 不 能 拆除 。 所 以 ， 在 描述 等 个 由 安装 模块 的 
数据 结构 中 都 有 -个 计数 些 ， 才 明 有 有 几 个 进程 需 里 使 用 这 个 模块 。 央 此 ，do_fork( ) 中 通过 590 行 的 
get exec domain( JH HL FE BER IR Be te e MJ | AS Cx SCF. include/linux/personality.h 中 )。 
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59 #define get exec domain(it) \ 
60 if (it && it-^module) __ MOD INC USE COUNT (i t module) ; 


同样 的 道理 ， 每 个 进程 所 执行 的 程序 属 丁 某 种 可 执行 映 象 格式 ， 如 aout 格式 、elf 格式 、 其 全 java 
虚拟 机 格式 。 对 这 些 不 同 格式 的 支持 通常 是 通过 动态 安装 的 驱动 模块 来 实现 的 。 所 以 task_struct 结构 
中 还 有 一 个 指向 dinux binfmt 数据 结构 的 指针 binfmt ii do fork( ) 中 593 行 的 
-.MOD. INC USE COUNT( ) 就 是 对 有 闫 模块 的 使 用 计数 器 进行 操作 。 

为 什么 要 在 597 行 把 状态 设 成 TASK_UNINTERRUPTIBLE W? 这 是 因为 在 get_pid( ) 中 产生 一 -个 
新 pid 的 操作 必须 是 独占 的 ， 当 前 进程 可 能 会 因为 一 时 进 不 了 临界 区 而 只 好 暂时 进入 睡眠 状态 等 待 ， 
所 以 才 事 先 把 状态 设 成 UNINTERRUPTIBLE. P copy flags( ) 将 参数 clone_flags 中 的 标志 位 略 加 补 
充 和 变换 ， 然 后 写 入 p->flags。 这 个 函数 的 代 伺 也 在 fork.c 中 。 读 省 可 以 自己 阅读 。 

P F 600 行 的 get_pid( )， 则 根据 clone flags 中 标志 位 CLONE_PID 的 什 ， 或 返回 父 进程 (当前 进 
PO 的 pid， 或 反目 一 个 新 的 pid 放 在 了 进程 的 task, struct 路。 函数 get pid ORTI E fork. c 中 ， 


lsys_fork( ) > do fork( ) > get_pid( )] 


82 static int get pid(unsigned long flags) 


83 { 

84 static int next safe - PID MAX; 

85 struct task struct *p; 

86 

87 if (flags & CLONE PID) 

88 return current—>pid;: 

89 

90 Spin lock(&lastpid lock); 

91 if(C-*last pid) & Oxfffr8000) { 

92 last pid = 300; /* Skip daemons etc. */ 
93 goto inside; 

94 } 

95 if(last pid >= next safe) | 

96 inside: 

97 nexL safe = PID MAX; 

98 read lock(&tasklist lock); 

99 repeat: 

100 for each task(p) | 

101 if(p->pid == last pid || 

102 p-?pgrp == last pid |; 

103 p->session := last pid) { 

104 if(+t+last_pid >= next safe) { 
105 if(last pid & Oxffff8000) 
106 last pid = 300; 

107 next safe - PID MAX; 

108 j 

109 goto repeal; 

110 } 

111 if(pOpid > last pid && next safe > p->pid) 
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112 next safe = p->pid; 

113 if(pOpgrp > last pid && next safe > p->pgrp) 
114 next safe = p->pgrp; 

115 if(p->session > last pid && next safe > p->session) 
116 next safe = p—>session; 

117 } 

118 read unlock(&tasklist lock); 

119 } 

120 spin_unlock (&lastpid_lock) ; 

121 

122 return last_pid; 

123- } 


xx A PID MAX if X 0x8000. HTL, BERS RATA Ox7tff, 即 32767. SERES 0 一 299 
是 为 系统 进程 《包括 内 核 线程 ) 保留 的 ， 主 要 用 于 各 种 “保护 神 ” 进 程 。 以 上 这 段 代码 的 逻辑 并 不 复 
杂 ， 我 们 就 不 多 加 解释 了 。 

回 到 do_fork( ) 中 再 往 下 看 (fork.c): 


lsys_fork( ) > do, fork( )] 


602 p->run_list. next = NULL; 

603 p->run_Jist. prev = NULL; 

604 

605 if ((clone flags & CLONE_VFORK) || !(clone flags & CLONE PARENT)) { 
606 p->p_opptr = current; 

607 if ({(p->ptrace & PT PTRACED)) 

608 pp pptr = current; 

609 ) 

610 p->p_eptr = NULL; 

611 init_waitqueue_head(&p—>wait chldexit) ; 

612 p->vfork sem = NULL; 

613 spin lock init(&p-^alloc lock); 

614 

615 p->sigpending = 0; 

616 init sigpending (&p pending) ; 

617 

618 p->it_real value = pit virt value = p->it_prof_value = 0; 
619 pit real incr = pit virt incr = p->it_prof_incr = 0; 
620 init timer(&p-^real timer); 

621 p->real_timer. data = (unsigned long) p; 

622 

623 p-^leader = 0; /* session leadership doesn’t inherit */ 
624 p->tty old_pgrp = 0; 

625 p->times, tms_utime = p-^times. tms stime = 0; 

626 p->times. tms_cutime = p->times. tms_cstime = 0; 

627 Hifdef CONFTG_ SMP 

628 { 
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629 int i; 


630 pb- >has_cpu = 0; 

631 p->processor = current processor; 

632 /* ?? should we just memset this ?? */ 
633 for(i = 0; i < smp num cpus; i++) 

634 p->per_cpu utimeli] = p-^per cpu stime[i] - 0: 
635 spin lock init(&p-^sigmask lock); 

636 } 

637 #endif 

638 p-^lock depth = -1; /* ~1 = no lock */ 
639 p->start_time = jiffies; 

640 


我 们 在 前 一 节 中 提 到 过 wait4( ) 和 wait3( )， 个 进程 可 以 停 下 来 等 竺 其 了 进程 完成 使 命 。 为 此 , 在 
task struct 中 设置 了 个 队列 头 部 wait_chldexit， 前 面 在 复制 task. struct 结构 时 把 这 也 照抄 了 过 米 ， 击 
子 进 程 此 时 尚未 “出 生 ” 当然 谈 不 上 子 进程 的 等 待 队 八 ， 所 以 要 在 611 行 中 加 以 初始 化 。 

类 似 地 ， 对 各 种 信息 量 也 要 加 以 初始 化 。 这 里 615 和 616 行 是 对 子 进程 的 待 处 理 信号 队 负 以 及 有 
关 结 构成 分 的 初始 化 。 对 这 些 与 信号 有 关 的 结构 成 分 我 们 将 在 “进程 间 通信 ”的 信号 一 节 中 详细 介绍 
接 下 来 是 对 task struct. 结构 中 各 种 计时 变量 的 初始 化 ， 我 们 将 在 “进程 调度 ”一 节 小 介绍 这 些 变量 ， 
在 这 里 我 们 不 关心 对 多 处 理 器 SMP 结构 的 特殊 考虑 ， 所 以 也 赋 过 627~637 íT. 

最 后 ，task_struct 结构 中 的 start time 表示 进程 创建 的 时 间 ， 册 全 局 变量 jiffles 的 数值 就 是 以 时 钟 
中 断 周 期 为 单位 的 从 系统 初始 化 开始 至 此 时 的 时 间 。 

JEJE, task struct 数据 结构 的 复制 与 初始 化 就 是 本 完成 了 。 下 面 就 给 到 其 他 的 资源 了 ， 


[sys_fork( ) > do fork( )] 


641 retval =  ENOMEM; 

642 /* copy all the process information */ 
643 if (copy files(clone flags, p)) 

644 goto bad fork cleanup; 

645 if (copy fs(clone flags, p)) 

646 goto bad fork cleanup files; 

647 if (copy sighand(clone flags, p)) 

648 goto bad fork cleanup fs; 

649 if (copy mm(clone flags, p)) 

650 goto bad fork cleanup sighand; 

651 retval = copy thread(0, clone flags, stack start, slack size, p, regs); 
652 if (retval) 

653 goto bad fork cleanup sighand; 

654 p-^semundo - NULL; 

655 


ER 2X copy. files( ) 有 条 件 地 复制 已 打 井 文件 的 控制 结构 ， 这 种 复制 只 有 人 在 clone flags 中 
CLONE FILES 标志 位 为 0 时 才 真 正 进行 ,否则 就 只 是 共享 父 进 程 的 已 打开 文件 。 当 .个 进 和 三 有 已 打开 
文件 时 ，task_struct 结构 中 的 指针 files 指向 -一 个 files struct 数据 结构 ， 否 则 为 0。 所 有 与 终端 设备 tty 
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相 联 系 的 用 户 进程 的 头 二 个 文件 ， 即 stdin. stdout, /& stderr, MEMEHA, MAR BARE 
0。 数 据 结构 files struct 是 在 include/linux/sched.h 中 定义 的 〈 详 见 “文件 系统 ”一 章 )，copy_files( ) 的 
代码 则 还 是 在 fork.c H: 


[sys_fork( ) > do_fork( ) > copy. files] 


408 static int copy files(unsigned long clone flags, struct task struct * tsk) 
409 [ 


410 struct files struct *oldf, *newf; 

41] struct file **old fds, **new_fds; 

412 int open_files, nfds, size, i, error = 0; 

413 

414 /* 

415 * A background process may not have any files... 
416 */ 

417 oldf = current-^files; 

418 if (loldf) 

419 goto out; 

420 

421 if (clone flags & CLONE FILES) { 

422 atomic inc (&oldf-»count); 

423 goto out; 

424 } 

425 

426 tsk->files = NULL; 

427 error = -ENOMEM; 

428 newf = kmem cache alloc (files_cachep, SLAB KERNEL); 
429 if (!newf) 

430 goto out; 

431 

432 atomic set (&newf->count, 1); 

433 

434 newf-^file lock = RW LOCK UNLOCKED; 

435 newf-»next fd = 0; 

436 newf->max_fds = NR_OPEN_DEFAULT; 

437 newf-»max fdset = | FD SETSIZE; 

438 newf->close on exec = &newf-5close on exec init; 
439 newf->open fds = &newf~>open_fds_init; 

440 newf-»[d = &newf-^fd array[0] ; 

441 

442 /* We don’ yet have the oldf readlock, but even if the old 
443 fdset gets grown now, we']] only copy up to ^size' fds */ 
444 size = oldf- max fdset; 

445 if (size > | FD SETSIZE) { 

446 newf-»max fdset = 0; 

441 write lock(&newf-—^file lock); 

448 error = expand fdsct(newf, size); 
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449 
450 
451 
452 
453 
454 
455 
456 
451 
458 
459 
460 
461 
162 
463 
464 
465 
466 
467 
468 
469 
470 
471 
412 
473 
474 
479 
476 
477 
478 
479 


480 
481 
482 
483 
484 
485 
486 
487 
488 
489 
490 
491 
492 
493 
494 
495 


44d GER HERES 


write_unlock (&newf->file_lock) ; 
if (error) 
goto out release: 
} 
read lock(&oldf >file_lock) ; 


open files = count open files(oldf, size); 


/* 
* Check whether we need to allocate a larger fd array 
* Note: we're not a clone task, so the open count won't 
* change. 
*/ 
nfds - NR OPEN DEFAULT; 
if (open files > nfds) { 

read unlock(&oldf— file lock); 

newf-^max fds = 0; 

write lock(&newf-»file lock); 

error - expand fd array(newf, open files); 

write unlock(&newf-^file lock); 

if (error) 

goto out release; 
nfds = newf—>max_fds; 
read lock(&oldf-^file lock); 


old fds = oldf-^fd; 
new fds = newf->fd; 


memcpy (newf-^open fds-^fds bits, oldf-^open fds-^fds bits, open files/8); 
memcpy (newf-^close on exec-^fds bits, oldf->close_on_exec—>fds bits, 
open files/8); 


for (i = open files; i != 0; i—) { 
struct file *f = *old fdst*; 


if (f) 
get file(f); 
anew fdsti = f; 


} 
read unlock (&oldf->file lock); 


/* compute the remainder to be cleared */ 
size = (newf->max fds - open files) * sizeof(struct file *); 


/* This is long word aligned thus could use a optimized version */ 
memset (new fds, 0, size); 


if (newf-»max fdset > open files) { 
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496 int left = (newf->max fdset open files)/8; 

497 int start = open files / (8 * sizeof(unsigned long)); 
498 

499 memset (&newf-»open fds->fds bits[start], 0, left); 
500 memset (&newf—>close_ on exec-^fds bits[start], 0, left); 
501 } 

502 

503 tsk->files = newf; 

504 error = 0; 

505 out: 

506 return error; 

507 

508 out release: 

509 free fdset (newf-^close on exec, newf >max_fdset) ; 

510 free fdset (newf->open_fds, newf->max_fdset) ; 

511 kmem cache free(files cachop, newf); 

512 goto out; 

513 ^ 
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的 task. struct 结构 中 的 files struct 结构 指针 作为 oldf。 

再 看 复制 的 条 件 。 如 果 参 数 clone flags 中 的 CLONE, FILES 标志 位 为 1， 就 只 是 通过 atomic inc) 

递增 当前 进程 的 files struct 结构 中 的 共享 计数 ， 表 示 这 个 数据 结构 现在 多 了 一 个 “ 诈 户 ?， 就 巡回 了 。 

由 于 在 此 之 前 已 通过 数据 结构 赋值 将 当前 进程 的 整个 task_struct 结构 都 复制 给 了 了 进程 ， 结 构 中 的 指 


数据 结构 。 和 否则 ， 如 果 CLONE FILES 标志 位 为 0， 滥 就 时 复制 了 。 首 先 通 过 kmem_cache_alloc( ) 为 了 
进程 分 号 一 个 files stmct 数据 结构 作为 newf， 然 后 从 oldf 把 内 容 复 制 到 newf。 在 files struct 数据 结构 
中 有 三 个 主要 的 “部 件 ”。 其 一 是 个 位 图 ， 名 为 close_on_exec_init; H. :也 是 位 图 ， 名 为 open fds init; 
其 三 则 是 file 结构 数组 fd array ]。 这 并 个 部 件 都 是 固定 大 小 的 ， 如 果 打 开 的 文件 数量 超过 其 容量 ， 就 
得 通过 expand, fdset( ) 和 expand, fd. array( E files struct 数据 结构 ELE DITAR ERR. NE E 
采用 files struct 数据 结构 内 部 的 这 一 个 部 件 或 是 采用 外 部 的 奉 换 空间 ， 指 针 close on exec. open fds 
和 fd 总 是 分 别 指向 这 三 组 信息 。 所 以 ， 如 何 复制 取决 于 己 打 开 文 件 的 数量 。 

显而易见 ， 共 享 比 复制 此 简单 得 多 。 那 么 这 二 者 在 效果 上 到 底 有 什么 区 唱 呢 ? 如 果 共享 就 可 以 达 
旬 目 的 ， 为 什么 还 要 不 辞 辛劳 地 复制 呢 ? 区 别 在 于 子 进 程 〈《 以 及 父 进程 本 身 ) 是 否 能 “独立 自主 ” 当 
复制 完成 之 初 ， 子 进程 有 了 一 份 副 本 ， 它 的 内 容 与 父 进程 的 “正本 ”在 内 容 上 基本 是 相同 的 ， 在 这 一 
点 上 似乎 与 共享 没有 什么 区 别 。 可 是 ， 随 后 区 划 就 来 了 。 在 共享 的 情况 下 ， 两 个 进程 是 互相 牵制 的 。 
如 果子 进程 对 某 个 已 打开 文件 调用 了 - 次 lseek( )， 则 父 进程 对 这 个 文件 的 读 写 位 置 也 随 者 改 必 了 ， 因 
为 两 个 进程 共享 着 对 文件 的 同一 个 读 写 上 下 文 。 而 在 复制 的 情况 下 就 不 一 样 了 ， 山 于 子 进程 有 自己 的 
副本 ， 就 有 了 对 同一 文件 的 男 … 个 读 写 上 下 文 ， 以 后 就 可 以 各 走 备 的 路 ， 上 不 干扰 了 。 

除 files struct 数据 结构 外 ， 还 有 个 fs struct 数据 结构 也 是 与 义 件 系统 有 关 的 ， 也 要 通过 共 拿 或 复 
制 遗 传 给 子 进 程 。 类 似 地 ，copy_fs() 也 是 具有 在 clone. flags 中 CLONE, FS 标志 位 为 0 时 才 加 以 复制 。 
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task. struct 结构 中 的 指针 指向 一 个 fs. struct 数据 结构 ， 结 构 中 记录 的 是 进程 的 根 日 录 root、 当 前 工作 日 
录 pwd、 一 个 用 于 文件 操作 权限 管理 的 umask, A -个 计数 器 ， 其 定义 在 include/linux/fs. struct.h 中 
( 详 见 “ 文 件 系统 ”一 章 )。 函 数 copy. fs ) 连 同 儿 个 有 关 低 层 函数 的 代 但 也 在 fork.c 中 。 我 们 把 这 些 代 
码 留 给 读者 ; 


[sys_fork( ) > do_fork( ) > copy. fs( )] 


383 static inline int copy fs(unsigned long clone flags, 
struct task struct * tsk) 


384 { 

385 if (clone flags & CLONE FS) { 

386 atomic inc (&current->fs—>count) ; 

387 return 0; 

388 ) 

389 tsk->fs = | copy fs struct(current—^fs); 
390 if (!tsk->fs) 

391 return -1; 

392 return 0; 

393 ] 


[sys fork( ) > do. fork( ) > copy. fs( ) > copy. fs struct( )] 


378 struct fs struct *copy fs struct(struct fs struct *old) 


379 { 
380 return | copy fs struct (old); 
381  ] 


[sys fork( ) > do fork( ) > copy. fs( ) > copy. fs struct( ) > __copy_fs_struct( )] 


353 static inline struct fs struct * copy fs struct(struct fs struct *old) 
354 { 


355 struct fs struct *fs = kmem cache alloc(fs cachep, GFP KERNEL); 
356 /* We don’t need to lock fs - think why ;-) */ 
357 if (fs) { 

358 atomic_set(&fs->count, 1); 

359 fs->lock = RW LOCK UNLOCKED; 

360 fs-»umask = oid-^umask; 

361 read lock (&old-^iock); 

362 fs—>rootmnt = mntget (old-^rootmnt) ; 

363 fs—>root = dget(old-^root); 

364 fs—>pwdmnt = mntget (old->pwdmnt) ; 

365 fs->pwd = dget (old >pwd) ; 

366 if (old->altroot) { 

367 fs->altrootmnt = mntget (old—>altrootmnt) : 
368 fs->altroot = dget (old—>altroot); 

369 } else { 

370 fs—>altrootmnt = NULL; 
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371 fs->altroot - NULL; 
372 } 

373 read unlock (&old-> lock) ; 
374 } 

375 return fs; 

376 } 


代码 中 的 mntget( ) 和 dget( ) 都 是 用 来 递增 相应 数据 结构 中 共享 计数 的 ， 因 为 这 些 数据 结构 现在 多 
了 一 个 用 户 。, 注 意 , 在 这 里 费 复 制 的 是 fs_struct 数 据 结构 ,而 并 不 复制 更 深层 的 数据 结构 ,复制 了 fs_struct 
数据 结构 ， 就 在 这 : 层 上 有 了 自主 性 ， 至 二 对 更 深层 的 数据 结构 则 还 起 共享 ， 所 以 此 递增 它们 的 共 至 
计数 。 

接着 是 关于 对 信号 的 处 百 方 式 。 是 否 复 制 父 进程 对 信和 写 的 处 理 是 由 标志 位 CLONE SIGHAND #2 
制 的 。 信 号 基本 上 是 一 种 进程 问 通信 于 段 ， 信 号 之 于 “个 进程 就 好 像 帆 断 忆 十 一 个 处 理 器 。 进 程 可 以 
为 各 种 信号 设置 用 十 该 信号 的 处 理 程序 , 就 好 像 系统 可 以 为 各 个 中 断 源 设置 相应 的 中 断 服 务 程序 一 样 。 
如 果 -个 进程 设置 了 信号 处 理 程序 , task struct 结构 中 的 指针 sig 就 指向 一 个 signal. struct 数据 结构 。 
这 种 结构 是 在 include/linux/sched.h 中 定义 的 : 








243 struct signal struct { 


244 atomic t count ; 

245 struct k sigaction action[ NSIG]; 
246 spinlock t. siglock; 

247  ]); 


其 中 的 数组 action ] 确 定 了 :个 进程 对 各 种 信号 《以 信号 的 数值 为 下 标 ) 的 及 应 和 处 理 ， 了 进程 可 
以 通过 复制 或 共享 把 书 从 父 进 程 继承 下 来 。 函 数 copy_sighand( ) 的 代码 如 下 Cfork.c): 


[sys_fork( ) > do_fork( ) > copy_sighand( )] 


515 static inline int copy sighand(unsigned long clone flags, 
struct task struct * tsk) 
516 { 
517 struct signal struct *sig; 
518 
519 if (clone flags & CLONE STGIIAND) { 
520 atomic inc(&current-?sig-^count); 
521 return 0; 
522 } 
523 sig = kmem cache alloc(sigact _ cachep, GFP. KERNEL); 
524 tsk-^sig = sig; 
525 if (!sig) 
526 return -1; 
527 spin lock init(&sig— siglock):; 
528 atomic set(&sig-^count, 1); 
529 memcpy (tsk->sig->action, current >sig >aetion, 
sizeof (sk >sig >action)); 
530 return 0; 
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} 


fR copy_files( )& copy. fs( )—#¥#, copy_sighand( ) 也 是 只 有 在 CLONE_SIGHAND 为 Ht BUFF 


tri 否则 就 共享 父 进程 的 sig 指针 ， 并 将 父 进程 的 signal_struct 中 的 共享 计数 加 1. 


然后 是 用 户 空 间 的 继承 。 进 程 的 task_struct 结构 中 有 个 指针 mm， 读 者 已 经 相当 熟 荡 了 ， 'E fRIR]— 


个 代表 着 进程 的 用 户 空间 的 mm. struct 数据 结构 。 由 十 内 核 线程 并 不 拥有 用 户 室 问 ， 所 以 在 内 核 线程 
的 task. struct 结构 中 该 指针 为 0。 有 关 mm_struct 及 其 下 属 的 vm, area. struct 等 数据 结构 已 经 在 第 2 t 
中 介绍 过 ， 这 时 不肖 重复 。 函 数 copy_mm( ) 的 代码 还 是 在 fork.c P: 


[sys_fork( ) > do_fork( ) > copy mm( )] 
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static int copy mm(unsigned long clone flags, struct task struct * tsk) 
í 

struct mm struct * mm, *oldmm; 

int retval; 


tsk-»min fli = tsk-^maj flt = 0; 
tsk-^cmin flt = tsk-^cmaj flt = 0; 
tsk->nswap = tsk->cnswap = 0; 


tsk->mm = NULL; 
tsk ->active mm = NULL; 


/* 
* Are we cloning a kernel thread? 
x 
* We need to steal a active VM for that.. 
*/ 
oldmn = current-^mm; 
if (loldmm) 
return 0; 


if (clone flags & CLONE VM) | 
atomic inc(&oldmm-^»mm users); 
mm = oldmm; 
golo good mm; 


retval — —ENOMFM; 
mm = allocate mm( ); 
if (!mm) 

goto fail nomem; 


/* Copy the current MM stuff., */ 
memcpy (mm, oldmm, sizeof (mm): 
if 《lmm init (mm)) 

goto fail nomem; 


- 293. 


Linux AIRS pP CLAD 


315 

316 down (&oldmm-»mmap sem); 

317 retval = dup mmap (mm); 

318 up (&oldmm-^mmap. sem); 

319 

320 /* 

321 * Add it to the mmlist after the parent 
322 * 

323 * Doing it this way means that we can order 
324 * the list, and fork( ) won't mess up the 
325 * ordering significantly. 

326 */ 

327 spin lock(&mmlist lock); 

328 list add(&mm-^mmlist, &oldmm-»mmlist); 
329 spin unlock(&mmlist lock); 

330 

331 if (retval) 

332 goto free pt; 

333 

334 /* 

335 * child gets a private LDT (if there was an LDT in the parent) 
336 */ 

337 copy segments(tsk, mm); 

338 

339 if (init new context (tsk, mm) ) 

340 goto free pt; 

341 

342 good mm: 

343 tsk->mm = mm; 

344 tsk-Pactive_mn = mm; 

345 return 0; 

346 

347 free pt: 

348 mmput (mm) ; 

349 fail nomem: 

350 return retval; 

351 3 


显然 ， 对 mm. struct 的 复制 也 是 只 在 clone. flags 由 CLONE, VM 标志 为 0 BARRETT, 8 UR 
只 是 通过 山 经 复制 的 指针 共享 父 进 程 的 用 户 空间 。 对 mm struct. 的 复制 就 不 只 是 局 限 丁 这 个 数据 结构 
本 身 了 ， 也 包括 了 对 更 深层 数据 结构 的 复制 。 其 中 最 重要 的 是 vm_area_struct 数据 结构 和 负面 映射 表 ， 
这 是 由 dup_mmap() 复 制 的 。 函数 dup_mmap( ) 的 代码 也 在 fork.c H. 读者 在 认真 读 过 木 书 第 2 章 以 后 ， 
阅读 这 段 程序 时 应 该 不 会 感到 困难 ， 同 时 也 是 一 次 很 好 的 练习 。 


{sys_fork( ) > do. fork( ) > copy. mm( ) > dup_mmap( )] 


125 static inline int . dup mmap(struct mm struct * mm) 
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struct vm area struct * mpnt, *tmp, **pprev; 
int retval; 


flush cache mm(current-^mm); 
mm-?»locked vm = 0; 

mm-»mmap = NULL; 
mm-»mmap avl = NULL; 
mm-»mmap cache = NULL; 
mm-^map count = 0; 
mm->cpu vm mask = 
mm-»swap cnt = 0; 


0; 


mm-^swap address = 0; 

pprev = &mm-^mmap; 

for (mpnt = current-^mm-^mmap ; mpnt ; mpnt = mpnt->vm next) | 
struct file *file; 


retval = -ENOMEM; 
if (mpnt->vm_Clags & VM DONTCOPY) 


continue; 
tmp = kmem cache alloc(vm area cachep, SLAB KERNEL); 
if ('tmp) 


goto fail nomem; 
*tmp = *mpnt; 
tmp-»vm flags &- "VM LOCKED; 
tmp-^vm mm = mm; 
mm-»map count-t*; 
tmp-^vm next = NULL; 
file = tmp-^vm file; 
if (file) { 
struct inode *inode = file-»f dentry-^d inode; 
get file(file); 
if (tmp->vm flags & VM DENYWRITE) 
atomic dec (&inode->i_writecount) ; 


/* insert tmp into the share list, just after mpnt */ 
spin_lock (&inode->i_mapping—>i_shared_lock) ; 
if ((tmp->vm_next_share = mpnt-->vm_next_share) != NULL) 
mpnt->vm_next share-?vm pprev share = 
&tmp—>vm next share; 
mpnt-?»vm next share = tmp; 
tmp-?vm pprev share = &mpnt-^vm next share; 
spin unlock(&inode-^i mapping-^i shared lock); 


/* Copy the pages, but defer checking for errors */ 
retval = copy page range(mm, current-^mm, tmp); 
if (!retval && tmp-^vm ops && tmp->vm_ops->open) 
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Lmp->vm_ops->open (tmp) ; 


/* 

* Link in the new vma even if an error occurred, 
* so that exit mmap( ) can clean up the mess. 

*/ 

*pprev = tmp; 

pprev = &tmp-?vm next; 


if (retval) 
goto fail nomem; 
} 
retval = 0; 
if (mm-^»map count >= AVL MIN MAP COUNT) 
build mmap avl (mm); 


fail nomem: 
flush tlb mm(current—>mm) ; 
return retval; 


} 


这 里 通过 140—185 行 的 for 循环 对 同一 用 户 空 间 中 的 各 个 区 疗 进 行 复制 。 对 于 通过 mmap( ) 映 射 


到 上 其 个 文件 的 区 间 ，155 一 169 行 是 一 些 特殊 的 附加 处 理 。172 行 的 copy_page_range( ) 是 关键 所 在 ， 这 
个 冰 数 逐 层 处 理 页 面 丹 录 项 利 页 面 表 项 ， 其 代码 在 mm/memory.c 中 : 


[sys_fork( ) > do fork( ) > copy. mm( ) > dup mmap( ) > copy_page_range( )} 


144 
145 
146 
147 
148 
149 
150 
151 
152 
153 
154 
155 
156 
157 
158 


159 
160 
16] 
162 


* copy one vm_area from one task to the other. Assumes the page tables 
* already present in the new task to be cleared in the whole range 

* covered by this vma. 
* 
* 
* 


08]an98 Merged into one routine from several inline routines to reduce 
variable count and make things faster. -jj 


int copy page range (struct mm struct *dst, struct mm struct ¥*sre, 
struct vm area struct *vma) 


pgd t * src pgd, * dst pgd; 
unsigned long address = vma->vm start; 
unsigned long end = vma-?vm end; 
unsigned long cow = (vma-»vm flags & (VM SHARED | VM MAYWRITE)) 
-- VM MAYWRITE: 


src pgd = pgd offset(src, address)-1; 
dst pgd = pgd offset(dst, address)-1; 
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163 
164 
165 
166 
167 
168 
169 
170 
i71 
172 
173 
174 
175 
176 
177 
178 
179 
180 
18] 
182 
183 
184 
185 
186 
187 
188 
189 
190 
191 
192 
193 
194 
195 
196 
197 
198 
199 
200 
201 
202 
203 
204 
205 
206 
207 
208 
209 
210 


for (;;) { 


BAR ”进程 与 进程 调度 


pmd t * src pmd, * dst pmd; 


src pgd**; dst_pgdt+; 


/* copy pmd range */ 


if (pgd none(*src pgd)) 

goto skip copy pmd range; 
if (pgd bad(*sre pgd)) | 

pgd ERROR(*src pgd); 

pgd clear(src pgd); 


skip copy pmd range: 


address = (address + PGDIR SIZE) & PGDTR MASK; 


if (laddress |! (address >= end)) 
goto out; 


continue; 


) 


if (pgd none(*dst pgd)) { 
if (!pmd alloc(dst pgd, 0)) 
goto nomem; 


src pmd = pmd offset(src pgd, address); 
dst pmd = pmd offset(dst pgd, address); 


do 1 


pte t * src pte, * dst pte; 


/* copy pte range */ 


if (pmd none(*src pmd)) 

goto skip copy pte range; 
if (pmd bad(*src pmd)) | 

pmd ERROR(*src pmd); 

pmd clear(src pmd); 


Skip copy pte range: 


if (address >= end) 
goto out; 
goto cont copy pmd range; 


) 


if (pmd none(*dst pmd)) | 
if (!pte alloc(dst pmd, 0)) 
goto nomem; 


src pte 
dst pte 


pte offset(src pmd, address); 
pte offset(dst pmd, address); 


address = (address + PMD SIZE) & PMD MASK; 
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211 do { 

212 pte t pte = *src pte; 

213 struct page *ptepage; 

214 

215 /* copy one pte */ 

216 

217 if (pte none (pte)) 

218 goto cont_copy_pte range noset; 

219 if (!pte present (ple)) { 

220 swap duplicate(pte to swp entry(pte)) ; 

221 goto cont copy pte range; 

222 } 

223 ptepage = pte page(pte); 

224 if ((!VALID_PAGE(ptepage)) i| 

225 PageReserved (ptepage)) 

226 goto cont copy pte range; 

221 

228 /* If it's a COW mapping, write protect it both in 
the parent and the child */ 

229 if (cow) ( 

230 ptep set wrprolect(srce pte): 

231 pte = *src pte; 

232 } 

233 

234 /* If it's a shared mapping, mark it clean in the child */ 

235 if (vma->vm flags & VM SHARED) 

236 pte = pte mkclean(pte); 

231 pte = pte mkold(pte) ; 

238 get_page (plepage). 

239 

240 cont copy pte range: set pte(dst pte, pte); 

241 cont copy pte range noset: address += PAGE SIZE; 

242 if (address >= end) 

243 goto out; 

244 src ptet*; 

245 dst ptet*; 

246 } while ((unsigned long)src pte & PTE TABLE MASK) ; 

241 

248 cont copy pmd range: src pmdt-; 

249 dst pmd++; 

250 } while ((unsigned long)src pmd & PMD TABLE MASK) ; 

251 } 

252 out: 

253 return 0; 

254 

255 nomem: 

206 return ~ENOMEM; 

257 } 
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代码 中 163 行 的 for 循环 是 对 页 面 日 录 项 的 循环 ，188 行 的 do HAA FEM Pg] Hem) f. 211 fT 
的 de 循环 则 是 对 页 而 表 项 的 循环 。 我 们 拒 注 意 力 集中 在 2117-246 行 对 页 面 表 项 的 do, while 循环 。 
循环 中 检查 父 进程 个 负面 直 中 的 每 个 走 项 ， 根 据 表 项 的 内 容 决定 具体 的 操作 。 而 表 项 的 内 容 ， 


则 无 非 是 下 面 这 么 一 些 可 能 : 


(1) 


(2) 


(3) 


(4) 


(5) 





表 项 的 内 容 为 企 0, 所 以 pte_none( HIF] 1. BLA ix OCT AY RS EG ER. 或 者 说 是 个 “空洞 ” 
因此 不 需要 做 任何 事 。 

AE, WI PAGE PRESENT 标志 位 为 0， 所 以 pte present ( ) 返 网 1。 说 明 映 射 已 建 
立 ， 但 是 该 页 面目 前 不 在 内 存 中 ， 已 经 被 调 出 到 交换 设备 上 。 此 时 表 项 的 内 容 指明 “ 檬 上 页 
m” Bari, mimi rx DEI BU 所 以 要 通过 swap duplicate( ) 递 增 它 的 共 
Rit. Wi, SEE ]cont copy. pte range 将 此 表 项 复制 到 了 进程 的 页 而 表 中 。 
映射 已 建立 ， 但 是 物理 页 面 不 是 一 个 有 效 的 内 存 页 面 ， 所 以 VALID_PAGE( ) 返 回 0。 读 者 可 
AMi- 下， 我 们 以 前 讲 过 有 些 物理 页 面 在 外 设 接 口 卡 上 ， 相 应 的 地 址 称 为 “总 线 地 赴 ”， 
而 并 不 是 内 存 页 而 。 这 样 的 页 面 、 以 及 虽 是 内 存 页 面 但 由 内 核 保 曾 的 页 面 ， 是 不 属 十 页 面 换 
A / 换 出 机 制 管辖 的 , 实际 上 也 不 消耗 动态 分 配 的 内 存 页 而 ,所 以 也 转 到 cont. copy. pte range 
TE LER] PERS vu fp de en o 

Vue A SOMERS B) HT 5 vip. AR, VEIN IRSA TINIAN AL, FEA SOE REY UL 
面 把 内 容 复制 过 来 ， 并 为 之 建立 映射 。 显 然 ， 这 个 操作 的 代价 是 不 小 的 。 然 而 ， 对 这 么 辛 辛 
亩 将 复制 下 米 的 页 面 ， 子 进程 是 否 一 定 会 用 呢 ? HBA AL be? 刀 果 只 是 读 访 问 ， 则 
只 要 父 进程 从 此 不 再 写 这 个 页 面 ， 就 完全 吓 以 通过 复制 指针 来 上 共享 这 个 页 面 ， 才 人 不知 此 省 事 
多 少 了 。 所 以 ，Linux 内 核 采用 了 一 种 称 为 “copy on write” AKA, AT SH eT 
时 共享 这 个 页 而 ， 到 子 进 程 〈 或 父 进程 ) 真 的 要 写 这 个 页 面 时 再 米 分 配 页 面 和 复制 。 代 个 中 
的 局 部 变星 cow AE CERI IAL 158 行 定 义 的 ， 变 量 名 cow Æ “copy on write” 的 缩写 。 只 要 一 个 
虚 人 存 区 间 的 性 质 是 可 写 CVM. MAYWRITE 为 1) 而 又 水 是 共享 CVM. SHARED 为 0)， 就 属 
于 copy. on. write 区 间 。 实 际 上， 对 于 绝 大 多 数 的 可 写 虚 存 区 问 ，cow 都 是 1。 在 通过 复制 页 
面 表 项 暂时 共有 近 个 页 向 帮 贡 时 要 做 两 件 重要 的 事情 ， 首 先 要 人 在 230 81231 行将 父 进程 的 页 
面 表 项 改 成 与 保护 ， 然 后 在 236 TIE CAMS rt^ D den E BUT IER ISI Vr ers XXE 
SR, TER RUE TEPyTXfe BARRE “Ri” T. SPE ESHEETS ERE I AK 
页 面 时 ， 才 会 引起 一 次 页 面 异 常 。 而 抽 面 异常 处 埋 程 序 对 此 的 及 应 则 是 另行 分 配 个 物理 页 
面 ， 并 把 内 容 真 正 地 “复制 ”到 新 的 物 埋 负面 中 ， 计 父 、 了 进程 各 自 拥有 自己 的 物理 页 面 ， 
TROPAS V net | FAV e eR RIA. PIE. Linux 内 核 之 所 以 可 以 很 迅速 地 “复制 ” 
-个 进程 ， 完 全 依赖 于 “copy on write” CSW, T fork “个 进程 时 就 得 要 复制 每 “个 物理 负 
面 了 )。 喇 是，copy_on_write 只 有 在 父 、 子 进程 各 自 拥有 自己 的 页 面 表 时 才能 实现 。 当 
CLONE VM 标志 位 为 1， 因 出 父 、 子 进程 通过 指针 共 亨 用 户 衬 间 时 ，copy_on_write 就 用 不 
上 上 了。 此 时 ， 父 、 子 进程 是 在 真 下 的 意义 上 共 至 用 户 空 间 ， 父 进程 写 入 其 用 户 裕 间 的 内 容 同 
时 也 “ 写 入 ” 子 进程 的 用 户 空间 。 

父 进程 的 只 恋 页 面 。 这 种 页 出 本 来 就 不 需要 复制 。 因 而 可 以 复制 页 面 表 项 共享 物理 页 面 。 


ny SL, “424 copy_page_range( )， 洋 际 上 却 连 一 个 页 面 也 没有 真正 地 “复制 ” 这 就 是 为 付 么 Linux 
内 核能 够 很 迅速 地 fork( ) 或 clone( )- 个 进程 的 秘密 。 
图 到 copy_mm( ) 的 代码 中 。 隧 数 copy_segments( ) 处 理 的 是 进程 可 能 其 有 的 局 部 段 描述 表 LDT。 我 
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们 在 第 2 章 中 讲 过 ， 只 有 存 VM86 模式 中 运行 的 进程 才 会 有 LDT。 虽 然 我们 并 不 关心 VM86 模式 , d 
是 有 兴趣 的 读者 也 不 妨 自 己 看 看 它 是 怎样 复制 的 。copy_segments( ) 的 代码 企 arch/i386/kernel/process.c 
中 : 


[sys fork( ) > do_fork( ) > copy, mm( ) > copy. segments( )] 


499 /* 

500 * we do not have to muck with descriptors here, that is 

501 * done in switch mm( ) as needed. 

502 */ 

503 void copy_segments (struct task struct *p, struct mm struct *now mm) 
504 

505 struct mm struct * old mm; 

506 void *old ldt, *ldt; 

507 

508 ldt = NULL; 

309 old mm = current—>mn; 

510 if (old mm && (old ldt = old_mm—>context. segments) != NULL) ( 
511 /* 

512 * Completely new LDT, we initialize it from the parent: 
513 */ 

514 ldt = vmalloc(LDT ENTRIES*LDT ENTRY SIZE); 

515 if (!1dt) 

516 printk(KERN WARNING “ldt allocation failed\n”) ; 

517 clse 

518 memcpy (ldt, old ldt, LDT ENTRTES*LDT ENTRY SIZE); 
519 ) 

520 new_mm->context. segments - ldt; 

521 ] 


问 到 copy mm( ) 的 代码 。 对 于 i386 CPU 来 说 , copy, mm( ) 339 fT Ab init new. context( ) 是 个 罕 
语句 。 

当 CPU 从 copy_mm( 中 到 do, fork( ) 中 时 ， 所 有 需要 有 条 件 复制 的 资源 才 已 经 处 理 完 了 。 读者 不 
妨 品 顾 一 下 ， 当 系统 调用 fork( ) 通 过 sys. fork( JEAN do_fork( ) 时 ， 其 clone flags 为 SIGCHLD, (hae 
说 ， 所 有 的 标志 位 均 为 0， 所 以 copy_files( ). copy. fs( )、copy_sighand( ) 以 及 copy, mm ) 个 都 真正 执 
(TT, PIMA GUT. m vfork( ) 经 过 sys vfork 进入 do fork( ) 时 ， 则 其 clone flags 为 
VFORKICLONE_VMISIGHLD, ， 所 以 只 执行 了 copy files( ). copy fs( ) LA 2 copy sighand( ): 而 
copy mm( )， 则 内 标志 位 CLONE VM 为 1， 只 是 通过 指针 共享 其 父 进程 的 mm_struct， 并 没有 fA 
已 的 副本 。 这 也 就 是 说 ， 经 vfork ) 复 制 的 是 个 线程 ， 只 能 靠 上 共享 其 父 进程 的 存储 空间 度量 ， 包 括 川 户 
空间 堆栈 在 内 。 全 于 __clone()， 则 魂 决 :十 调用 时 的 参数 。 当 然 ， 最 终 还 得 取决 丁 父 进程 共有 什么 资源 ， 
此 是 父 进程 没有 已 打开 交 件 ， 指 么 即使 执行 了 copy_files( )， 也 还 是 空 的 。 

[E 4 do fork MOREA. BT CLA LI alloc task struct( ) 分 配 了 是 个 连续 的 页 | 作 ， 共 低 端 用 作 
task struct 结构 ， 已 经 基本 上 复制 好 了 :， 而 用 作 系 统 空间 堆栈 的 总 端 ， 却 还 没有 复制 。 现 在 就 由 
copy. thread( ) 来 做 这 件 事 了 。 这 个 阴 数 的 代码 在 arch/i386/kernel/process.c F: 
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[sys_fork( ) > do. fork( ) > copy. thread( )] 


523 /* 

524 * Save a segment. 

525 */ 

526 "define savesegment (seg, value) V 

527 asm volatile("movl %%” #seg ^,9007:"-m^ (*(int *)&(valuc))) 
528 


529 int copy thread(int nr, unsigned long clone flags, unsigned long esp, 
530 unsigned long unused, 


531 struct task struct * p, struct pt regs * regs) 
532 { 

533 struct pt regs * childregs; 

534 

535 childregs = ((struct pt regs *) (THREAD SIZE + (unsigned long) p)) - 1; 
536 struct cpy(childregs, rogs); 

537 childregs->eax = 0; 

538 childregs-^esp = esp; 

539 

540 p->thread. esp = (unsigned long) childregs; 

541 p->thread. esp0 = (unsigned long) (childregs*l); 
542 

543 p->thread. eip = (unsigned long) ret from fork; 
544 

545 savesegment (fs, p -^thread. fs) ; 

546 savesegment (gs, p-^thread. gs) ; 

547 

548 unlazy fpu(current); 

549 struct cpy(&p-^thread. 1387, &current—>thread. 1387) ; 
550 

551 return 0; 

552 } 


名 为 copy thread( ), Scy E AH Ab SL SCE AAS ea IR] MES. MERERI AAT ACER 
过 系统 调用 进入 系统 空间 开始 到 进入 copy. thread( MSR, TTRM IRI ER SBI, AROSE 
Ema THE. (He, MRM RASHES QUAM TERA, ARIELLE ICM AE 
A HET, BTU DAUR EHE., RE CPRIBCGERRURUS, RIEKE 53577. da SH, 
读者 已 经 看 到 当 一 个 进程 因 系 统 调 用 或 中 断 而 进入 内 核 时 ， 其 系统 罕 间 堆栈 的 顶部 保存 着 CPU 进入 内 
核 前 儿 各 个 示人 在 器 的 内 容 ， 并 彤 成 一 个 pt_regs 数据 结构 。 这 里 535 行 中 的 p 为 了 进程 的 task. struct 指 
针 ， 指 向 两 个 连续 物理 页 面 的 起 始 地 址 ， 而 THREAD_SIZE + (unsigned long)p 则 指向 这 两 个 页 面 的 顶 
thie FEA AE PEAK struct pt_regs*， 再 从 中 减 1， 就 指向 了 了 了 进程 系统 空间 堆栈 中 的 pt_regs 结构 ， 如 图 4.3 
所 示 。 
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(THREAD SIZE + (unsigned long) P) 







task struct 





T 


THREAD SIZE 


i | 


~ 


(struct pt_regs (THREAD SIZE 


系统 空间 堆栈 + (unsigned long) P) -1) 





图 4.3 子 进 程 系 统 空间 堆栈 示意 图 


得 到 了 指向 子 进程 系统 空间 堆栈 中 pt_regs 结构 的 指针 childregs 以 后 , 就 先 将 当前 进程 系统 空间 堆 
栈 中 的 pt_regs 结构 复制 过 去 ， 再 来 作 少量 的 调整 。 什 么 样 的 调整 呢 ? 首先 ， 将 该 结构 中 的 eax 置 成 0。 
当 子 进程 受 调度 而 “恢复 ”运行 ， 从 系统 调用 “返回 ”时 ， 这 就 是 返回 值 。 如 前 所 述 ， 子 进程 的 返回 
值 为 0。 其 次 ， 还 要 将 结构 中 的 esp 置 成 这 里 的 参数 esp， 它 决定 了 进程 在 用 户 空 间 的 堆栈 位 置 。 在 
__clone( ) 调 用 中 ,这 个 参数 是 由 调用 者 给 定 的 。 而 在 fork( ) 和 vfork( ) 中 ， 则 来 自 调 用 do_fork( ) 前 夕 的 
regs.esp， 所 以 实际 上 并 没有 改变 ， 还 是 指向 父 进程 原来 在 用 户 空间 的 堆栈 。 

在 进程 的 task, struct 结构 中 有 个 重要 的 成 分 thread， 它 本 身 是 一 个 数据 结构 thread_struct， 里 面 记 
录 着 进程 在 切换 时 的 (系统 空间 ) 堆 栈 指针 ， 取 指令 地 址 (也 就 是 “返回 地 址 ”) 等 关键 性 的 信息 。 在 复 
制 task struct 数据 结构 的 时 候 ， 这 些 信 息 也 原封 不 动 地 复制 了 过 来 。 可 是 ， 子 进程 有 自己 的 系统 空间 
堆栈 , 所 以 也 要 相应 加 以 调整 。 具体 地 说 ,540 行将 p->thread.esp 设置 成 子 进程 系统 空间 堆栈 中 pt_regs 
结构 的 起 始 地 址 ， 就 好 像 这 个 子 进 程 以 前 曾经 运行 过 ， 而 在 进入 内 核 以 后 正 要 返回 用 户 空间 时 被 切换 
了 一 样 。 而 p->thread.esp0 则 应 该 指向 子 进程 的 系统 空间 堆栈 的 顶端 。 当 … 个 进程 被 调度 运行 时 ， 内 核 
会 将 这 个 变量 的 值 写 入 TSS 的 esp0 字段 ， 表 示 当 这 个 进程 进入 0 级 运行 时 其 堆栈 的 位 置 。 此 外 ， 
p->thread.eip 的 值 表 示 当 进程 下 - -次 被 切换 进入 过 行 时 的 切入 点 ， 类 似 于 函数 调用 或 中 断 的 返回 地 址 。 
将 此 地 址 设置 成 ret_from_ftork， 使 创建 的 子 进程 在 首次 被 调度 运行 时 就 从 那儿 开始 ， 这 一 点 以 后 在 阅 
读 有 关 进 程 切换 的 代码 时 还 要 讲 到 。545 行 和 546 行 的 savesegment 是 个 宏 操 作 ， 其 定义 就 在 526 行 。 
所 以 ，545 行 在 goo 预 处 理 以 后 就 会 变 成 


asm volatile ("movl %%fs, 9*0 ": "- m^ (* (int *) & p-^thread. fs)) 


也 就 是 把 当前 的 段 寄存 器 fs 的 值 保存 在 p-»thread.fs 中 .546 行 与 此 类 似 。548 行 和 549 行 是 为 1387 
浮 点 处 理 器 而 设 的 ， 那 就 不 是 我 们 所 关心 的 了 。 
回 到 do_fork(), 4E FE: 


[sys fork( ) > do_fork( )] 


656 /* Our parent execution domain becomes current domain 
651 These must match for thread signalling to apply */ 
658 

659 p parent exec id - p->self_exec_id; 

660 

661 /* ok, now we should be set up.. */ 
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662 p->swappable = 1; 

663 p-^exit signal = clone flags & CSIGNAL; 

664 p ?pdeath signal = 0; 

665 

666 /* 

667 * "share" dynamic priority between parent and child, thus the 
668 * tolal amount of dynamic priorities in the system doesnt change, 
669 * more scheduling fairness. This is only important in the first 
670 * Limeslice, on the long run the scheduling behaviour is unchanged. 
671 */ l 
672 p ?counter = (current->counter + 1) >> 1; 

673 current->counter >>= |; 

674 if (!current—counter) 

675 current-^need resched = 1; 

676 

677 /* 

678 * Ok, add it to the run-queues and make it 

679 * visible to the rest of the system. 

680 * 

681 * Let it rip! 

682 */ 

683 retval = p—pid: 

684 p~>tgid = retval; 

685 INIT LIST HEAD(&p— thread group); 

686 write lock irq(&tasklist, lock); 

687 if (clone flags & CLONE THREAD) { 

688 p^ tgid = current->tgid; 

689 list add(&p-^thread group, &current-^thread group); 

690 } 

691 SET LINKS (p) ; 

692 hash pid(p); 

693 nr threads-**; 

694 write unlock irq(&tasklist lock); 

695 

696 if (pOptrace & PT. PTRACED) 

697 send sig(SIGSTOP, p, 1): 

698 

699 wake up process(p): /* do this last */ 

700 total forks; 

701 

702 fork out: 

703 if ((clone flags & CLONE VFORK) && (retval > 0)) 

104 down (&sem) ; 

705 return retval; 

706 


代码 中 的 parent, exec id 表示 父 进程 的 执行 域 ，self_exec_id 为 本 进程 的 执行 域 ，swappable 表示 本 
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进程 的 存储 负面 可 以 被 换 出 ，exit_signal 为 本 进程 执行 exit( ) 时 应 向 父 进程 发 出 的 信 导 ，pdeath_signal 
为 要 求 父 进程 在 执行 exit( ) 时 间 本 进程 发 出 的 信号 。 此 外 , task. struct 结构 中 counter 字段 的 值 就 是 进程 
的 运行 时 间 配 额 ， 这 里 将 父 进程 的 时 间 配 额 分 成 两 水 ， 让 父 、 子 进程 各 有 原 值 的 : 半 。 如 哩 创建 的 是 
线程 ， 则 还 要 通过 task struct 结构 中 的 队列 头 thread. group 与 父 进程 链接 起 来 ， 形 成 … 个 “线程 组 ” 
接着 ,就 要 让 子 进程 进入 它 的 关系 网 了 。 先 通过 SET_LINKS(p) 将 子 进 程 的 task_struct 结构 链 入 内 核 的 
进程 队 州 , 然后 又 通过 hash_pid( ) 将 其 链 入 按 其 pid 计算 得 的 杂 凌 队列 。 有 关 这 些 队 列 的 详情 可 参看 “ 进 
Fe” WR “BRANES” WTA RR. 最后， 通过 wake up process( Mf HERE “MARR”, 
也 就 是 将 其 挂 入 可 执行 进程 队列 等 待 调度 。 右 关 详 情 可 参看 “过 程 的 睡眠 与 唤醒 ”一 他 。 

至 此 ， 新 进程 的 创建 己 经 完成 了 ， 并 且 已 经 持 入 了 可 运行 进程 的 队列 接受 调度 。 子 进 积 与 父 进程 

在 用 户 空间 中 共有 柑 同 的 返 同 地 址 ， 然 后 才 会 因 用 广 空 间 中 程序 的 安排 而 分 开 。 同 时 ， 由 十 当 父 进程 
(当前 进程 ) 从 系统 调用 返 思 的 前 夕 吕 能 会 接受 调度 ， 所 以 ， 到 底 谁 会 先 返 回 到 用 户 空间 是 不 确定 的 。 
A^. - 般 而 言 ， 由 于 父 、 子 进程 适用 相同 的 调度 政策 ， 而 父 进程 在 可 执行 进程 队列 中 排 在 子 进程 前 
面 ， 所 以 父 进 程 先 运 行 的 可 能 较 大 。 

还 有 一 种 特殊 情况 要 考虑 。 当 调用 do_fork( ) 的 参数 中 CLONE_VFORK 标志 位 为 1 时 ， 一 定 要 保 
证 让 子 进程 先 运 行 ，~ 直 到 了 进程 通过 系统 调用 exeeve( ) 执 行 一 个 新 的 可 执行 程序 或 者 通过 系统 调用 
exit( ) 退 出 系统 时 , 才 可 以 恢复 父 进程 的 运行 。 为 什么 呢 ? 这 要 从 用 户 空 间 的 复制 或 共享 这 个 问题 说 起 。 
前 面 读者 已 经 看 到 ， 在 创建 子 进 程 时 ， 对 于 父 进 程 的 用 户 室 间 可 以 通过 复制 父 进程 的 mm_struct 及 其 
下 属 的 各 个 vm area struct 数据 结构 ， 冉 加 |- 父 进 程 的 页 面 日 录 和 页 面 表 玉 继承 ; 也 可 以 简单 地 复制 父 
进程 的 task_struct 结构 中 指向 其 mm struct 结构 的 指针 来 共享 ， 其 体 取决 于 CLONE_VM 标志 位 的 值 。 
当 CLONE_VM 标志 位 为 1， 因 出 父 、 子 进程 通过 指针 共享 败 户 空间 时 ， 父 、 子 进程 是 在 真正 的 意义 上 
共 合 用户 空间 ， 父 进程 写 入 其 用 户 空 间 的 内 容 同 时 也 “ 写 入 ”了 进程 的 用 户 空间 ， 反 之 四 然 。 如 果 说 ， 
在 这 种 情况 下 父 、 子 进程 各 白 对 其 数据 区 的 写 入 可 能 会 引起 问题 的 话 ， 那 么 对 堆栈 区 的 写 入 可 就 是 至 
命 的 了 。 而 每 次 对 了 程序 的 调用 都 是 对 堆栈 区 的 写 入 ! 由 此 可 见 ， 在 这 样 的 情况 下 绝 不 能 让 两 个 进程 
都 回 到 用 户 空间 并 发 地 运行 ; 否则， 必然 是 两 个 进程 最 终 都 乱 来 汪 … 气 或 者 因 非 法 越界 访问 而 多 亡 。 解 
决 的 办 法 只 能 是 “扣留 ”其 中 一 个 进程 ， 而 只 让 一 个 进程 回 到 用 产 空 间 ， 直 到 两 个 进程 不 再 共享 它们 
的 用 户 空 间或 其 中 个 进程 (必然 吓 回 到 用 户 空间 运行 的 那个 进程 消亡 为 止 。 

FLA, do_fork( ) 中 的 703 行 和 704 行 企 CLONE. VFORK 标志 为 1 3E BH. fork 了 进程 成 功 的 情况 下 ， 
通过 让 当前 进程 ( 父 进程 ) 在 个 信和 与 量 上 执行 一 次 down( ) 操 作 ， 以 达到 扣留 父 进程 的 日 的 。 我 们 米 
看 看 具体 是 怎样 实现 的 。 

首先 ， 信 号 量 sem ATER ATTAIN 560 行 定义 的 一 个 局 部 量 〈 名 日 DECLARE， 实 际 | 为 之 分 
配 了 空间 ): 


[sys_fork( ) > do_fork( )] 
560 DECLARE, MUTEX LOCKED (sem) ; 
这 儿 DECLARE MUTEX LOKED #27 include/asm-i386/semaphore.h 中 定义 的 : 
70  #define DECLARE MUTEX (name) DECLARE SEMAPHORE GENERIC (name, 1) 


71 #define DECLARE MUTEX LOCKED(name) ^ . DECLARE SEMAPHORE GENERIC (name, 0) 
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将 DECLARE, MUTEX LOKED 5 DECLARE MUTEX 作 一 比较 ， 可 以 看 出 正常 情况 下 信号 量 中 
资源 的 数量 为 1， 而 现在 这 个 信和 号 量 中 资源 的 数量 为 0。 当 资源 数量 为 1 时 ， 第 个 执行 down ) 操 作 
的 进程 进入 临界 多 ， 而 使 资源 数量 变 成 了 0， 以 后 执行 down( ) 操 作 的 进程 便 会 内 为 资源 为 0 而 被 指 之 
门 外 进入 睡 卢 ， 直 到 第 一 个 进程 归还 资源 离开 临界 区 时 才 被 唤醒 。 市 现在 这 个 信和 号 量 的 资源 从 -- 开 始 
就 是 0， 所 以 第 一 个 对 此 执行 down ) 操 作 的 进程 就 会 进入 睡 呢 ， 一 直 要 到 某 个 进程 往 这 个 信号 量 中 投 
入 资源 ， 也 就 是 执行 一 次 up( ) 抱 作 时 才 会 被 唤醒 。 

那么 ， 谁 米 投 入 资源 呢 ? 在 “系统 调用 execve( )”-- 节 中 读者 将 看 到 ， 子 进程 在 通过 execve( ) 执 
fr -个 新 的 可 执行 程序 时 会 做 这 件 事 。 此 外 ， 了 进程 在 道 过 exit( ) 退 出 系统 时 也 会 做 这 件 事 。 这 里 还 要 
指出 ， 这 个 信和 号 量 是 do_fork( ) 的 一 个 局 部 变量 ， 所 以 在 父 进 程 的 系统 空间 堆栈 中 ， 向 子 进 程 在 其 
task_struct 结构 中 有 指向 这 个 信和 号 量 的 指针 《出 vfork_sem, JL do fork( ) 的 第 554 行 和 560 fT). HESR 
父 进 程 一 直 要 睡眠 到 子 进程 使 用 这 个 信和 号 量 以 后 ， 信 和 号 量 所 在 的 空间 就 不 会 受到 打扰 。 还 应 指出 ， 
CLONE VM 要 与 CLONE_VFORK 结合 使 用 ， 否 则 就 会 发 牛 前 述 的 问题 ， 除 非 在 用 户 程序 中 采取 了 特 
珠 的 预防 措施 。 

不 管 怎样 ， 了 进程 的 创建 终于 完成 了 ， 让 我 们 视 福 这 新 的 生命 ! 可 是 ， 如 果子 进程 只 具有 与 父 进 
程 相 同 的 可 执行 程序 和 数据 ， 只 是 父 进程 的 “影子 ” 那 义 有 什么 意义 呢 ? 子 进 程 必须 雯 白 己 的 路 ， 这 
就 是 下 一 切 “ 系 统 调用 execve( )” 所 要 讲述 的 内 容 了 。 
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读者 在 前 一 节 中 已 经 看 到 ， 进 程 通常 是 按 其 父 进程 的 原样 复制 出 来 的 ， 在 多 数 情 况 下 ,如 果 复 制 出 
来 的 子 进程 不 能 与 父 进程 分 道 扬 镀 ,“ 走 白 己 的 路 ” 那 就 没有 多 大 意义 。 所 以 ， 执 行 一 个 新 的 可 执行 
程序 是 进程 生命 矶 程 中 关键 性 的 ， 步 。Linux 为 此 提供 了 一 个 系统 调用 execve(), 而 在 C 语言 的 程序 库 
中 则 又 在 此 基础 上 向 应 用 程序 提供 一 整套 的 库 函 数 , 包括 execl( )、execlp( )、 execle( ). execle( ). execv( ) 
和 execvp( )。 此外, 还 有 库 消 数 system( ), 也 与 exeeve( ) 有 关 , 不 过 system( ) 是 fork( ). execve( )、wait4( ) 
的 组合 。 我 们 已 经 在 本 章 第 2 节 介 绍 过 应 用 程序 怎样 调用 execve( )， 现 在 我 们 就 来 介绍 execve( ) 的 实 
现 。 

系统 调用 execve( ) 内 核 入 门 想 sys_execve( )， 代 码 见 arch/i386/kernel/process.c: 


122 /* 

723 * sys execve( ) executes a new program. 

724 */ 

725 asmlinkage int sys_execve(struct pt_regs regs) 
720 { 

727 int error; 

728 char * filename; 

729 

730 filename = getname((char *) regs. ebx) : 

731 error = PTR_ERR (filename) ; 

732 if (1S_ERR (filename) ) 

733 goto out; 

734 error = do execve(filename, (char **) regs. ecx, 


(char *k) regs. edx, &regs); 
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735 if (error == 0) 

736 current—>ptrace &- "PT DTRACE; 
731 putname (filename); 

138 out: 

739 return error; 

740 } 


以 前 讲 过 , 系统 调用 进入 内 核 时 , regs.ebx 中 的 内 容 为 应 用 程序 中 调用 相应 库 函 数 时 的 第 一 个 参数 。 
在 本 章 第 2 节 所 举 的 例子 中 ， 这 个 参数 为 指向 字符 串 “/bin/echo” 的 指针 。 现 在 ， 指 针 存 放 在 regs.ebx 
中， 但 字符 串 本 身 还 在 用 户 空间 中 ， 所 以 730 行 的 getname( ) 要 把 这 个 字符 串 从 用 户 空间 拷 页 到 系统 空 
间 ， 在 系统 空间 中 建立 起 一 个 副本 。 让 我 们 看 看 具体 是 怎么 做 的 。 函 数 getname( ) 的 代 个 在 fs/namei.c 
中 : 


[sys execve( ) > getname( )] 


129 char * getname(const char * filename) 


130 f 

131 char *tmp, *result; 

132 

133 result - ERR PTR(-ENOMEM) ; 

134 tmp = | getname( ); 

135 if (tmp { 

136 int retval = do getname(filename, tmp); 
137 

138 result - tmp; 

139 if (retval < 0) | 

140 putname (tmp) ; 

141 result = ERR PTR(retval); 
142 } 

143 } 

144 return result; 

145 } 


先 通过 _getname( ) 分 配 一 个 物理 页 i 而 作为 缓冲 区， 然后 调用 do. getname( JH P 5118145 ET 
串 。 那 么 ， 为 什么 要 专门 为 此 分 配 一 个 物理 贞 面 作为 缓冲 区 呢 ? 首先 ， 这 个 字符 串 确 有 可 能 相当 长 ， 
因为 这 是 “个 绝对 路 径 和 名。 其 次 ， 我 们 以 前 讲 过 ， 进 程 系统 空间 排 栈 的 大 小 是 大 约 7KB， 不 能 小 用 ， 
不 宜 在 getname( ) 中 定义 一 个 局 部 的 AKB 的 字符 数组 (注意 ， 局 部 变量 所 占据 的 空间 是 在 堆 栈 中 分 配 
(YW). PRR do_getname( ) 的 代码 也 在 文件 fs/namei.c '|!: 


[sys execve( ) > getname( ) > do getname( )] 


102 /* In order to reduce some races, while at the same time doing additional 
103 * checking and hopefully speeding things up, we copy filenames to the 
104 * kernel data space before using them.. 

105 * 


106 * POSIX. 1 2.4: an empty pathname is invalid (ENOENT). 
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static inline int do getname (const char *filename, char *page) 
{ 

int retval; 

unsigned long len = PATH MAX + 1; 


if ((unsigned long) filename >= TASK SIZE) { 
if (‘segment eq(get fs( ), KERNEL_DS)) 
return -EFAULT; 
} else if (TASK SIZE - (unsigned long) filename < PAGE SIZE) 
len - TASK SIZE - (unsigned long) filename; 


retval = strncpy from user((char *)page, filename, len); 
if (retval » 0) ( 

if (retval < len) 

return 0; 

return -ENAMETOOLONG ; 
) else if (!retval) 

retval = -ENOENT; 
return retval; 


) 


如 果 指 针 filename 的 值 大 于 等 于 TASK_SIZE， 就 表示 filename 实际 上 在 系统 空间 中 。 读 少 应 该 还 


记得 TASK SIZE 的 值 是 3GB 。 上 有 具体 的 拷贝 是 通过 stmncpy_from_user( ) 进 行 的 ， 代 码 见 
arch/i386/lib/usercopy.c: 


[sys execve( ) > getname( ) > do_getname( ) > strncpy. from user( )] 


100 
101 
102 
103 
104 
105 
106 
107 


long 
strncpy from user(char *dst, const char *sre, long count) 
{ 
long res = -EFAULT; 
if (access ok(VERIFY READ, src, 1)) 
.. do strncpy from user (dst, src, count, res); 
return res; 


} 


这 个 函数 的 主体 stenepy. from. user( ) 是 -个 宏 操 作 ， 也 在 同 . 源 文件 usercopy.c P, 与 第 3 章 小 介 


绍 过 


的 _generic_copy_from_user( ) 很 相似 ， 读 者 吕 以 白 行 对 赂 阅读 。 


在 系统 空间 中 建立 起 份 可 执行 文件 的 路 径 名 副本 以 后 ，sys_execvet ) 就 调用 do execve( )， 以 完 
成 其 主体 部 分 的 工作 。 当然 , 完成 以 后 还 要 通过 putname( ) 将 所 分 配 的 物理 页 面 释放 。 函数 do_execve( ) 
的 代码 在 fs/exec.c 中 ， 我 们 逐 段 地 往 下 看 : 


[sys execve( ) > do_execvet )] 


835 


/* 
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836 
837 
838 
839 
840 
841 
842 
843 
844 
845 
846 
847 
848 
849 
850 


exec 


阅读 
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* sys execve( ) executes a new program. 


*/ 


int do execve(char * filename, char ** argv, char ** cnvp, struct pi regs * regs) 


( 


struct linux binprm bprm; 


struct file *file; 


int retval; 
int i; 


file = open exec(filenamo); 


retval - PTR ERR(file); 


if (IS ERR(file)) 


return retval; 


显然 ， 先 上 将 给 定 的 可 执行 程序 文件 找到 并 打开 ，open_exec( ate ALK is np, RARUS E 


o 


假定 目标 文件 已经 打开 ， 下 一 


.C 中 ， 读 者 可 结合 “文件 系统 ”一 章 中 有 关 打 开 文件 操作 的 内 容 ， 特 别 是 path_walk( ) 的 代 但 自行 


步 就 要 从 文件 中 装 入 可 执行 程序 了 。 内 核 中 为 可 执行 程序 的 阔 入 定 


义 了 一 个 数据 结构 linux_binprm， 以 便 将 运行 个 可 执行 多 件 时 所 需 的 信息 组 织 在 -… 起 ， 这 是 在 
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20 


2l 
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851 
852 


de/linux/binfmts.h 定义 的 : 


/* 


* This structure is used to hold the arguments that are used when 


loading binaries. 
*/ 


struct linux binprm! 


char buf[BINPRM BUF SIZE]; 
struct page *page [MAX ARG PAGES]; 
unsigned long p; /* current top of mem */ 


int sh bang; 


struct file * file; 


int e uid, e gid; 


kernel cap t cap inheritable, cap permitted, cap effective; 


int argc, envc; 
char * filename; 


/* Name of binary */ 


unsigned long loader, exec; 


Fs 


其 中 各 个 成 分 的 作用 读 了 下 面 的 代码 就 会 清楚 。 我 们 继续 在 do, execve( ) 中 往 下 看 : 


execve( ) > do execve( )] 


bprm.p = PAGE SIZE*MAX ARG PAGES-sizeof (void *); 


memset (bprm. page, 
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0, MAX ARG PAGES'*sizeof (bprm. page [0])) 
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853 

854 bprm.file = file; 

855 bprm. filename - filename; 

856 bprm.sh bang - 0; 

857 bprm. loader = 0; 

858 bprm. exec = 0; 

859 if ((bprm argc = count (argv, bprm.p / sizeof (void *))) < 0) { 
860 allow write access(file); 

861 fput (file); 

862 return bprm. argc; 

863 } 

864 

865 if ((bprm. enve = count(envp, bprm.p / sizeof (void *))) < 0) { 
866 allow write access (file); 

867 fput (file); 

868 return bprm. envc; 

869 } 

870 

871 retval = prepare binprm(&bprm); 

872 if (reival < 0) 

878 goto out; 

874 

875 retval = copy strings kernel(l, &bprm. filename, &bprm); 
876 if (retval < 0) 

877 goto out; 

878 

879 bprm. exec - bprm.p; 

880 retval = copy strings(bprm.envc, envp, &bprm); 
881 if (retval < 0) 

882 goto out; 

883 

884 retval = copy strings (bprm. argc, argv, &bprm); 
885 if (retval < 0) 

886 goto out; 

887 


代码 中 的 linux_binprm 数据 结构 bprm ETME. ER open_exec( ) 返 四 一 个 file 结构 指针 ， 代 
表 着 读 入 可 执行 文件 的 上 上 下文， 所 以 将 其 保存 在 数据 结构 bprm 中 。 变 量 bprm.sh_bang AA ULES oy Hh 
行文 件 的 性 质 ， 当 可 执行 文件 十“ 个 Shell 过 程 〈Shell Script, Hd Shell 诺言 编写 的 命令 文件 ， 由 shell 
解释 执行 ) 时 置 为 1。 而 现在 还 不 知道 ， 所 以 暂且 将 其 置 为 0， 也 就 是 先 假定 为 : 进 制 文件 。 数 据 结构 
中 的 其 他 两 个 变量 也 暂时 设置 成 0。 接着 就 处 理 可 执行 文件 的 参数 和 环境 变量 。 

与 可 执行 文件 路 径 名 的 处 理 办 法 “ 样 ， 等 个 参数 的 最 大 长 度 也 定 为 一 个 物理 真 面 ,所 以 bprm 中 有 
一 个 页 面 指针 数组 ， 数 组 的 大 小 为 允许 的 最 大 人 参数 个 数 MAX_AGE_ PAGES， 目前 这 个 常数 定义 为 32。 
前 而 已 通 过 memset( ) 将 这 个 指针 数组 初始 化 成 全 0。 现 在 将 bprm.p 设置 成 这 些 真 面 的 总 和 减 去 -个 指 
外 的 大 小 ， 因 为 第 0 个 参数 也 就 是 argv[0] 是 可 执行 程序 本 身 的 路 径 名 。 上 曙 数 count ) 是 在 exec.c 中 定义 
的 ， 这 里 用 它 对 字符 中 指针 数组 argv[ ] 中 参数 的 个 数 进行 计数 ， 而 bprm.psizeoftvoids) 表 示人 允许 的 最 大 
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值 。 同 样 ， 对 作为 参数 传 过 米 的 坏 境 变 量 也 要 通过 count( ) 计 数 。 注 意 这 里 的 数组 argv[ ] 和 envp[ ] 是 在 
用 户 空 间 而 不 在 系统 空间 ， 所 以 计数 的 操作 并 不 那么 简单 。 函 数 count( ) 的 代码 在 fs/exec.c 中 ， 它 本 身 
的 代码 很 简单 ， 但 是 引用 的 宏 定义 get user( ) 却 颇 有 些 挑战 忻 ， 值 得 一 读 。 它 也 与 第 3 章 中 介绍 过 的 
generic. copy. from user( ) 相 似 , FANS ES BAILA WBA. AAU TRAST. include/asm-i386/uaccess.h 
All arch/i386/lib/getuser.S 中 ， 调 用 的 路 径 为 [count( ) > get_user( ) > _get_user( ) > _get_user_4( )]。 如 果 
count( ) 失 败 ， 邮 返回 负 值 ， 则 要 对 日 慰 文 件 执行 一 次 allow_write_access( )。 这 个 函数 是 与 
deny. write access( ) 配 对 使 用 的 ， 目 的 在 于 防止 其 他 进程 《可 能 在 另 一 个 CPU 上 运行 ) 在读 入 可 执行 
文件 期 间 通 过 内 存 映射 改 变 它 的 内 容 〈 详 见 “ 文 件 系 统 ” 以 及 系统 调用 mmap( ))。 与 其 配对 的 
deny. write access( ) 是 在 打开 可 执行 多 件 时 在 open_exec( ) 中 调用 的 。 

完成 了 对 参数 和 环境 变量 的 计数 以 后 ，do_execve( ) 又 调用 prepare_binprm( )， 进 一 步 做 数据 结构 
bprm 的 准备 工作 ， 从 可 执行 文件 中 读 入 开头 的 128 个 字 节 到 linux_binprm 结构 bprm 中 的 缓冲 区 。 当 
然 ， 企 读 之 前 还 要 先 恰 验 当前 进程 是 否 有 这 个 权力 ， 以 及 该 文件 是否 有 可 执行 属性 。 如 果 可 执行 文件 
上 共有 “set uid” 特 性 则 要 作 相 应 的 设置 。 这 个 函数 的 代码 也 在 exec.c 中 。 由 于 涉及 文件 操作 的 细节 ,我 
们 建议 读者 企 学 习 了 “文件 系统 ”以 后 再 回 过 来 自行 阅读 。 此 处 先 说明 为 什么 只 是 先 读 128 ET. 
这 是 因为 ， 不 管 日 标 文件 是 ef 格式 还 是 aout 格式 ， 或 者 别 的 格式 ， 在 开头 128 个 字 节 中 都 包括 了 关 
于 可 执行 文件 属性 的 必要 而 充分 的 作息。 等 一 下 读者 就 会 看 到 这 些 信息 的 几 途 。 

最 后 的 准备 工作 就 是 把 执行 的 参数 ， 也 就 是 argv ]， 以 及 运行 的 环境 ， 也 就 是 envp[ ]， 从 用 户 空 
间 拷 站 到 数据 结构 bprm 中 。 其 中 的 第 1 个 参数 argv[0] 就 是 可 执行 文件 的 路 径 名 , GA bprm filename 
中 了 了 ， 氛 以 用 copy. strings kemnel( ) 从 系统 空间 中 拷贝 ， 其 他 的 就 此 用 copy. strings( ) 从 用 户 空间 拷贝 。 

全 此 ， 所 有 的 准备 工作 都 已 完成 ， 所 有 必要 的 信息 都 已 经 搜集 到 了 linux binprm 结构 bprm m, 
接 下 来 就 此 装 入 并 运行 目标 程序 了 (exec.c): 





[sys execve( ) > do_execve( )] 


888 retval = search binary handler (&bprm, regs) ; 
889 if (retval >= 0) 

890 /* execve success */ 

891 return retval; 

892 

893 out: 

894 /* Something went wrong, return the inode and free the argument pages*/ 
895 allow write access (bprm. file); 

896 if (bprm. file) 

897 fput (bprm. file); 

898 

899 for (i = 0 ; i < MAX ARG PAGES ; i++) { 
900 struct page * page - bprm.page[il: 

901 if (page) 

902 . free page (page) ; 

903 } 

904 

905 return retval; 

906  ] 
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WA, IX LINK search_binary_handier(). EVRA SIXT RMAWS BT, SEPA 个 大 概 。 内 
核 中 有 一 个 队列 ， 叫 formats， 桂 在 此 队列 中 的 成 员 是 代表 着 各 种 可 执行 文件 格式 的 “代理 人 ” 每 个 
成 员 只 认识 并 日 处 理 种 特定 格式 的 可 执行 文件 的 运行 。 在 前 面 的 准备 阶段 中 ， 已 经 从 可 执行 文件 头 
部 读 入 了 128 个 字 节 存放 人 在 bprm 的 缓冲 |x， 而 且 运 行 所 需 的 参数 和 环境 变量 也 已 经 收集 看 bprm 中 。 
现在 就 由 formats 队列 中 的 成 员 逐 个 来 认领 ， 谁 要 古 辨 认 到 了 它 所 代表 的 可 执行 文件 格式 ， 运 行 的 事 就 
交 给 它 。 要 是 玫 不 认识 呢 ? 那 就 根据 文件 头 部 的 信息 再 找 找 看 ， 是 否 有 为 此 种 格式 设计 ， 但 是 作为 可 
鳃 态 安 装 模 岂 实现 的 “代理 人 ”存在 十 文件 系统 中 。 如 果 有 的 话 就 把 这 模块 安装 进 米 并 日 将 其 挂 入 到 
formats 队列 中 ， 然 后 让 formats 队 例 中 的 各 个 “代理 人 ”再 来 试 一 次 。 

FRA search_binary_handler( ) 的 代码 也 在 exec.c 中 ， 其 中 有 一 段 是 专门 针对 alpha 处 理 器 的 条 件 纺 
译 ， 在 下 列 的 代码 中 跳 过 了 这 上 段 条 件 编译 语句 : 


[sys execve( ) > do execve( ) > search_binary_handler( )] 


141 /* 

748 * cycle the list of binary formats handler, until one recognizes the image 
749 */ 

750 int search binary handler (struct linux binprm *bprm, struct pt regs *rogs) 
751 { 

752 int try, retval=0; 

753 struct linux binfmt *fmt; 


754 #ifdef | alpha | 


785 #endif 

786 for (try=0; try<2; try++) { 

787 read lock(&binfmt lock); 

788 for (fmt = formats ; fmt ; fmt = fmt—>next) { 
189 int (fn) (struct linux binprm *, struct pt rogs *) = fmt >1oad binary; 
790 if (!fn) 

791 continue; 

792 if (!try_inc_ mod count (fmt-^»module)) 
193 continue; 

194 read unlock(&binfmt lock); 

195 retval = fn(bprm, regs); 

796 if (retval >= 0) { 

797 put binfmt (fmt) ; 

798 allow_write_access(bprm->file) ; 
799 if (bprm->file) 

800 {put (bprm->file) : 

801 bprm->file = NULL; 

802 current->did exec = 1; 

803 return retval; 

804 } 

805 read_lock (&binfint_lock) ; 

806 put_binfmt (fmt) ; 

807 if (retval != -ENOEXEC) 

808 break; 
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809 if (!bprmofile) | 

810 read unlock(&binfmt lock); 

811 return retval; 

812 } 

813 } 

814 read_unlock (&binfmt_lock) ; 

815 if (retval != ENOEXEC) { 

816 break; 

817 #ifdef CONFIG KMOD 

818 )elsel 

819 #define printable(c) (((c)=="\t’) || (77 Ww) \ 
|| (0x20€-(c) && (c)<=0x7e)) 

820 char modname [20] ; 

821 if (printable(bprmbuf[0]) && 

822 printable (bprm->buf [1]) && 

823 printable (bprm->buf{2]) && 

824 printable (bprm->buf [3])) 


825 break; /* -ENOEXEC */ 
826  sprintf(modname, “binfmt~%04x”, 
*(unsigned short *) (&bprm->buf[2])); 
827 request module (modname) ; 
828 Hendif 
829 } 
830 } 
831 return retval; 
832 } 


程序 中 有 两 层 胶 套 的 for 循环 。 内 层 是 对 formats 队列 中 的 每 个 成 员 循环 ， 让 队列 中 的 成 员 逐 个 试 
试 它 们 的 load_binary( ) 函 数 ， 看 看 能 奋 对 上 号 。 如果 对 上 了 号 ， 那 就 把 目标 文件 装 入 并 将 其 投入 运行 ， 
再 返回 一 个 止 数 或 0。 当 CPU 从 系统 调用 返 同 时 ， 该 日 标 文件 的 执行 就 真 止 开 始 了 。 合 则 ， 如 果 不 能 
辨识 ， 或 者 在 处 理 的 过 程 中 出 了 错 ， 就 返回 一 个 负数 。 出 错 代码 一 ENOEXEC 表 小 只 是 对 个 上 号 ， 而 
并 没有 发 生 其 他 的 错误 ， 所 以 循环 回去 ， 让 队 多 中 的 下 个 成 员 再 来 试 试 。 但 是 如 果 出 了 错 而 又 并 不 
是 一 ENOEXEC， 那 就 表示 对 上 了 号 但 出 了 其 他 的 错 ， 这 就 不 用 再 计 其 他 的 成 员 来 试 了 。 

肉 层 循环 结束 以 后 ， 如 果 失 败 的 原因 是 一 ENOEXEC， 浆 说 明 队 询 中 所 有 的 成 员 都 不 认识 目标 文件 
的 格式 。 这 时 候 ， 如 果 内 核 支 持 动态 安装 模块 〈 取 次 十 编译 选择 项 CONEFIG_KMOD )， 就 根据 目标 文 
件 的 第 2 和 第 3 个 字 节 生成 个 binfmt 模块 名 , 通过 request_module( ) 试 着 将 相应 的 模块 装 入 ( 见 本 书 
“文件 系统 ”和 “设备 驱动 ”两 章 中 的 有 关内 容 )。 外 层 的 for 循环 共 进 行 两 次 ， 正 是 为 了 在 安装 了 模 
块 以 后 再 来 试 次 。 l 

能 在 Linux 系统 上 运行 的 可 执行 程序 的 开头 几 个 字 节 ， 特 别 是 知 头 4 个 字 节 ， 往 往 构 成 TI 
的 magic number， 如 果 把 尼 拆 开 成 宁 节 ， 则 往往 又 是 说 明文 件 格式 的 字符 。 例 如 ，elf 格式 的 可 执行 文 
件 的 头 四 个 字 节 为 “0x7F”"“e” "1" 4B "£^, nfi java 的 可 执行 文件 头 部 四 个 字 节 则 为 “c”、“a”、“f” 
和 “e”。 如 果 叶 执行 文件 为 Shell 过 程 或 perl 文件 ， 即 第 一 行 的 格式 为 #! bin/sh 或 #1/usr/bin/perl， 此 时 
第 -一 个 字符 为 “#” 第 -个 字符 为 “!”， 后 面 是 相应 解释 程序 的 路 径 名 。 

数据 结 梅 linux_binfmt 定义 于 include/linux/binfmts.h H, 前面 已 经 看 到 过 了 。 结 移 中 有 :个 函数 指 
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针 ，load_binary 用 来 装 入 可 执行 程序 ，load_shlib 出 来 装 入 动态 安装 的 公用 库 程 序 ， 而 core, dump 的 作 
用 则 不 言 自明 。 显 然 ， 这 里 最 根本 的 是 load_binary。 间 时 ， 如 果 不 搞 清 具体 的 装载 程序 怎样 工作 ， 就 
很 难 对 execve( )、 进 而 对 Linux 进程 的 这 行 有 深刻 的 理解 。 下 而 我 们 以 a.out 格式 为 例 ， 讲 述 装 入 并 局 
动 执行 目标 程序 的 过 程 。 其 实 ，a.out 格式 的 可 执行 文件 已 经 渐渐 被 淘汰 了 ， 取 前 代 之 的 是 elf 格式 。 
但 是 ，a.out 格式 要 简单 得 多 ， 并 卫 方 便 我 们 通过 它 来 讲述 目标 程序 的 装载 和 投入 运行 的 过 程 ， 所 以 从 
篇 幅 考 虑 我 们 选择 了 a.out。 读 者 在 搞 清 了 aout 格式 的 装载 和 投 运 过 程 以 后 ， 可 以 自行 阅读 有 关 elf & 
式 的 相关 代码 。 


44.1 aout 格式 目标 文件 的 装载 和 投 运 


与 aout 格式 可 执行 文件 有 关 的 代码 都 在 fs/binfmt. aout.c F. ARE aout 格式 的 linux_binfmt 数据 
结构 ， 这 个 数据 结构 就 十 在 formats 队列 中 代表 aout 格式 的 : 


38 static struct linux binfmt aout format = | 
39 NULL, THIS MODULE, load aout binary, 

load aout library, aout core dump , PAGE SIZE 
40 i 


RA G 5 fU E T] cds £M BR DIST E AAR RAS aout 格式 月 标 文件 的 函数 为 
load aout binary( )。 可 以 想像 ， 这 是 个 比较 复杂 的 过 程 ， 函 数 也 比较 大 。 我 们 还 是 老 办 法 ， RB 
往 下 看 。 其 代码 在 binfmt_aout.c F: 


[sys execve( ) > do execve( ) > search. binary handler( ) > load, aout. binary( )] 


249 /* 

250 * These are the functions used to load a. out style executables and shared 
251 * libraries. There is no binary dependent code anywhere else. 

252 */ 

253 


254 static int load_aout_binary (struct linux_binprm * bprm, 
struct pt regs * regs) 


255 — 4 
256 struct exec ex; 
257 unsigned long error; 
258 unsigned long fd offset; 
259 unsigned long rlim; 
260 int reival; 
261 
262 ex = *((struct exec *) bprm >buf); /* exec-header */ 
263 if ((N MAGIC(ex) != ZMAGIC && N MAGIC(ex) !- OMAGIC && 
264 N MAGIC(ex) != QMAGIC && N MAGIC(ex) != NMAGIO) :| 
265 N TRSIZE(ex) || N DRSIZE(ex) | 
266 bprm->file >f_dentry—>d_inode->i_size < 

ex. a_toxttex, a_datatN SYMSTZE (ex) *N TXTOFE(ex)) ( 
267 return —ENOEXEC; 
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首先 是 检查 目标 文件 的 格式 ， 看 看 是 否 对 上 号 。 所 有 aout 格式 可 执行 文件 〈 二 进 制 代码 ) 的 开头 
都 应 该 是 一 个 exec 数据 结构 ， 这 是 在 include/asm-i386/a.out.h 中 定义 的 : 


4 struct exec 

5 f 

6 unsigned long a info; /* Use macros N MAGIC, etc for access */ 

7 unsigned a text; /* length of text, in bytes */ 

8 unsigned a data; /* length of data, in bytes */ 

9 unsigned a bss; /* length of uninitialized data area for file, in bytes */ 

10 unsigned a syms; /* length of symbol table data in file, in bytes*/ 
11 unsigned a entry; /* start address */ 
12 unsigned a trsize; /* length of relocation info for text, in bytes */ 
13 unsigned a drsize; /* length of relocation info for data, in bytes */ 
14 Hh 

15 


16 Hdefine N_TRSIZE (a) — ((a).a trsize) 
17 tdefine N_DRSIZE (a) — ((a).a drsize) 
18 define N SYMSIZE(a) ((a).a syms) 


结构 中 的 第 一 个 无 符号 长 整数 a_info 在 逻辑 上 分 成 两 部 分 ;其 高 16 位 是 .个 代表 日 标 CPU 类 型 
RES, IIT i386CPU 这 部 分 的 值 为 100 (0x64); 而 低 16 位 就 是 magic number. Ai, aout 文件 的 
magic number 并 不 像 在 有 的 格式 中 那样 是 可 打印 字符 ， 侧 是 表示 某 些 属性 的 编码 ， 一 共有 四 种 ， 即 
ZMAGIC、OMAGIC、QMAGIC 以 及 NMAGIC， 这 是 在 include/linux/a.out.h 中 定义 的 ; 


60 /* Code indicating object file or impure executable.  */ 

61 #define OMAGIC 0407 

62 /* Code indicating pure executable. */ 

63 define NMAGIC 0410 

64 /* Code indicating demand-paged executable.  */ 

65 define ZMAGIC 0413 

66 /* This indicates a demand-paged executable with the header in the text. 


67 The first page is unmapped to help trap NULL pointer references */ 
68 Hdefine QMAGIC 0314 
69 


70 /* Code indicating core file. */ 
71 #define CMAGIC 0421 


如 果 magic number 不 符 ， 或 者 exec 结构 中 提供 的 信息 与 实际 不 符 ， 那 就 不 能 认为 这 个 日 标 文 件 是 
aout 格式 的 ， 所 以 返回 一 ENOEXEC。 
继续 在 binfmt aout.c 中 往 下 看 ， 


[sys_execve( ) > do execve( ) > search, binary, handler( ) > load, aout. binary( )] 
210 fd offsct = N_TXTOFF (ex) ; 
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211 

212 /* Check initial limits. This avoids letting people circumvent 
213 * size limits imposed on them by creating programs with large 
214 * arrays in the data or bss. 

215 */ 

276 rlim = current->rlim[RLIMIT DATA]. rlim cur; 

271 if (rlim >= RLIM INFINITY) 

278 rlim = ^0; 

279 if (ex.a data + cx.a bss > rlim) 

280 return -ENOMEM; 

281 

282 /* Flush all traces of the currently running executable */ 

283 retval = flush old exec(bprm); 

284 if (retval) 

285 return retval; 

286 

287 /* OK, This is the point of no return */ 


各 种 aout 格式 的 文件 因 日 标 代 但 的 特性 不 同 ， 其 正文 的 起 始 位 置 也 就 不 同 。 为 此 提供 了 一 个 宏 操 
作 N_TXTOFF()， 以 便 根据 代码 的 特 忻 取 得 正文 在 日 标 文件 中 的 起 始 位 置 ， 这 是 在 include/Iinux/a.out.h 
中 定义 的 : 


80 #define N HDROFF(x) (1024 - sizcof (struct exec)) 

8l 

82 #if !defined (N TXTOFT) 

83  #det'ine N TXTOFF (x) \ 

84 (N MAGIC(x) == 7MAGIC ? N HDROFF((x)) + sizeof (struct exec) : \ 
85 (N MAGTC(x) == QMAGIC ? 0 : sizeof (struct exec))) 

86 Sendif 


以 前 曾经 讲 过 ， 每 个 进程 的 task. struct 结构 中 有 个 数组 nim， 规 定 了 该 进程 使 用 各 种 资源 的 限制 ， 
其 中 也 包括 对 用 寺 数 据 的 内 存 空 间 的 限制 。 所 以 ， 上 月 标 文件 所 确定 的 data 和 bss 两 个 “ 段 ” 的 总 和 不 
能 超出 这 个 限制 。 

顺利 通过 了 这 些 检验 就 表示 共 备 了 执行 该 日 标 文件 的 条 件 ， 所 以 就 到 了 “与 过 去 告别 ”的 时 候 。 
这 种 “全 别 过 去 ”意味 者 放 痉 从 父 进程 “ 继 请 ”上 来 的 全 部 用 户 空间 ， 不 管 是 通过 复制 还 是 通过 共享 
继承 下 来 的 。 不 过 ， 下面 读者 会 看 到 ， 这 种 告别 也 并 站 物 底 的 决裂 。 

FR 2 flush. old. exec( ) 的 代 倘 也 在 exec.c 中 : 


[sys_execve( ) > do execve( ) > search binary handler( ) > load_aout_binary( ) > flush, old. exec( )] 


523 int flush old exec(struct linux binprm * bprm) 


524 i 

525 char * name; 

526 inl i, ch, retval; 

527 struct signal struct * oldsig; 
528 
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560 


562 
563 
564 
565 
566 
067 
568 
569 
510 
571 
572 
513 
574 
975 
516 
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* Make sure we have a private signal table 
*/ 

oldsig = current—>sig; 

retval = make private_signals( ); 

if (retval) goto flush failed; 


/* 

* Release all of the old mmap stuff 
*/ 

retval - exec mmap( ); 

if (retval) goto mmap failed; 


/* This is the point of no return */ 
release old signals(oldsig); 


current-^sas ss sp = current-?sas ss sive = 0; 


if (current-^euid == current->uid && current—>egid == current->gid) 
current-^dumpable = 1; 


name = bprm-^filenamo; 


for (i20; (ch = *(name++)) != 'N0':;) | 
if (ch ==’/') 
i = 0; 
else 
if (i € 15) 


current >comm[it+] - ch; 
) 
current-^comm[i] =’ \0’; 
flush thread( ); 
de_thread (current) ; 
if (bprm->c_uid != current->euid || bprm->e gid !- current~>egid 
permission (bprm->file->f_dentry—>d_inode, MAY_READ)) 


current-»dumpable = 0; 


/* Àn exec changes our domain. We are no longer part of the thread 
group */ 


current-»self exec id**; 


flush signal handlers (current); 
flush old files(current >files) ; 


return 0; 


577 
578 
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580 
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583 
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mmap failed: 

flush failed: 
spin lock irg(&current-^sigmask lock); 
if (current—sig != oldsig) 

kfree(current—^sig); 

current-^sig - oldsig; 
spin unlock irq(&current-5sigmask lock); 
return retval; 


} 


BCR fa Ss CPT) AR. BRAT UR, -MERRE E AD RET ARE E 
量 表 ， 虽 然 运用 的 层次 不 同 ， 其 概念 是 相似 的 。 当 子 进 程 被 创建 出 来 时 ， 父 进程 的 信号 处 理 表 可 
经 复制 过 来 ， 但 也 有 可 能 只 是 把 父 进程 的 信号 处 理 表 指 针 复 制 了 过 来 ， 而 通过 这 指针 来 共享 父 进 
信号 处 理 表 。 现 在 ， 子 进程 最 终 要 “自立 门户 ”了 ， 所 以 要 看 一 上 下， 如 果 还 在 共享 父 进程 的 信号 
表 的 话 ， 就 要 把 它 复制 过 来 。 正 因为 这 样 ，make_private_signals( ) 的 代码 与 do_fork( ) 中 调用 的 


copy. sighand( ) 基 本 相同 。 


[sys. execve( ) > do. execve( ) > search_binary_handler( ) > load_aout_binary( ) > flush, old. exec( )> 
make private signals( )] 


429 
430 
431 
432 
433 
434 
435 
436 
437 
438 
439 
440 
44] 
442 
443 
444 
445 
446 
447 
448 
449 
450 
451 
452 


/* 
* This function makes sure the current process has its own signal table, 
so that flush signal handlers can later reset the handlers without 


* 


* disturbing other processes. (Other processes might share the signal 
* table via the CLONE SIGNAL option to clone( ).) 
*/ 
static inline int make private signals (void) 
{ 
struct signal struct * newsig; 
if (atomic_read(&current->sig—count) <= 1) 
return 0; 
newsig = kmem cache alloc (sigact cachep, GFP KERNEL); 
if (newsig -- NULL) 
return -ENOMFEM; 
spin lock init (&newsig—>siglock) ; 
atomic set(&newsig-^?count, 1); 
memcpy (newsig->action, current—>sig->action, sizeof (newsig—>action)); 
spin_lock_irg(&current—>sigmask lock); 
current-^sig - newsig; 
spin unlock irq(&current-^sigmask lock); 
return 0; 
} 


读者 也 许 要 问 : 既然 最 终 人 还 是 要 把 它 复 制 过 来 , 何不 在 当初 一 步 就 把 它 复制 好 了 ? 这 就 是 所 谓 “lazy 


computation 的 概念 : 一 件 事情 只 有 在 此 做 不 可 时 才 做 ,虽然 新 创建 的 进程 一 般 都 会 执行 execve( ),“ 走 
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Bani, 但 这 是 没有 保证 的 。 如 果 创 建 的 是 线程 那 就 不 ，` 定 会 执行 execve( )， 如 果 一 律 在 创建 时 就 
复制 就 可 能 造成 浪费 而 且 不 符合 旨 求 。 再 说 ， 检 查 -- 下 是否 还 在 与 父 进程 共享 信号 处 理 表 《通过 检查 
共享 计数 ) 所 花费 的 代价 古 很 小 的 。 当 然 ， 如 果子 进程 起 通过 fork ) 创 建 出 来 的 话 〈 而 不 是 vfork( mk 
__clone( ))， 那 就 定 都 已 经 复制 好 了 ， 这 里 的 make_private_signals( ) 只 不 过 是 检查 :下 共享 计 数 就 马 
上 问 来 了 。 

相 比 之 下 ，exec_mmap( ) 是 更 为 关键 的 行动 ,从 父 进程 继承 下 来 的 用 户 空间 就 是 在 这 里 放弃 的 。 其 
代码 在 同一 文件 (exec.c) ti 


[sys execve( ) > do_execve( ) > search_binary_handler( ) > load_aout_binary( ) > flush_old_exec( ) 
> exec_mmap( )] 


385 static int exec_mmap (void) 

386  ( 

387 struct mm struct * mm, * old mm; 

388 

389 old mm = current-^mm; 

390 if (old mm && atomic read(&old mm->mm uscrs) == 1) ( 
391 flush cache mm(old mm); 

392 mm release( ); 

393 exit mmap(old mm); 

394 flush tlb mm(old mm); 

395 return 0; 

396 } 

397 

398 mm = mm alloc( ); 

399 if (mm) | 

400 struct mm struct *active_mm = current-^active mm; 
401 

402 if (init new context(current, mm)) | 
403 mmdrop (mm) ; 

404 return -ENOMEM; 

405 } 

406 

407 /* Add it to the list of mm s */ 

408 spin lock(&mmlist lock); 

409 list add(&mm—>mmlist, &init mm.mmlist); 
410 spin unlock(&mmiist lock); 

411 

412 task_lock (current) ; 

413 current-^mm = mm; 

414 current-^activo mm = mm; 

415 task_unlock (current); 

416 activate mm(active mm, mm); 

417 mm release( ); 

418 if (old mm) { 

419 if (active mm !- old mm) BUG( ); 


. 318 . 


第 4 章 进程 与 进程 调度 


420 mmput (old mm); 
421 return 0; 

422 } 

423 mmdrop (active_mm) ; 
424 return 0; 

425 ] 

426 return —ENOMEM; 

427 } 


AE THERA as n] ny REE SERA Ss TA A ia tT RE aM T et aL Aut 
程 的 用 户 空间 ， 这 … 点 只 要 检查 一 下 对 用 户 空间 、 也 就 是 current->mm HRE Boye. Wks 
计数 为 1 时 ， 才 只 对 此 空间 的 使 用 是 独占 的 ， 也 就 是 说 这 是 从 父 进程 复制 过 来 的 ， 那 就 要 先 释 放 
mm struct 数据 结构 以 下 的 所 有 vm. area, struct 数据 结构 (但 是 不 包括 mm struct 结构 本 身 )， 并 且 将 页 
面 表 中 的 表 项 都 设置 成 0。 共 体 地 这 是 由 exit_mmap( ) 完 成 的 ， 其 代码 在 mm/mmap.c 中 ， 读 者 串 自 行 
阅读 。 在 调用 exit_mmap( ) 之 前 还 调用 了 一 个 函数 mm_release( )， 对 此 我 们 将 在 稍 后 加 以 讨论 ， 因 为 在 
后 面 也 调用 了 这 个 函数 。 全 于 flush cache mm( ) 和 flush_tlb_mm( )， 那 只 是 使 高 速 缓存 与 内 存 相 一 致 ， 
不 在 我 们 现在 关心 之 列 ， 而 此 前 者 对 i386 处 理 器 而 言 根 本 就 是 空 语 多 。 这 时 倒是 要 间 和 句 ， 人 在 父 进程 
fork( ) 子 进程 的 时 候 ， 闻 芋 藻 昔 地 复制 了 代 友 用 户 空间 的 所 有 数据 结构 ， 难 道 有 的 就 在 于 稍 后 在 执行 
execve( ) 时 又 辛 辛 营 苦 把 它们 全 部 释放 ? BASH, (BIA? 是 的 ， 这 确实 不 合理 。 这 就 是 在 有 了 
fork( ) 系 统 调用 以 后 又 增 如 了 一 个 vfork( ) 系 统 调用 (从 BSD Unix 开始 ) 的 原因 。 让 我 们 回顾 下 
sys_fork( ) 与 sys_vfork( )¢E V4 A] do. fork( ) 时 的 不 同 (process.c): 


690 asmlinkage int sys fork(struct pt regs regs) 


691 { 
692 return do_fork(SIGCHLD, regs.esp, &regs, 0); 
693.  ) 


717 asmlinkage int sys vfork(struct pt regs regs) 

718 | 

719 return do fork(CLONE VFORK | CLONE VM | SIGCHLD, regs.esp, &regs, 0); 
720. ) 


ny KL, sys vfork( ) 在 调用 do_fork( ) 时 比 sys. fork() T PERG. -AiE CLONE_VFORK, 5j 
一 个 是 CLONE VM. ?4 CLONE VM 标志 位 为 1 时， 内核 并 不 将 父 进 程 的 用 户 空间 (数据 结构 ) 复制 
给 予 进程 ， 侧 上 只是 将 指向 mm struct 数据 结构 的 指针 复制 给 子 进 程 ， 让 子 进程 通过 这 个 指针 来 共享 父 
进程 的 用 户 空间 。 这 样 ， 创 建 了 进程 时 可 以 免 太 复制 用 户 空间 的 麻烦 。J 调 当 子 进程 调用 execve( ) 叶 就 
可 以 跳 过 释放 用 户 空间 这 _- 步 ， 起 接 就 为 了 进程 分 配 新 的 用 户 空间 。 但 是 ， 这 样 -- 来 省 事 是 省 蒜 了 ， 
HUA) RET KET AA. DART UE, fork( ) 以 后 ，execvet ) 之 阳 ， 子 进程 虽然 有 它 白 己 的 一 整套 代表 用 广 
空间 的 数据 结构 ， 但 是 最 终 在 物理 上 还 是 与 父 进程 共用 相同 的 页 而 。 不 过 ， 由 十 子 进 各 有 上 其 独 立 的 页 
面目 求 与 页 面 表 ， 可 以 在 子 进 程 的 页 面 表 里 把 对 所 有 页 向 的 访问 权限 都 设置 成 “只 读 ”。 这 样 ， 当 子 进 
程 企图 改变 某 个 页 而 的 内 容 时 ， 就 会 因 权限 不 符 而 导 禾 页 和 面 异 常 ， 在 页 而 措 常 的 处 理 程序 中 为 子 进 称 
复制 历 需 的 物理 页 而 ， 这 卡 叫 “copy_on_write”。 相 比 之 下 ， 如 果 了 进程 与 父 进 程 共 享用 户 空间 ， 也 就 
是 共享 包 托 页 出 表 企 内 的 所 有 数据 结构 ， 那 就 无 法 实施 "copy_on_write" 了 。 此 时 子 进 程 所 写 入 的 内 容 
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就 真正 进入 了 父 进程 的 空间 中 。 我 们 知道 ， 当 个 进程 在 用 广 袍 间 运 行 时 ， 其 维 栈 也 在 用 户 空间 。 这 
意味 着 在 这 种 情况 下 子 进程 可 以 改变 父 进程 的 堆栈 ， 反 过 来 父 进程 也 可 以 改变 子 进程 的 堆栈 ! 因为 这 
个 原因 ，vfork( ) 的 使 用 是 很 危险 的 ， 在 了 进程 尚未 放 佐 对 父 进 程 用 户 空间 的 共享 之 前 ， 绝 不 能 让 两 个 
进程 都 进入 系统 空间 运行 。 所 以 ， 在 sys_vfork( ) 调 用 do_fork( ) 时 结合 使 用 了 另 一 个 标志 位 
CLONE_VFORK。 当 这 个 标志 位 为 1 时 ， 父 进程 在 创建 了 子 进程 以 后 就 进入 睡眠 状态 ， 等 候 子 进程 首 
过 execve( ) 执 行 男 个 目标 程序 , 或 者 通过 exit eaa 在 这 两 种 情况 下 子 进程 部 会 释放 其 共享 的 
州 户 空间 ， 使 父 进 称 可 以 安全 地 继续 过 行 。 即 使 如 此 ， 也 还 是 有 危险 ， 子 进程 绝对 不 能 从 调用 vfork() 
的 那个 函数 中 返回 ， 人 省 则 还 是 可 能 破坏 父 进程 的 返 同 地 十 。 所 以 ，vfork( ) 实 际 上 是 建立 在 了 进程 在 创 
建 以 后 立即 就 会 调用 execvec ) 这 个 前 提 之 上 的 。 

规 么 ,怎样 使 父 进程 进入 睡 距 而 等 待 子 进程 调用 execve( ) 或 exit( ) 昵 ? 当然 可 以 有 不 同 的 实现 。 读 
者 已 经 在 do. fork ) 的 代码 中 看 到 了 内 核 让 父 进程 在 “个 0 资源 的 “信号 量 ” 上 执行 一 次 down( YE Il 
进入 睡眠 的 安排 ， 这 里 的 mm_release( ) 则 让 子 进程 在 此 信号 量 [执行 一 次 up( ) 拘 作 将 父 进程 唤醒 。 郑 
数 mm release( ) 的 代码 在 fork.c 中 : 





[sys_execve( ) > do execve( ) > search_binary_handler( ) > load aout binary( ) > 
flush. old, exec( )» exec. mmap( ) > mm release( )] 


255 /* Please note the differences between mmput and mm release 
256 * mmpul is called whenever we stop holding onto a mm struct, 
257 * error success whatever. 

258 * 

259 * mm release is called after a mm_struct has been removed 
260 * from the current process. 

261 * 

262 * This difference is important for error handling, when we 
263 * only half set up a mm struct for a new process and need to restore 
264 * the old one. Because we mmput the new mm struct before 
265 * restoring the old one. . . 

266 * Eric Biederman 10 January 1998 

267 */ 

268 void mm release (void) 

260 | 

210 struct task struct *tsk - current; 

271 

272 /* notify parent sleeping on vfork( ) */ 

273 if (tsk->flags & PF VFORK) { 

214 tsk- flags &- "PF VFORK; 

215 up(tsk-^p opptr-^v[ork sem); 

216 ] 

277 .] 


PIF exec. mmap( P, Un Rae REA Pr DR] OR SETS EE JC T de EU]. BR A H 
户 空间 ， 那 就 不 需要 调用 exit mmap YER HP mg) ipe Xe eg p. 但是， 此 时 要 为 子 进程 分 
配 一 个 mm struct 数据 结构 以 及 页 面目 法 ， 使 得 稍 后 可 以 在 此 基础 上 建立 起 子 进程 的 用 户 空间 。 对 于 
i386 结构 的 CPU， 这 里 的 init_new_context( Æ FEAE, KLARE 0， 所 以 把 它 跳 过 。 把 当前 进程 的 
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task struct 结构 中 的 指针 mm 和 active mm 设置 成 指向 新 分 配 的 mm, struct 数据 结构 以 后 ， 就 此 通过 
activate mm( ) 切 换 到 这 个 新 的 用 户 空间 。 这 是 个 宏 操 作 ， 定 义 于 include/asm-i386/mmu_context.h: 





61 Hdefine activate mm(prev, next) V 
62 switch mm((prev), (next), NULL, smp processor id( )) 


我 们 将 在 “进程 的 调度 与 切换 ” 节 中 阅读 switch, mm( ) 的 代码 ， 在 这 里 只 要 知道 当前 进程 的 用 
户 空间 切换 到 了 由 新 分 配 mm struct 数据 结构 所 代表 的 空间 就 可 以 了 。 还 此 指出 ， 现 在 新 的 “ 咱 户 空 
间 ” 实 际 上 只 是 一 个 框架 ， 一 个 “ 空 壳 ” 里 面 一 个 页 面 也 没有 。 另 一 方面 ， 现 在 是 在 内 核 中 运行 ， 所 
以 用 户 空间 的 切换 对 目前 的 运行 站 无 影响 。 

可 息 ， 原 来 的 用 户 空 间 则 从 此 与 当前 进程 无 关 了 。 也 就 是 说 ， 当 前 进程 最 终 放 弃 了 对 原来 用 户 空 
间 的 共享 。 当 然 ， 此 时 要 执行 mm release( ) 将 父 进程 唤 柄 。 实 际 上 ，CLONE VFORK 通常 都 是 与 
CLONE VM 标志 相 联系 的 ,所 以 这 里 对 mm_release( ) 的 调用 更 为 关键 , 而 前 面 的 mm_release( ) 则 只 是 
“以 防 万 一 ”而 已 。 孝 么 ， 对 于 父 进程 的 用 户 空间 呢 ? 当然 此 减少 它 的 共享 计 数 。 此 外 ， 如 果 将 它 的 
共享 计数 减 ] 以 后 达到 了 0, 则 还 要 将 其 下 属 的 数据 结构 释放 , 因为 此 时 已 没有 进程 还 在 使 用 这 个 空间 
了 。 这 是 山 mmput( ) 完 成 的 ， 其 代码 在 fork.c 中 : 


[sys execve( ) > do execve( ) > search_binary_handler( ) > load aout binary( ) > flush old. exec( )> 
exec mmap( ) > mmput( )] 


242 /* 

243 * Decrement the use count and release all resources for an mm. 
244 */ 

245 void mmput (struct mm struct *mm) 

246 

247 if (atomic dec and lock(&mm >mm users, &mmlist lock)) { 
248 list del(&mm-^mmlist); 

249 spin unlock(&mmlist lock); 

250 exit mmap (mm) ; 

251 mmdrop (mm) ; 

252 } 

253: -d 


号 是 说 , 将 mm->mm_users 减 1, 如 果 减 1 以 后 变 成 了 0, 就 对 mm 执行 exit mmap( ) 和 mmdrop( ). 
我 们 已 经 介绍 过 exit_mmap( HEH, ‘EFRA mm, struct 下 而 的 所 有 vm area. struct 数据 结构 ， 并 且 将 
HARRA ERAR Re UB WA Ke, ERS FH P 81] " RATA SE”. hi mmdrop( )， 
M—F RAE, BME AH SEL mm struct 数据 结构 本 身 ， 也 全 部 释放 了 。 不 过 ， 
这 上 只 是 在 将 父 进程 的 mm->mm_users J& 1 以 后 变 成 了 0 这 种 特殊 情况 下 才 发 生 。 而 在 我 们 现在 这 个 情 
景 中 ， 既 然 子 进程 通过 指针 共享 父 进程 的 几 户 空间 ， 则 父 进程 应 该 睡眠 等 待 ， 所 以 当 子 进程 释放 对 空 
间 的 共享 时 不 会 使 共享 计数 达到 0。 

回 到 前 面 exec mmap( ) 的 代码 由， 最 后 还 有 一 个 特殊 情况 要 考虑 ， 屠 就 是 当 子 进 衔 进入 
exec mmap( ) 时 ， 其 task. struct 结构 中 的 mm struct 结构 指针 mm 为 0， 也 就 是 没有 用户 空间 《所 以 是 
内 核 线程 )。 但 是 ， 另 - 个 mm struct 结构 指针 active mm 基 不 为 0， 这 是 因为 在 进程 切换 时 的 一 个 特 
殊 妆 求 而 引起 的 。 进 程 的 task_struct PAWA mm_struct 结构 指针 :个 是 mm， 指 向 进程 的 用 户 空间 ， 
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另 ，. 个 是 active_mm。 对 于 共有 用 户 空 间 的 进程 这 两 个 指针 始终 是 一 致 的 。 但 是 ， 当 一 个 不 具 各 用 户 空 
间 的 进程 (内 核 线程 ) 被 调度 运行 时 ， 要 求 它 的 active. mm — XE Ef REA mm. struct 结构 ， 所 以 只 好 
和 暂 借 一 个 。 在 这 种 情况 ， 内 核 将 其 active mm 设置 成 与 在 其 之 前 运行 的 那个 进程 的 active mm 相同 ， 
而 在 调度 其 停止 运行 时 又 将 该 指针 设置 成 0。 也 就 是 说 ， 一 个 内 核 线程 在 受 调度 运行 时 要 “ 借 川 ”在 它 
之 前 运行 的 那个 进程 的 active_ mm ( 详 见 “ 进 程 的 调度 与 切换 ”)， 因 而 要 递增 这 个 mm struct 结构 的 使 
用 计数 。 而 现在 ， 已 经 为 这 内 核 线程 分 配 了 它 自己 的 mm struct 结构 ， 使 其 升格 成 为 了 进程 ， 就 个 再 
使 用 借 来 的 active mm 了 。 所 以 ， 要 调用 mmdrop( )， 递 减 其 使 用 计数 。 这 是 一 个 inline 函数 ， 其 代码 
在 include/linux/sched.h H: 


[sys execve( ) > do_execve( ) > search binary handler( ) > load aout binary( ) > 
flush old exec( ) 
> exec mmap( ) > mmdrop( )] 


109 /* mmdrop drops the mm and the page tables */ 
710 extern inline void FASTCALL( — mmdrop(struct mm struct *)); 


711 static inline void mmdrop(struct mm_struct * mm) 
712 { 

713 if (atomic dec and test(&mm-^mm count)) 

714 mmdrop (mm) ; 

715} 


ift__ mmdrop( ) 的 代码 则 在 fork.c +F: 


[sys_execve( ) > do execve( ) > search, binary, handler( ) > load aout binary( ) > 
flush. old exec( )» exec mmap( ) > mmdrop( ) > __mmdrop( )] 


229 /* 

230 * Called when the last reference to the mm 
231 * is dropped: either by a lazy thread or by 
232 * mmput. Free the page directory and the mm. 
233 来 / 

234 inline void | mmdrop(struct mm struct *mm) 
235 { 

236 if (mm == &init mm) BUG( ); 

237 ped_free (mm >pgd) ; 

238 destroy_context (nm) ; 

239 free mm(mm); 

240 | 


BY WL, mmdrop( ) 在 将 一 个 mm_struct 数据 结构 释放 之 前 也 此 递减 并 检 查 其 使 用 计数 mm, count, 内 
有 在 递减 后 变 成 0 才 会 将 其 释放 。 注 意 册 个 计数 器 ， 即 mm users 与 mm. count 的 区 别 。 存 mm struct 
结构 分 配 之 初 二 者 都 设 为 1， 然后 mm_users 随 子 进程 对 用 户 空间 的 共享 而 增 减 ， 而 mm. count WAA 
核 中 对 该 mm_struct 数据 结构 的 使 用 出 增 减 。 

从 exec_mmap( ) 返 同 到 flush_old_exec( ) 时 ， 子 进程 从 父 进程 继承 的 用 户 空间 已 经 释放 ， 其 用 户 空 
问 变 成 了 -个 独立 的 “ 室 壳 ” 也 就 是 一 个 大 小 为 0 的 独立 的 用 户 空 间 。 这 时 候 的 进程 已 经 是 “ 义 无 反 
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顾 ” 了 ， 问 不 到 原来 的 用 户 空 间 中 去 了 《多 代码 中 的 注解 )。 前 缸 讲 过 ， 当 前 进程 〈 了 上 了 进程》 三 来 可 能 
是 通过 指针 共享 父 进 各 的 信号 处 埋 农 的， 而 现在 有 了 自己 的 独立 的 信和 号 处 理 表 ， 所 以 也 要 递减 父 进 种 
信号 处 埋 表 的 共享 计数 ， 并 月 如 果 递 减 后 为 0 就 要 将 其 所 占 的 空间 释放 ， 这 就 是 release, old signals( ) 
所 做 的 事情 。 此 外 , 进程 的 task_struct 结构 中 有 一 个 字符 数组 commi ], 用 米 保存 进程 所 执行 的 程序 名 ， 
Br AXE ZU bprm->filename 的 日 标 程序 路 径 名 中 的 最 后 一 段 抄 过 去 。 接 着 的 flush_thread( ) 只 是 处 理 与 
debug 和 i387 协 处 理 器 有 关 的 内 容 ， 不 是 我 们 所 关心 的 。 

如 果 “ 当 前 进程 ” 原 米 只 是 一 个 线程 ， 那 么 它 的 task_struct 结构 道 过 结构 中 的 队列 头 thread. group 
挂 入 由 其 父 进程 为 首 的 “线程 组 ”队列 。 现 在 ， 尼 已经 在 通过 execve( ) 升 级 为 进程 ， 放 痉 了 对 父 进程 
用 户 空 间 的 共享 ,所 以 就 要 通过 de_thread( ) 从 这 个 线程 组 中 脱离 出 来 。 这 个 函数 的 代码 在 fs/exec.c H: 


[sys_execve( ) > do_execve( ) > search_binary_handler( ) > load aout binary( ) > flush_old_exec( )» 
de_thread( )] 


502 /* 

503 * An execve( ) will automatically “de-thread” the process 
504 * Note: we don't have to hold the tasklist lock to test 
505 * whether we migth need to do this. If we're not part of 
506 * a thread group, there is no way we can become one 

507 * dynamically. And if we are, we only need to protect the 
508 * unlink - even if we race with the last other thread exit, 
509 * at worst the list del init( ) might end up being a no-op. 
510 */ 

511 static inline void de thread(struct task struct *tsk) 

512 4 

513 if (!list empty(&tsk-^thread group)) | 

514 write lock irq(&tasklist loci); 

515 list del init(&tsk-^thread group); 

516 write unlock irq(&tasklist lock); 

517 } 

518 

519 /* Minor oddity: this might stay the same. */ 

520 tsk->tgid = tsk->pid; 

5201 |} 


前 面 说 过 ， 进 程 的 信号 处 理 表 就 好 像 契 个 中 断 向 量 表 。 但 是 ， 这 里 还 有 个 币 要 的 不 和 同 ， 就 是 中 断 
前 量 表 中 的 表 项 昌 么 指 疝 一 个 服务 程序 ， 归 么 就 没有 ;而 信号 处 理 表 中 则 还 可 以 有 对 各 种 信号 孔 设 的 
Cdefault》 响 应， 并 不 ， 定 非 要 指向 一 个 服务 程序 。 当 把 信号 处 理 表 从 父 进程 复制 过 来 时 ， 其 中 他 个 
女 项 的 信 有 三 种 可 能 : -种 可 能 是 SIG_IGN, KRAMER: SSE SIG_DFL， 表 示 采 取 预 设 的 响应 
方式 〈 例 如 收 到 SIGQUIT 就 exit( )); 第 二 种 就 是 指 疝 :个 用 户 空间 的 了 程序 。 可 是 ， 坝 在 束 个 用 户 室 
间 都 已 经 放弃 了 ， 怎 么 还 能 让 信号 处 理 表 的 表 项 指 疝 诈 户 空间 的 子 程序 呢 ? 所 以 还 得 检查 一遍， 将 指 
向 服务 程序 的 表 项 改 成 SIG_DFL。 这 是 由 flush_signal_handler( ) 完 成 的 ， 代 码 在 kernel/signal.c '|': 





[sys execve( ) > do_execve( ) > search_binary_handler( ) > load aout binary( ) » 
flush old exec( Y» flush signal handlers( )] 
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/* 
* Flush all handlers for a task. 
*/ 


void 
flush signal handlers (struct task struct *t) 
{ 
int i; 
struct k sigaction *ka = &t-^sig-^action[0]; 
for (i = NSIG ; i != 0; i—) { 
if (ka-sa. sa handler != SIG_TON) 
ka->sa. sa_handler = SIG DFL; 
ka-^sa.sa flags = 0; 
sigemptyset (&ka-^sa. sa mask) ; 
katt; 


} 


最 后 ， 是 对 原 有 岂 打 开 文 件 的 处 理 ， 这 是 由 flush old files( ) 完 成 的 。 进 程 的 task. struct 结构 中 有 


个 指向 一 


个 file, struct 结构 的 指针 “files”， 所 指向 的 数据 结构 中 保存 着 已 打 井 文件 的 信和 以。 在 file struct 


结构 中 有 个 位 图 close_on_exec， 里 面 存储 着 表示 哪些 文件 在 执行 一 个 新 日 标 程序 时 应 子 关 闭 的 信息 。 
而 flush_old_files( ) 要 做 的 就 是 根据 这 个 位 多 的 指示 将 这 些 文件 关闭 ， 并 且 将 此 位 图 清 成 全 0。 其 代码 
在 exec.c 中 : 


[sys_execve( ) > do execve( ) > search_binary_handler( ) > load. aout. binary( ) > 
flush. old. exec( )» flush. old, files( )1 


469 
470 
ATi 
412 
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475 
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477 
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480 
481 
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485 
486 
487 
488 


/* 
* These functions flushes out all traces of the currently running executable 
* so that a new one can be started 


*/ 


static inline void flush old files (struct files struct * files) 
{ 
long j = -1: 


write_lock (&files—>file_lock) ; 
for (;;) { 
unsigned long set, i; 


j++; 

i = j * __NFDBITS; 

if (i >= files->max_fds || i >= files—max fdset) 
break; 

set = files->close_on_exec->fds bits[jl; 

if (!set) 
continue; 
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480 files-^elose on exec-»fds bits[j] = 0; 
490 write unlock(&files-^file lock): 
491 for ( ; set ; i++, set >= D { 
492 if (set & D { 

493 sys close(i); 

494 } 

495 } 

496 write lock(&files-^file lock); 
497 

498 } 

499 write_unlock (&files—>file lock); 

500 ] 


一 般 来 说 ， 进 程 的 开头 二 个 文件 ， 即 td 为 0、1 和 2 CBE stdin, stdout 以 及 stderr) 的 已 打开 文件 
是 不 关 闭 的 ;其 他 的 已 打开 文件 则 才 应 关闭 ， 但 是 也 可 以 通过 ioctlC ) 系 统 调用 来 加 以 改变 。 

从 flush_old_exec( |I] load. aout. binary( ) 中 时 ， 当 前 进程 已 经 完成 了 与 过 去 告别 ， 准 备 迎 接 新 
的 使 命 了 。 我 们 继续 沿 着 binfmt_aoutc 往 下 看 〈 但 是 跳 过 针对 sparc 处 理 器 的 条 件 编译 ); 


[sys_execve( ) > do execve( ) > search. binary. handler( ) > load aout binary( )] 


287 /* OK, This is the point of no return */ 

288 Sif !defined(  sparc  ) 

289 set personality (PER. LINUX) ; 

290 Helse 

291 set personal ity (PER SUNOS) ; 

292 tif !defined( sparc v9 ) 

293 memcpy (&current-^thread. core exec, &ex, sizeof(struct exec)); 
294 Rendif 

295 #endif 

296 

297 current—>mm->end_code = ex.a text + 

298 (current-^mm-^start code = N TXTADDR(ex)) ; 
299 current-^5mm-^end data = ex.a data + 

300 (current-»mm-»start data = N DATADDR(ex)); 
301 current—>mm->brk - ex.a bss + 

302 (current~>mm->start_brk = N BSSADDR(ex)); 
303 

304 current->mm->rss = 0; 

305 current—>mm >mmap = NULL; 

306 compute creds (bprm) ; 

307 current-»flags &- "PF FORKNOEXEC; 


这 里 是 对 新 的 mm_struct 数据 结构 中 的 一 些 变量 进行 初始 化 ， 为 以 后 分 配 存储 空间 半 读 入 可 执行 
代 色 的 映 象 作 好 准备 。 上 月 标 代码 的 映 象 分 成 text, data 以 及 bss “BE, mm_struct 结构 中 为 每 个 段 都 设 
EI start 和 end 两 个 指针 。 每 段 的 起 始 地 址 定义 于 include/linux/a.out.h: 
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108 /* Address of text segment in memory after it is loaded. +*/ 
109 #if !defined (N TXTADDR) 

110 &define N_TXTADDR(x) (N_MAGIC(x) == QMAGIC ? PAGE SIZE : 0) 
ili #endif 


141 #define N SEGMENT ROUND(x) (((x) + SEGMENT SIZE - 1) & “(SEGMENT SIZE - D) 
142 

143 define N TXTENDADDR(x) (N TXTADDR(x) +(x). a. text) 

144 

145  tifndef N DATADDR 

146 tidefine N DATADDR(x) \ 


147 (N_MAGIC (x) ==OMAGIC? ( N TXTENDADDR(x)) \ 

148 : ( N SEGMENT ROUND (_N_TXTENDADDR (x) ))) 

149  &endif 

150 

151 /* Address of bss segment in memory after it is loaded. */ 


152 Hif !defined (N BSSADDR) 
153 #define N BSSADDR(x) (N_DATADDR(x) + (x). a data) 
154 Sendif 


可 见 ， 装 入 内 存 以 后 的 程序 映 象 从 正文 段 〈 代 码 段 ) 开始 ， 其 起 始 地 址 为 0 或 PAGE_SIZE， 取 次 
二 具体 的 格式 。 正 文 段 上 面 是 数据 段 ， 然 后 是 bss 段 ， 那 就 是 不 加 初始 化 的 数据 段 。 再 往 上 就 是 动态 
分 配 的 内 存 “ 堆 ”以 及 用 户 空 间 的 堆栈 了 。 

然后 , 通过 compute_creds( ) 确 定 进 程 在 开始 执行 新 的 旭 标 代码 以 后 所 具有 的 权限 ， 这 是 根据 bprm 
中 的 内 容 和 当前 的 权限 确定 的 。 其 代 但 在 exec.c 中 ， 读 者 可 自行 阅读 。 

接 下 来 ， 就 取决 于 特殊 aout 格式 可 执行 代码 的 特性 了 Cbinfmt, aout.c?: 


[sys_execve( ) > do_execve( ) > search_binary_handler( ) > load_aout_binary( )] 


308 #ifdef | sparc . 


309 if (N MAGIC(ex) == NMAGIC) { 

321 Hendif 

322 

323 if (N MAGIC(ex) == OMAGIC) | 

324 unsigned long text addr, map size; 
325 loff t pos; 

326 

327 text addr = N TXTADDR(ex) ; 

328 

329 #if defined( alpha ) || defined(__sparc__) 
330 pos = fd offset; 

331 map_size = ex.a text*ex.a data + PAGE SIZE - 1; 
332 #else 

333 pos = 32; 

334 map size = ex.a texttex.a data; 

335 #endif 
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336 

337 error = do brk(text addr & PAGE MASK, map size); 

338 if (error !- (text addr & PAGE MASK)) { 

339 send sig(SIGKILL, current, 0); 

340 return error; 

341 } 

342 

343 error = bprm—file-^f op->read(bprm—>file, (char *)text addr, 
344 ex.a text*ex.a data, &pos); 

345 if (error « 0) { 

346 send sig(SIGKILL, current, 0); 

347 return error; 

348 } 

349 

350 flush icache range(text addr, text addrtex.a_text+ex. a data); 
351 } else { 


前 面 讲 过 ，a.out 格 式 日 慰 代 码 中 的 magic number 表 示 着 代码 的 特性 ， 或 者 说 类 型 。 当 magic number 
为 OMAGIC 寺 ， 表 示 该 文件 中 的 可 执行 代码 并 非 “ 纯 代码 ”。 对 于 这 样 的 代码 ， 先 通过 do_brk( ) 为 正文 
段 和 数据 段 合 在 一 起 分 配 空间 ， 然 后 就 把 这 两 部 分 从 文件 中 读 进 来 。 表 数 do_brk( ) 我 们 山 经 在 第 2 章 !|! 
介绍 过 ， 而 从 文件 读 入 则 在 “文件 系统 ”和 “ 块 设备 驱动 ”两 章 中 有 详细 叙述 ， 读 者 可 以 参阅 ， 这 申 
就 不 重复 了 。 不 过 要 指出 ， 读 入 代码 时 是 从 文件 中 位 移 为 32 的 地 方 开 始 ， 读 入 到 进程 用 户 空间 中 从 地 
址 0 开始 的 地 方 ， 读 入 的 总 长 度 为 ex.a_text+ex.a_data。 对 于 i386 CPUN à, flush icache range( ) 为 -一空 
语句 。 侈 于 bss 段 ， 则 无 需 从 文件 读 入 ， 只 要 分 配 空间 就 可 以 了 ， 所 以 放 在 后 面 青 处理。 对 于 OMAGIC 
类 型 的 a.out 可 执行 文件 在 言 ， 装 入 程序 的 工作 就 基本 完成 了 。 

可 是 ， 如 果 不 是 DOMAGIC 类 型 呢 ? 请 接着 往 下 看 〈binfmt_aout.c): 


[sys execve( ) > do_execve( ) > search binary handler( ) > load aout, binary( )] 


351 } else { 

352 static unsigned long error time, error time2; 

353 if ((ex.a text & Oxfff || ex.a data & Oxfff) && 

354 (N_MAGIC (ex) !- NMAGIC) && (jiffies-error time2) > 5*HZ) 
355 { 

356 printk (KERN NOTICE "executable not page aligned\n’) ; 

357 error time2 = jiffies; 

358 } 

359 

360 if ((fd offset & "PAGE MASK) != 0 && 

361 Cjiffies-error time) > 5*HZ) 

362 { 

363 printk (KERN_WARNING 

364 "fd offset is not page aligned. Please convert program: %s\n”, 
365 bprm->file->f dentry-?d name. name); 

366 error time - jiffies; 

367 } 
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368 

369 if (!bprm-^file-^f op->mmap|| ((fd_offset & "PAGE MASK) != 0)) { 
310 loff t pos = fd offset; 

371 do brk(N TXTADDR(ex), ex.a texttex.a data); 

372 bprm— file-^[ op-^read(bprm-»file, (char *)N TXTADDR (ex), 
313 ex.a toxttex.a data, &pos); 

314 flush icache range((unsigned long) N TXTADDR(ex), 

315 (unsigned long) N TXTADDR(ex) * 

376 ex.a texttex.a data); 

377 goto beyond if; 

378 } 

379 

380 down (&current—>mm->mmap_sem) ; 

381 error = do mmap(bprm-^file, N TXTADDR(ex), ex.a text, 

382 PROT_READ | PROT EXEC, 

383 MAP FIXED . MAP PRIVATE | MAP DENYWRITE | MAP EXECUTABLE 
384 fd offset); 

385 up(&current-^mm-^mmap sem); 

386 

387 if (error != N TXTADDR(ex)) { 

388 send sig(SIGKILL, current, 0): 

389 return error; 

390 } 

391 

392 down(&current >mm->mmap sem); 

393 error = do mmap(bprm-^file, N DATADDR(ex), ex.a data, 

394 PROT READ | PROT WRITE | PROT EXEC, 

395 MAP FIXED — MAP PRIVATE | MAP DENYWRITE | MAP EXECUTABLE, 
396 fd offset + ex.a text); 

397 up (&current-?mm-»mmap sem); 

398 if (error != N DATADDR(ex)) { 

399 send sig(SIGKILL, current, 0); 

400 return error; 

401 j 

402 j 


住 a.out 格 式 的 可 执行 文件 中 ， 除 OMAGIC 以 外 其 他 三 种 均 为 纯 代码 ， 也 就 是 所 谓 的 “可 重 入 ” 代 
码 。 此 类 代码 中 ， 不 但 其 止 文 段 的 执行 代码 在 运行 时 不 会 改变 ， 其 数据 段 的 内 容 也 不 会 在 运行 时 改变 。 
凡是 要 华 运 行 过 程 中 收 访 内 容 的 东西 部 在 堆栈 中 《局 部 变量 )， 此 不然 就 在 动态 分 出 的 缓冲 区 。 所 以 ， 
内 核 干脆 将 可 执行 文件 映射 到 了 进程 的 用 户 空 间 中 ， 这 样 连 通常 swap 所 需 的 骨 上 空间 也 省 去 了 。 在 这 
二 种 类 型 的 可 执行 文件 中 ， 除 NMGIC 以 外 帮 要 求 正 文 段 及 数据 段 的 长 度 与 页 面 大 小 对 齐 。 如 发 现 没有 
对 齐 就 要 通过 printk( ANBAR. (Ee, RHA RAMA WAL, PURE TRS 
error_time2， 使 警告 信息 之 间 的 间隔 不 小 十 $ 秒 。 接 下 来 的 操作 取决 于 具体 的 文件 系统 是 否 提 供 mmap、 
就 是 将 一 个 已 打开 文件 映射 到 虚 存 空间 的 操作 ， 以 及 正文 段 及 数据 段 的 长 度 是 否 与 页 贡 大 小 对 齐 。 如 
果 丰 满足 映射 的 条 件 ， 就 分 陋 空间 并 且 将 正文 段 和 数据 段 一 起 读 入 至 进程 的 衣 户 空间 ， 这 次 是 从 文件 
路 位移 为 fd_offset, BIN. TXTOFF(ex) 8187; FF an, 读 入 到 山 文件 的 头 部 所 指定 的 地 址 N_TXTADDR(e)， 
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长 度 为 两 段 的 总 和 。 如 果 满 忠 映射 的 条 件 ， 邓 就 更 好 了 ， 那 就 通过 do_mmap( ) 分 别 将 文件 中 的 止 文 自 
和 数据 段 映射 到 进程 的 用 户 空 间 中 , 映射 的 地 址 则 与 装 入 的 地 址 至 。 调 川 mmap( ) 之 前 无 需 分 配 空间 ， 
那 已 经 包含 在 mmap( ) 之 中 了 。 


至 此 ， 正 文 段 和 数据 段 都 已 经 装 入 就 结 了 ， 接 下 来 就 是 bss 段 和 堆栈 段 了 (binfmt_aoutc ): 


[sys_execve( ) > do execve( ) > search binary handler( ) > load. aout. binary( )] 


403 
404 
405 
406 
407 
408 
409 
410 
411 
412 
413 
414 
415 
416 


beyond if: 


set binfmt(&aout format); 
set brk(current-^mm-^start brk, current—>mm->brk) ， 


retval = setup arg pages (bprm); 

if (retval < 0) { 
/* Someone check-me: is this error path enough? */ 
send sig(SIGKILL, current, 0); 
return retval; 


current-^mm-5start slack = 
(unsigned long) create aout tables((char *) bprm->p, bprm); 


函数 set_binfmt( ) 的 操作 很 简单 (fs/exec.c): 


[sys execve( ) > do execve( ) > search binary. handler( ) > load aout, binary( ) » set binfmt( )] 


908 
909 
910 
911 
912 
913 
914 
915 
916 


void set_binfmt (struct linux binfmt *new) 


{ 


} 


struct linux binfmt *old = current->binfmt; 
if (new && new->module) 
__ MOD INC USE COUNT (new->module) ; 
current—>binfmt = new; 
if (old && old->modulc) 
MOD DEC USE, COUNT (old->module) ; 


in R AA RU ERE DR RAAT DL CRURA EGER ACA SCIAS AE LY eR RUM SE BE [L4 R— 
行 语 句 ， 那 就 是 设置 current->binfmt。 
函数 seLbrk( ) 为 可 执行 代码 的 bss 段 分 配 空 间 并 建立 起 页 而 映射， 其 代 但 在 同 文件 中 


(binfmt_aout.c): 


[sys execve( ) > do execve( ) > search_binary_handler( ) > load aout, binary( ) > set, brk( )] 


78 
79 
80 


static void set_brk (unsigned long start, unsigned long end) 


{ 


start ~ ELF_PAGEALIGN (start); 
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81 end = ELF PAGEALIGN (end) ; 
82 if (end <= start) 

83 return; 

84 do brk(start, end - start); 
85 } 


读者 在 第 2 章 中 读 过 do_brk() 的 代码 ， 应 该 理解 为 什么 bss 段 中 内 容 的 初始 值 为 全 0。 
接着 ， 还 要 在 用 户 空间 的 堆栈 区 顶部 为 进程 建立 起 一 个 虚 存 区 间 ， 并 将 执行 参数 以 及 环境 变量 所 
占 的 物理 页 面 与 此 虚 存 区 癌 建立 起 映射 。 这 是 由 setup_arg_pages( ) 完 成 的 ， 鞭 代码 在 exec.c 中 : 


[sys execve( ) > do execve( ) > search. binary. handler( ) > load_aout_binary( ) > setup_arg_pages( )] 


288 int setup arg pages (struct linux binprm *bprm) 


289 { 
290 unsigned long stack base; 
291 struct vm_area_struct *mpnt; 
292 int i; 
293 
294 stack base = STACK TOP - MAX ARG PAGES*PAGE SIZE; 
295 
296 bprm->p += stack base; 
297 if (bprm->loader) 
298 bprm->loader += stack base; 
299 bprm-Yexec += stack base; 
300 
301 mpnt = kmem_cache_alloc(vm area_cachep, SLAB_KERNEL) ; 
302 if (!mpnt) 
303 return —ENOMEM; 
304 
305 down (&current-^mm-^mmap serm); 
306 { 
307 mpnt->vm mm = current-?mm; 
308 mpnt->vm start = PAGE MASK & (unsigned long) bprm-?p; 
309 mpnt->vm_end = STACK TOP; 
310 mpnt->vm_ page prot = PAGE COPY; 
311 mpnt—>vm_flags = VM STACK FLAGS; 
312 mpnt—>vm_ops = NULL; 
313 mpnt->vm_pgoff = 0; 
314 mpnt-»vm file = NULL; 
315 mpnt-^vm private data = (void *) 0; 
316 insert vm struct (current->mm, mpnt); 
317 current~>mm->total vm = 
(mpnt->vm_end - mpnt->vm_start) >> PAGE SHIFT; 
318 } 
319 
320 for (i = 0 ; i < MAX ARG PAGES ; i++) 1 
321 struct page *page = bprm-Ppageli]l; 
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322 if (page) { 

323 bprm-^page[i] = NULL; 
324 current-^mm-^rss-**; 
325 put dirty page(current, page, stack base); 
326 } 

327 Stack base += PAGE SIZE; 
328 ) 

329 up (&current—>mm->mmap_sem) ; 
330 

331 return 0; 

332 ] 


进程 的 用 户 空间 中 地 址 最 高 处 为 堆栈 区 ， 这 里 的 常数 STACK_TOP 就 是 TASK_SIZE， 也 就 是 3GB 
(0xC000 0000)。 堆 栈 区 的 顶部 为 一 个 数组 ， 数 组 中 的 每 一 个 元 素 都 是 … 个 页 面 。 数 组 的 大 小 为 


然后 ， 在 这 些 抽 面 的 下 方 ， 就 是 过 程 的 用 户 空间 堆栈 了 。 另 一 方面 ， 大 家 知道 任何 用 户 程序 的 入 . 
口 都 是 main( ), 而 main 有 两 个 参数 argc 和 argv[ ]。 其 中 参数 argv[ ] 是 字符 指针 数组 , argc 则 为 数组 的 大 小 。 
但 是 实际 上 还 有 个 隐藏 着 的 字符 指针 数组 envp[ ] 用 来 传递 环境 变量 ， 只 是 椒 在 用 户 程序 的 “视野 ”之 
内 而 已 。 所 以 ， 用 户 空间 堆栈 中 从 - -开始 就 要 设置 好 三 项 数据 ， 即 envp{ ]、argv[ ] 以 及 argc。 此 外 ， 还 
要 将 保存 着 的 “字符 串 形 式 的 ) 参数 和 环境 变量 复制 到 用 户 空间 的 顶端 。 这 都 是 由 create_aout_tables( ) 
完成 的 ， 其 代码 也 在 同一 文件 (binfmt.aout.c) 中 : 


[sys execve( ) > do execve( ) > search_binary_handler( ) > load aout binary( ) 
> create aout, tables ( )] 


187 /* 

188 * create aout tables( ) parses the env- and arg-strings in new user 
189 * memory and creates the pointer tables from them, and puts their 
190 * addresses on the ^stack/, returning the new stack pointer value. 
191 */ 

192 static unsigned long * create aout tables (char * p, struct linux binprm * bprm) 
193 { 

194 char **argv, **envp; 

195 unsigned long * sp; 

196 int arge = bprm-^argc; 

197 int enve = bprm-?envc; 

198 


199 sp = (unsigned long *) 
(C (unsigned long)sizeof(char *)) & (unsigned long) p); 
200 Hifdef | sparc — 
204 Hendif 
205 #ifdef | alpha _ 
217 Hendif 
218 sp -= envctl; 
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219 
220 
221 
222 
223 
224 
225 
226 
221 
228 
229 
230 
231 
232 
233 
234 
235 
236 
237 
238 
239 
240 
241 
242 
243 
244 
245 
246 
247 
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envp ~ (char **) sp; 
sp -- argctl; 
argv = (char **) sp; 


Sif defined( i386 ) || defined(  mc68000 2) :| defined( arm, ) 


pui user((unsigned long) envp, sp); 
put user((unsigned long) argv,--sp); 


#endif 


} 


put_user (argc, —sp); 
current->mm->arg_ start = (unsigned long) p; 
while (argc-->0) { 

char c; 

put user (p, argvtt) ; 

do { 

get user(c,p**) ; 

} while (c); 
} 
put. user (NULL, argy) ; 
current-^»mm-^arg end = curreni-»mm-»env start = (unsigned long) p; 
while (envc--50) { 

char c; 

put user(p, envpt+) ; 

do { 

get user(c, D++) ; 

] while (c); 
} 
put user (NULL, envp) ; 
curreni-?mm-»env end = (unsigned long) p; 
return sp; 


读者 应 该 能 看 明白 ， 这 是 在 堆栈 的 项 端 构筑 envp[ J argv[ ] 和 argc。 请 读者 注意 有 一 个 这 段 代 码 中 

的 228 至 234 行 ( 以 及 237 至 243 行 ) 然后 回答 .个 问题 ; 为 什么 是 get_user(c, pt 出 不 是 get. user(&c, 

pt)? 以 前 我 们 曾经 讲 过 ，get_user( ) 是 一 段 烦 具 挑 战 忻 的 代 色 ， 并 建议 读者 日 行 阅读 。 坝 在 简单 地 介绍 
F, AAMT. AEE include/asm-i386/uaccess.h 路 定义 的 一 个 宏 定 义 : 


89 
90 
91 
92 
93 
94 
95 
96 
97 
98 
99 
100 


m 
* 


X 0X X X X X ¥ * * X X 
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These are the main single-value transfer routines. They automatically 
use the right size if we just have the right pointer type. 


This gets kind of ugly. We want to return two values in "get user( )” 
and yet we don’t want to do any pointers, because that is too much 

of a performance impact. Thus we have a few rather ugly macros here, 
and hide all the uglyness from the user. 


The “xxx” versions of the user access functions are versions that 
do not verify the address space, that must have been done previously 
with a separate "access ok( )" call (this is used when we do multiple 


101 
102 
103 
104 
105 
106 
107 
108 
109 
110 
111 
112 
113 
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* accesses to the same area of user memory). 


*/ 


extern void | get user l(void); 
extern void | get user 2(void); 
extern void get user 4(void); 


define | get user x(sizo,ret,x,ptr) \ 
asm  . volatile (call | get user ^ #size \ 
:^a" (ret), "-d^ (x) \ 


: “0” (ptr)) 


/* Careful: we have to cast the result to the type of the pointer 


for sign reasons */ 


#define get user (x, ptr) \ 

({ int ret gu val gu; \ 
switch(sizeof Ck(ptr))) { \ 
case 1: | get user x(l, ret gu, val gu, ptr): 
case 2: | get user x(2, ret gu, val gu, ptr) ; 
case 4: get user x(4, ret gu, val gu, ptr); 
default: | get user x(X, ret gu, val gu,ptr); 
} \ 

(x) = ( typeof__(*(ptr)))__ val, gu; 
ret gu; X 
P 


函数 的 代码 都 在 arch/i386/lib/getusr.S H, DÀ | get user. 1() 7915]: 


24 
25 
26 
21 
28 
29 
30 
31 
32 
33 
34 
35 
36 


addr limit = 12 


. text 

.align 4 

.globl | get user 1 

get user 1: 

mov] “esp, %edx 
andl $0xffffe000, %edx 
cmpl addr limit (%edx), %eax 
jae bad get user 

1: movzbl (%eax), %edx 
xorl %eax, heax 
ret 


break; 
break; 
break; 
break; 


先 看 一 下 122 行 ， 它 回答 了 为 什么 引 川 时 的 第 一 个 参数 是 < 而 不 是 &c 的 问题 。 其 次 ， 经 过 gcc 的 
FEA, | get user x( OB AK T — get user 1(), |. get user 2( )EX | get user 4( )， 分 别 用 丁 从 
用 户 空间 读 取 一 个 字 节 、 一 个 短 整 数 或 “个 长 整数 。 宏 操作 get user 根据 第 2 个 参数 的 类 型 销 定 日 标 
的 大 小 调 分 别 调用 __get_user_1( )，__get_user_2( ) 或 __get_user_4( )。 调 用 时 日 标 地 址 (pw) 在 寄存 器 
EAX 中 ;而 返回 时 EAX {AIK IEPA CHRR, EDX 中 为 从 用 户 空 间 读 过 来 的 数值 。 这 几 个 
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64 bad get user: 


65 xorl %edx, %edx 
66 movl $-14, %eax 
67 ret 

68 


这 时 的 第 30 FU 31 行将 当前 进程 的 系统 空间 堆栈 指针 与 SK. WPS RIA, ATRAS 
前 进程 的 task. struct 结构 指针 。 在 task. struct 结构 中 位 移 为 12 处 为 当前 进程 用 户 空间 地 址 的 上 限 ， 所 
以 作为 参数 传 过 来 的 地 址 不 得 商 十 这 个 上 限 。 这 也 说 明 ， 对 task struct 结构 的 定义 (开头 儿 个 成 分 ) 
是 不 能 随意 更 改 的 。 如 果 地 址 没有 趋 出 范围 就 从 用 户 空间 把 其 内 容 读 入 寄存 器 DX， 并 将 EAX 清 0 作 
为 返回 的 函数 值 。 

另 一 个 宏 操 作 put_user( ) 与 此 相似 ， 只 是 方向 相反 。 

当 CPU 从 create_aout_tables( ) 返 问 到 do load aout binary( ) 时 ， 堆 栈 顶 端的 argv[ ] 和 arge 者 已 经 
准备 好 。 我 们 再 继续 往 下 看 (binfmt_aout.c): 


[sys execve( ) > do execve( ) > search_binary_handler( ) > load_aout_binary( )] 


417 #ifdef alpha . 


418 regs->gp = ex.a gpvalue; 

419 #endi f 

420 start thread(regs, ex.a_entry, current—>mm->start_stack) ; 
421 if (current->ptrace & PT PTRACED) 

422 send sig(SIGTRAP, current, 0); 

423 return 0; 

424 ] 


xx HL HIP Eg UT SEVERI SR TE D. JE HE start thread( )。 这 是 个 宏 操作 ， 定 义 于 


include/asm-1386/process.h "P; 


408 Hdeline start thread(regs, new eip, new esp) do { \ 
409 . asm _( movl %0, %%fs ; movl %0, %%gs”: :"r^ (0); \ 
410 sect fs(USER DS); \ 
411 regs->xds = __USER DS; \ 
412 regs->xes = USER DS; \ 
413 regs->xss = USER DS; X 
414 regs >xcs = — USER CS; \ 
415 regs-Peip = new eip; \ 
A16 regs—>esp = new esp; \ 


417 } while (0) 


读者 对 这 里 的 regs 指针 已 经 很 熟悉 ， 它 指向 保留 在 当前 进程 系统 空间 堆栈 中 的 各 个 寄 仔 器 副本 。 
当 进程 从 系统 调用 返回 时 ， 这 些 数值 就 会 被 “恢复 ”到 CPU 的 各 个 寡人 存 占 中 。 所 以 ， 那 时 候 的 堆栈 指 
针 将 是 current-»mm-»start stack; 而 返回 地 址 ， 也 就 是 EIP 的 内 容 ， 则 将 是 ex.a_entry。 显 然 ， 这 正 是 
我 们 所 需要 的 。 


- 334 . 


第 4 章 ”进程 与 进程 滑 度 


全 此 ,可 执行 代码 的 装 入 和 投 这 已 经 完成 。 而 do execve( ) 在 调用 了 search_binary_handler( ) 以 后 也 
就 结束 了 。 当 CPU 从 系统 调用 返回 到 用 户 空间 时 ， 就 会 从 由 ex.a_entry 人 销 定 的 地 址 开始 执行 ， 


442. 文字 形式 可 执行 文件 的 执行 


前 面 介绍 了 aout 格式 可 执行 文件 的 装 入 和 投 运 过 程 ， 我们 把 这 作为 二 进 制 叮 执行 文件 的 代表 。 现 
在 ， 冉 来 简要 地 看 一 下 字符 形式 的 可 执行 文件 〈 为 shell 过 程 或 perl 文件 ) 的 执行 。 有 关 的 代码 都 在 
binfmt_script.c 中 。 由 于 已 经 比较 详细 地 阅读 了 二 进 制 可 执行 文件 的 处 理 ， 读 者 在 阅读 上面 的 代 但 时 应 
该 比较 轻松 了 ， 所 以 我 们 只 作 一 些 简要 的 提示 〈binfmt_scriptc) : 


95 struct linux binfmt script format = | 
96 NULL, THIS MODULE, load script, NULL, NULL, 0 
ar- « 


以 前 我 们 提 到 过 ，Seript 文件 的 开头 其 个 字符 应 为 “#!”， 然 后 是 解释 程序 的 路 径 名 ， 如 /bin/sh， 
fusr/bin/perl 等 等 ， 后 面 还 中 以 有 参数 。 但 是 ， 第 - 行 的 长 度 不 得 长 于 127 个 字符 。 我 们 来 看 Script XX 
FEAR AX, iX AELU load script( ) 完成 的 《binfmt_script.c): 


[sys execve( ) > do execve( ) > search binary handler( ) > load, script( )] 


17 static int load script (struct linux binprm *bprm, struct pt regs *regs) 
18 { 

19 char *cp, *i name, *i arg; 

20 struct file *file; 

21 char interp[BINPRM BUF SIZE]: 

22 int retval; 

23 

24 if ((bprm->buf[0] !- '$£) |! (bprm->bufl1] t=’ t!) :| (bprm->sh_bang)) 
25 return —ENOEXEC; 

26 /* 

27 * This section does the #! interpretation. 

28 * Sorta complicated, but hopefully it will work. TYT 
29 */ 

30 

31 bprm->sh_bang+t+; 

32 allow write access (bprm->file) ; 

33 fput (bprm-^ file); 

34 bprm->file = NULL; 

35 

36 bprm->buf [BINPRM_BUF_STZE - 1] = 'N0'; 

37 if ((cp = strchr(bprm buf, 'WNn')) == NULL) 

38 cp = bprm-»buf*BINPRM BUF SIZE-1; 

39 *cp =’ \0'; 

40 while (cp > bprm->buf) { 

4} Cp--; 

42 if (QGcp ==? ) | (*ep == ' NU) 
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43 *cp = NAO ; 

44 else 

45 break; 

46 } 

41 for (cp = bprm->buft+2; (xep ==? °) || (ep -= °\t); cp++); 
48 if (cp == NO) 

49 return -ENOEXEC; /* No interpreter name found */ 
50 i name = cp; 

51 i arg = 0; 

52 for ( ; xep && (kcp !- ' ') && (rep t= W); epii) 
53 /* nothing */ ; 

54 while (Gkcp ==’ ') | (ep == ’\t’)) 

55 *cpt^ — ’\0’; 

56 if (*cp) 

57 i arg = cp; 

58 strepy (interp, i name); 


得 到 了 解释 程序 的 路 径 名 以 后 ,问题 就 转化 成 了 对 解释 程序 的 装 入 , 而 script 文件 本 身 则 转化 成 了 
解释 程序 的 这 行 参数 。 虽 然 script 文件 本 身 并 不 是 二 进 制 格 式 的 可 执行 文件 , 解释 程序 的 映 象 翅 是 个 
二 进 制 的 可 执行 文件 。 还 是 在 binfmt_script.c 文件 中 往 下 看 : 


[sys_execve( ) > do execve( ) > search_binary_handler( ) > load, script( )] 


59 /* 

60 * OK, we've parsed out the interpreter name and 

61 * (optional) argument. 

62 * Splice in (1) the interpreter s name for argv[0] 

63 * (2) (optional) argument Lo interpreter 

64 * (3) filename of shell script (replace argvl[0]) 
65 * 

66 * This is done in reverse order, because of how the 
67 * user environment and arguments are stored 

68 */ 

69 remove arg zero(bprm); 

TO retval = copy strings kernel (1, &bprm->filename, bprm) ; 
71 if (retval < 0) return retval; 

12 bprm-»argc**; 

73 if (i arg) { 

74 retval - copy strings kernel (1, &i arg, bprm) ; 

75 if (retval < 0) return retval; 

76 bprm-»argc**; 

77 } 

78 retval = copy strings kernel (1, &i name, bprm); 

19 if (retval) return retval; 

80 bprm-^»argc**; 

8l f** 

82 * OK, now restart the process with the interpreter's dentry 
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file = open exec(interp); 
if (IS ERR(file)) 
return PTR ERR (file): 


bprm-^file = file; 
retval = prepare binprm(bprm); 
if (retval < 0) 
return retval; 
return search binary handler (bprm, regs) ; 


) 


"| BL. Script 文件 的 使 用 在 装 入 运行 的 过 程 中 引入 了 递归 性 ，load_script( ) 最 后 又 调用 


search_binary_handler( )。 不 管 递归 有 多 深 ， 最 终 执 行 的 : 定 是 个 进 制 可 执行 文件 ， 例 如 /bin/sh、 
fusr/bin/perl 等 解释 程序 。 在 递归 的 过 程 中 ， 逐 层 的 可 执行 文件 路 径 名 形成 一 个 参数 堆 线 ， 传 递 给 最 终 


的 解 


RE. 


45 系统 调用 exit( ) 与 wait4( ) 


出 处 


482 
483 
484 
485 


系统 调用 exit( ) 与 wait4( ) 的 代码 基本 上 都 在 kerneVexit.c 中 ， 下 而 我 们 华 引 用 代码 时 凡 不 特别 说 明 
的 均 来 自 这 个 文件 。 
ACR AF exit( ) 的 实现 (exit.c): 


asmlinkage long sys exit(int error code) 


{ 
do exit((error code&Oxff)««8); 
} 


显然 ， 共 主体 为 do_exit( )。 先 看 它 的 前 半 部 : 


[sys_exit( ) > do exit( )] 


421 
422 
423 
424 
425 
426 
427 
428 
429 
430 
431 
432 
433 


NORET TYPE void do_exit (long code) 
{ 


struct task struct *tsk - current; 


if (in interrupt ( )) 

panic(“Aiee, killing interrupt. handler!^); 
if (!tsk->pid) 

panic(’Attempted to kill the idle task!^); 
if (tsk->pid == 1) 

panic ("Attempted to kill init!”); 
tsk— flags |= PF EXITING; 
del timer sync(&tsk-^real timer); 
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首先 ,在 函数 的 类 起 void 前 面 还 个 说 明 NORET. TYPE. 4E include/linux/kenel.h 中 NORET_TYPE 
定义 为 “/* */", 所 以 对 编译 毫 无 影响 ， 但 起 到 了 提醒 读者 的 作用 。CPU 在 进入 do_exit( ) 以 后 ， 当 前 进 
程 就 在 中 途 寿终正寝 ， 不 会 从 这 个 藤 数 返回 。 所 谓 不 会 从 这 个 函数 返回 到 底 是 怎么 回 事 ， 义 是 什么 原 
因 ， 读 者 在 读 了 下 面 的 代码 以 后 就 明白 了 。 这 里 只 指出 ， 既 然 CPU 个 会 从 do_exit( HEE, WRTS 
从 sys_exit( ) 中 返 同 ， 从 而 也 就 不 会 从 系统 调用 exit( YAEL BRAR, TARAR “exit, HARA 
退出 的 日 的 。 另 一 方面 ， 所 谓 exit， 只 有 进程 〈 或 线程 ) 才 谈 得 |。 中 断 上 服务 程序 根本 就 不 应 该 调用 
do exit( )， 不 管 是 直接 还 是 问 接 调用 。 所 以 ， 这 里 首先 通过 in interrupt( ) 对 此 加 以 检查 ， 如 发 现 这 是 
在 某 个 中 断 服务 程序 中 调用 的 ， 那 就 定 是 出 了 问题 。 

那么 ， 怎 么 知道 是 否 在 中 断 服 务 程序 中 昵 ? 让 我 们 来 看 看 在 include/asm-i386/hardirg.h 中 定义 的 


in. interrupt( ): 


20 /* 

21 * Are we in an interrupt context? Either doing bottom half 
22 * or hardware interrupt processing? 

23 */ 

24 define in interrupt( ) ({ int | cpu = smp processor id( ); \ 
25 (local irq count( cpu) + local bh count( cpu) != 0); }) 


在 单 CPU 的 系统 中 ，__cpu 一 定 是 0。 人 在 第 3 章 中 潮 到 过 消 数 handle IRQ event( )， 在 其 入 口 处 
和 出 口 处 各 有 一 个 蝎 数 调用 irq_enter( ) 和 irq_exit( )， 就 分 别 递增 和 递减 计数 器 local_irq_countl__cpul。 
所 以 ， 只 要 这 个 计数 器 为 非 0， 就 说 明 CPU 在 handle_IRQ_event( ) 中 。 类 似 地 ， 只 要 计数 器 
local_bh_count[__cpu] 为 非 0， 就 说 明 CPU 正在 执行 某 个 bh PRL, CUR IRR. RZ 
只 要 不 是 在 中 断 服务 的 上 下 文中 , 那 就 .` 定 起 在 其 个 进程 〈 或 线程 ) 的 上 下 文中 了 。 但 是 , 0 号 进程 和 
1 号 进程 ， 也 就 是 “空转 ”(idle) 进程 和 “初始 化 ”(inib) 进 程 ， 是 不 允许 退出 的 ， 所 以 接着 要 对 当前 进 
程 的 pid 加 以 检查 。 

进程 企 决 定 退 出 之 前 可 能 已 经 设置 了 实时 定时 嚣 ， 也 就 是 将 其 task_struct 结构 中 的 成 员 real timer 
挂 入 了 内 核 中 的 定时 器 队列 。 现 在 进程 即将 退出 系统 ， 一 来 是 这 个 定时 器 已 经 没有 了 存在 的 必要 ， 
来 进程 的 task_struct 结构 行将 撤销 ， 作 为 其 成 员 的 real timer WK “EZET. BHRR” SARA 
将 它 从 队列 中 脱岗 。 所 以 ， 要 通过 del timer sync( ) 将 当前 进程 从 定时 器 队列 中 脱离 出 来 。 

继续 往 下 看 (exit.c): 





[sys_exit( ) > do_exit( )] 


434 fake volatile: 
435 #ifdef CONFIG BSD PROCESS ACCT 


436 acct_process (code) ; 
437 #ondif 

438 | exit mm(tsk); 
439 

440 lock kernel(); 

441 sem exit( ); 

442 exit files(tsk); 
443 . exit fs(tsk); 
444 exit sighand(tsk) ; 
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445 exit thread( ); 

446 

447 if (current->leader) 

448 disassociate ctty(l); 

449 

450 put exec domain(tsk-^exec domain); 

451 if (tsk-^binfmt && tsk->binfmt-—>module) 

452 MOD DEC USE COUNT (tsk-^binfmt-^module); 

453 

454 tsk-»exit code = code; 

455 exit notify( ); 

456 schedule( ); 

457 BUG( ) ; 

458 /* 

459 * [n order to get rid of the "volatile function does return” message 
460 * I did this little loop that confuses gcc to think do exit really 
461 * is volatile. In fact it's schedule( ) that is volatile in some 
462 * circumstances: when current->state = ZOMBIE, schedule( ) never 
463 * returns. 

464 * 

465 * In fact the natural way to do all this is to have the label and the 
466 * goto right after each other, but I put the fake volatile label at 
467 * the start of the function just in case something /really/ bad 

468 * happens, and the schedule returns. This way we can try again. l'm 
469 * not paranoid: it's just that everybody is out to get me. 

470 */ 

471 goto fake volatile; 

472 ] 


可 想 调 知 ， 进 程 在 结束 生命 退出 系统 之 前 要 释放 其 所 有 的 资源 。 我 们 在 前 一 节 的 do_fork() 中 看 到 
从 父 进 程 “ 继 承 ” 的 资源 有 存储 空间 、 已 打 井 文件 、 工 作 月 好、 信和 号 处 理 丧 等 等 。 相 凡 地 ,这 里 就 有 
__exit_mm( )、__exit_files( )、__exit_fs( ) 以 及 __exit_sighand( )。 可是， 还 有 一 种 资源 是 不 “继承 ”的 ， 
所 以 在 do_fork( ) 中 不 会 看 到 ， 那 就 是 进程 在 用 户 空间 建立 和 使 用 的 “信号 晶 ”(semaphore)。 这 是 一 种 
用 于 进程 间 通 讯 的 资源 ， 如 果 在 调 几 exit( ) 之 前 还 有 信号 量 尚未 撤销 ， 那 就 也 要 把 它 撤销 。 这 里 有 一 个 
简单 的 准则 ， 就 是 看 task struct 数据 结构 中 的 各 个 成 分 ， 如 果 一 个 成 分 是 个 指针 ， 在 进程 创建 时 以 及 
运行 过 程 中 要 为 其 在 内 核 中 分 配 “个 数据 结构 或 缓冲 区 ， 出 且 这 个 指针 又 十 通 向 这 个 数据 结构 或 缓冲 
区 的 惟 -- 途 径 ， 那 就 一 定 此 把 它 释 放 ， 否 则 就 会 造成 内 核 的 存储 空间 “ 浊 漏 ”。 例 如 ， 指 针 sig 指向 进 
程 的 信号 处 理 表 ， 这 个 表 所 占 的 空间 是 专 为 sig 分 配 的 ， 指 针 sig 就 是 进入 这 个 此 的 惟一 途径 ， 所 以 必 
须 释放 。 而 指针 p_pptr 指向 父 进程 的 task struct 结构 ， 吕 是 父 进 程 的 task. struct 结构 却 诈 不 是 专门 为 
子 进程 的 p_pptr 而 分 配 的 ， 这 个 p_pptr 并 不 是 进入 其 父 进程 的 task, struct 的 惟 途径， 所 以 不 能 把 这 
个 数据 结构 也 释放 掉 ， 和 否则 其 他 指向 这 个 结构 的 指针 就 都 “悬空 ”了 。 具 体 到 用 户 空间 信号 量 ， 当 进 
程 在 用 户 空间 创建 和 使 用 信和 号 量 时 ， 内 核 会 为 进程 task struct 结构 中 的 着 个 指针 semundo 和 
semsleeping 分 配 缓冲 区 (sem_undo 数据 结构 利 sem. queue 数据 结构 ， 详 见 “ 进 程 间 通信 ”)。 而 且 ， 这 
两 个 指针 就 是 进入 这 些 数据 结构 的 惟一 途径 , 所 以 必须 把 它们 释放 。 函数 sem_exit( ) 的 代码 在 ipc/sem.c 
中 : 
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[sys exit( ) > do. exit( ) > sem exit( )] 


966 /* 

967 * add semadj values to semaphores, free undo structures 

968 * undo structures are noi freed when semaphore arrays are destroyed 
969 * so some of them may be out of date. 

970 * IMPLEMENTATION NOTE; There is some confusion over whether the 

971 * set of adjustments that needs to be done should be done in an atomic 
972 * manner or not. That is, if we are attempting to decrement the semval 
973 * should we queue up and wait until we can do so legally? 
974 * The original implementation attempted to do this (queue and wait). 
975 * The current implementation does not do so. The POSIX standard 

976 * and SVID should be consulted to determine what behavior is mandated. 
977 */ 

978 void sem exit (void) 

979 { 

980 struct sem queue *q; 

981 struct sem undo *u, *un = NULL, **up, **unp; 

982 struct sem array *sma; 

983 int nsems, i; 

984 

985 /* Tf the current process was sleeping for a semaphore, 

986 * remove it from the queue. 

987 */ 

988 if ((q = eurrent- semsleeping)) | 

989 int semid = q->id; 

990 sma - sem lock(semid); 

991 current-^semsleeping - NULL; 

992 

993 if (qa >prev) | 

994 i f (sma==NULL) 

995 BLG( ); 

996 remove from queue(q >sma, q); 

997 } 

998 if (sma!-NULL) 

999 sem unlock (semid) ; 

1000 } 

1001 

1002 for (up = &current->semundo; (u = *up); *up = u->proc_next, kfree(u)) | 
1003 int semid = u->semid; 

1004 if (semid == -1) 

1005 continue; 

1006 sma = sem_lock(semid) ; 

1007 if (sma — NULL) 

1008 continue; 

1009 

1010 if (u >semid == -1) 

1011 goto next entry; 
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if (sem checkid(sma, u->semid)) 
goto next entry; 


/* remove u from the sma->undo list */ 
for (unp = &sma->undo; (un = *unp); unp = &un->id next) | 
if (u == un) 
goto found; 
} 
printk (“sem exit undo list error id=%d\n”, u->semid) ; 
goto next entry; 
found: 
*unp = un-^id next; 
/* perform adjustments registered in u */ 
nsems = sma-?sem nsems; 
for (i = 0; i < nsems; i++) { 
struct sem * sem = &sma->sem base[i]; 
sem->semval += u->semadjli]; 
if (sem->semval < 0) 
sem-^semval = 0; /* shouldn't happen */ 
sem—>sempid = current->pid; 
} 
sma—>sem_otime = CURRENT TIME; : 
/* maybe some queued-up processes were waiting for this */ 
update queue (sma) ; 
next entry: 
sem unlock (semid) ; 
] 
current—>semundo = NULL; 


} 


如 果 当 前 过 程 止 在 《〈 睡 眼 ) 等 待 进入 某 个 临界 区 ， 则 其 task struct 结构 中 的 指针 semsleeping 指向 


所 在 的 队列 。 显 然 ， 现 在 不 需要 再 等 待 了 ， 所 以 把 当前 过 程 从 这 个 队列 中 脱 链 。 接 着 是 一 个 for 循环 ， 
料理 那些 正在 由 当前 过 程 所 创建 的 骨 户 空间 信和 号 量 《〈 即 临界 区 》 上 操作 的 过 程 ， 告 诉 它们 ， 信 和 号 量 已 
经 撤销 ， 临 界 区 已 经 旨 “ 清 场 ” 并 “关门 大 吉 ” 大 家 请 凹 吧 。 建 议 读者 在 学 习 了 “进程 间 通 信 ” 的 有 
关内 容 后 册 回 过 来 自己 读 一 下 这 段 代 码 。 


HEA _exit_mm( ) 的 代码 〈exitc) : 


[sys_exit( ) > do_exit( ) > ___exit_mm( )] 


297 
298 
299 
300 
301 
302 
303 


/* 

* Turn us into a lazy TLB process if we 

* aren't already.. 

*/ 

static inline void .exit mm(struct task struct * tsk) 
{ 


struct mm struct * mm = tsk->mm; 
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304 

305 mm release( ); 

306 if (mm) | 

307 atomic inc (&mm-^mm count); 

308 if (mm != tsk-^»active mm) BUG( ); 

309 /* more a memory barrier than a real lock */ 
310 task lock(tsk); 

311 tsk-^mm = NULL; 

312 task_unlock (tsk) ; 

313 enter lazy tlb(mm, current, smp processor id( )); 
314 mmput (mm) ; 

315 } 

316 } 


实际 的 存储 空间 释放 是 调用 mmput( SEAR) RITE fork.c T), 我 们 已 在 前 一 节 中 读 过 它 的 代码 ， 
这 里 要 提醒 读者 的 是 这 里 对 mm_release( ) 的 调用 。 在 fork( ) 和 execve( ) 两 节 中 ， 读 者 已 经 看 到 ， 当 
do_fork( ) 时 标志 位 CLONE_VFORK 为 1 时 , 父 进程 在 睡眠 , 等 待 子 进程 在 一 个 信和 号 量 上 执行 一 次 up() 
操作 以 后 才能 回 到 用 户 空间 运行 ， 而 了 进程 必须 在 释放 其 用 户 存 储 空间 时 执行 这 个 操作 ， 所 以 这 里 要 
通过 mm release( ), 在 这 个 信号 量 上 执行 一 次 up() 操 作 唤 醒 睡 眠 中 的 父 进程 。 其 代码 已 鹿 出 在 execve() 

- 节 中 ， 这 里 不 再 重复 。 

将 个 进程 的 task. struct 结构 中 的 指针 mm 清 成 0， 这 个 进程 便 不 再 有 用 户 空间 了 。 

回 到 do exit( ) 的 代 公 中 ， 其 他 几 个 用 于 释放 资源 的 函数 读者 可 折 行 阅读 。 对 于 0386 处 理 器 
exit thread( AE ^r eR AT. 

接着 ， 当 前 进程 的 状态 就 改 成 了 TASK_ZOMBIE， 表 示 进 程 的 生命 已 经 结束 ， 从 此 不 再 接受 调度 。 
但 是 当前 进程 的 残骸 仍旧 占用 着 最 低 限度 的 资源 ， 包 括 其 task struct 数据 结构 和 系统 空间 堆栈 所 在 的 
上 山 个 页 面 。 什 么 时 候 释 放 这 两 个 页 面 呢 ? 当 前 进程 白 己 并 不 释 放 这 两 个 员 测 ， 就 像 人 们 自己 并 不 在 临 
终 前 注销 自己 的 户口 一 样 ， 人 出 是 调用 exit_notify( ) 通 知 共 父 进程 ， 让 父 进程 料理 后 事 。 

为 什么 要 这 样 安排 ， 侧 不 是 让 当前 进程 ， 也 就 是 子 进程 自己 照料 WE? ASA. BH, 在 
子 进程 的 task struct. 数据 结构 中 还 有 不 少 有 用 的 统计 信息 ， 让 父 进程 来 料理 后 事 可 以 将 这 些 统计 信息 
并 入 父 进程 的 统计 信息 中 而 不 会 使 这 些 信息 丢失 。 其 次 ， 也 洗 更 重要 的 是 ， 系 统一 旦 进入 多 进程 状态 
以 后 ， 任 何 一 刻 都 需要 有 个 “当前 进程 ”存在 。 读 者 在 第 3 章 中 看 到 了 ， 在 中 断 服务 程序 以 及 异常 处 
理 程序 中 都 要 用 到 当前 进程 的 系统 空间 堆栈 。 如 果子 进程 在 系统 调度 男 一 个 进程 投入 运行 之 前 就 把 它 
的 task struct 结构 和 系统 空间 堆栈 释放 ， 那 就 会 造成 “个 空隙 ， 如 果 恰 好 有 一 次 中 斯 或 者 异常 在 此 空 
隙 中 发 生 就 会 造成 问题 。 诚 然 ， 中 断 吓 可 以 关闭 的 ， 可 是 异常 却 不 能 通过 关中 断 来 防止 其 发 生 ， 更 何 
况 还 有 “不 可 屏蔽 中 断 ” 哩 。 所 以 ， 子 进程 的 task struct. 结构 利 系统 空间 堆栈 必须 要 保存 到 为 一 个 进 
程 开始 运行 之 后 才能 释放 。 这 样 ， 让 父 进程 料理 后 事 就 是 一 个 合理 的 安排 了 。 此 外 ， 这 样 安排 也 有 利 
丁 使 程序 简化 ， 否 则 的 话 调度 程序 schedule( ) 就 得 此 多 考虑 一 些 特殊 情况 了 。 让 我 们 米 看 看 exit.c PR 
数 exit. notify ) 的 源 代码 : 





[sys exit( ) > do exit( ) > exit_notify( )] 


323 /* 
324 * Send signals to all our closest relatives so that they know 
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325 * to properly mourn us.. 

326 */ 

327 static void exit_notify (void) 

328 { 

329 struct task_struct * p, *t; 

330 

331 forget_original_parent (current) ， 


怠 像 人 一 样 ， 所 谓 父 进程 也 有 “生父 ”和 “养父 ”之 分 。 在 task_struct 结构 中 有 个 指针 p. opptr 指 
H “original parent” 也 即 生 父 ， 另 外 偿 有 个 指针 p_pptr 则 指向 养父 。 一 个 进程 在 创建 之 初 其 生父 和 
养父 是 一 致 的 ， 所 以 湖 个 指针 指向 同一 个 父 进程 。 但 是 ， 在 运行 中 p_pptr 可 以 暂时 地 改变 。 这 种 改变 
发 生 在 一 个 进程 通过 系统 调用 ptrace( ) 来 跟踪 另 一 个 进程 的 时 候 , 这 时 候 被 跟踪 进程 的 p_pptr 指针 被 设 
置 成 指向 正在 跟踪 它 的 进程 ， 那 个 进程 就 暂时 成 了 被 跟踪 进程 的 “养父 ”。 而 被 跟踪 进程 的 p_opptr 指 
针 却 不 变 ， 仍 旧 指 向 其 生父 。 如 果 一 个 进程 在 其 子 进程 之 前 “去 世 ” 的 话 ， 就 要 把 它 的 子 进程 托付 给 
某 个 进程 。 托 付 给 谁 呢 ? 如 果 当 前 进程 站 个 线程 ， 那 就 托付 给 同一 线程 组 中 的 下 一 个 线程 ， 使 了 进 
程 的 p_opptr 指向 这 个 线程 。 和 否则 ， 就 只 好 托付 给 系统 中 的 init 进程 ， 所 以 这 init 进程 就 好 像 是 孤儿 院 。 
由 此 可 见 , 所 谓 “original parent” 也 不 是 永远 不 变 的 , 原因 在 于 系统 中 的 进程 号 pid 以 及 用 作 task. struct 
结构 的 页 面 都 是 在 周转 使 用 的 ， 所 以 实际 上 -来 并 没有 保留 这 个 记录 的 意义 ，: :来 技术 上 也 有 困难 。 
现在 ， 当 前 进程 要 exit( ) 了 ， 所 以 要 将 其 所 有 的 子 进程 都 送 进 “孤儿 院 ” 时 不然 到 它们 也 要 exit( ) 的 
时 候 就 没有 父 进程 来 料理 它们 的 后 事 了 。 这 就 是 331 行 调 用 forget_original_parent( ) 的 日 的 (exit.c)。 


[sys exit( ) > do_exit( ) > exit_notify( ) > forget_original_parent( )] 


147 /* 

148 * When we die, we re-parent all our children. 

149 * Try to give them to another thread in our process 
150 * group, and if no such member exists, give it to 
151 * the global child reaper process (ie "init^) 

152 */ 


153 static inline void forget original parent (struct task struct * father) 
154 { 


155 struct task struct * p, *reaper; 
156 

157 read lock(&tasklist lock); 

158 

159 /* Next in our thread group */ 
160 reaper = next thread(father); 

161 if (reaper == father) 

162 reaper - child reaper; 

163 

164 for each task(p) { 

165 if (p-^p opptr == father) | 
166 /* We dont want people slaying init */ 
167 p-^exit signal = SIGCHLD; 
168 p->self_exec_idt+; 
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169 pp opptr = reaper; 

170 if (p-^pdeath signal) send sig(p->pdeath_signal, p, 0); 
171 } 

172 } 

173 read unlock(&tasklist, lock); 

iM) 


这 上段 程序 中 的 for. each. task 在 sched.h Pa! XA: 


824 &define for each task(p) \ 
825 for (p = &init task ; (p = p->next task) !- &init task ; ) 


就 是 说 ， 搜 索 所 有 的 task. struct 数据 结构 ， 几 发 现 “ 生 父 ” 为 当前 进程 者 就 将 其 p opptr 指针 改 成 
指向 child_reaper， 即 init 进程 ， 并 嘱 其 将 来 exit ) 时 要 发 一 个 SIGCHLD 信号 给 chile_reaper， 并 根据 当 
前 进程 的 task_struct 结构 中 的 pdeath. signal 的 设置 向 其 发 “个 信号 ， 告 知 生父 的 “性 耗 ”， 

回 到 exit_notify( ) 中 ， 下 面 就 来 处 理由 指针 p. ppt 所 指向 的 “养父 ”进程 了 。 这 个 父 进程 就 好 像 是 
当前 进程 的 “法 定 监护 人 ”， 扮 演 着 更 为 重要 的 角色 (exit.c): 


[sys exit( ) > do_exit( ) > exit, notify( )] 


332 /* 

333 * Check to see if any process groups have become orphaned 
334 * as a result of our exiting, and if they have any stopped 
335 * jobs, send them a SIGHUP and then a SIGCONT. (POSIX 3. 2. 2. 2) 
336 

337 * Case i: Our father is in a different pgrp than we are 
338 * and we were the only connection outside, so our pgrp 

339 * is about to become orphaned. 

340 */ 

341 

342 t = current-?p pptr; 

343 

344 if ((t-^»pgrp != current pgrp) && 

345 (t->session == current->session) && 

346 will become orphaned pgrp(current-^pgrp, current) && 
347 has stopped jobs(current- pgrp)) | 

348 kill pg(current-?pgrp, SIGHUP, 1) ; 

349 kill pg(current—^pgrp, SIGCONT, 1) ; 

350 } 

351 

352 /* Let father know we died 

353 * 

354 * Thread signals are configurable, but you aren't going to use 
355 * that to send signals to arbitary processes 

356 * That stops right now. 

357 * 

358 * If the parent exec id doesn't match the exec id we saved 
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* when we started then we know the parent has changed security 
* domain. 

* 

* If our self exec id doesn't match our parent exec id then 

* we have changed execution domain as these two values started 
* the same after a fork. 

* 


*/ 


if(current-^exit signal != SIGCHLD && 
( current-^parent exec id != t-^»self exec id || 
current-^self exec id != current-^parent exec id) 
&& 'capable(CAP KILL)) 
current-»exit signal = SIGCHLD; 


/* 

* This loop does two things: 

* 

* A. Make init inherit all the child processes 

* B. Check to see if any process groups have become orphaned 

* as a result of our exiting, and if they have any stopped 

* jobs, send them a SIGHUP and then a SIGCONT. (POSIX 3.2.2.2) 
*/ 


write lock irq(&tasklist lock); 
current-—>state = TASK ZOMBIE: 
do notify parent(current, current—>exit signal); 
while (current-^p cptr != NULL) { 
p = current—p cptr; 
current->p_cptr = p->p_osptr; 
p->p_ysptr = NULL; 
p->ptrace = 0; 


p->p_pptr = p-?p opptr; 
p->p_osptr = p->p_pptr->p_ cptr; 
if (p>p_osptr) 
p-?p osptr—p yspir = p; 
p-^p pptr—p cptr = p; 
if (p->state == TASK_ZOMBIE) 
do notify parent(p, p— exit signal); 
/* 
* process group orphan check 
* Case ii: Our child is in a different pgrp 
* than we are, and it was the only connection 
* outside, so the child pgrp is now orphaned 
*/ 
if ((p->perp != current pgrp) && 
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407 (p->session == curfent->session)) { 
408 int pgrp = p->perp; 

409 

410 write unlock irq(&tasklist lock); 
411 if (is orphaned pgrp(pgrp) && has stopped jobs(pgrp)) | 
412 kill pg(pgrp, SIGHUP, 1) ; 

413 kill pg(pgrp, SIGCONT, 1) ; 

414 } 

415 write lock irq(&tasklist lock); 

416 ) 

417 } 

418 write unlock irq(&tasklist lock); 

419 } 


代码 作者 在 程序 中 加 了 不 少 注解 ， 代 码 本 身 也 并 不 复杂 ， 所 以 我 们 基本 [把 它 留 给 读者 自己 阅读 ， 
不 过 要 给 予 一 些 提示 。 
-个 用 户 login 到 系统 中 以 后 ， 可 能 会 启动 许多 不 同 的 进程 ， 所 有 这 些 进程 都 使 用 同一 个 控制 终端 
(或 用 来 模拟 一 个 终端 的 窗口 )。 这 些 使 用 同 一 个 控制 终端 的 进程 属于 同 - 个 session。 此 外 ， 用 户 可 以 
在 间 --- 条 shell 命令 或 执行 程序 中 启动 多 个 进程 ， 例 如 在 命令 “ls | we -1” 中 就 同时 月 动 了 两 个 进程 ， 
这 些 进程 形成 一 个 “组 ”(session 与 组 是 两 个 不 同 的 概念 )。 每 个 session 或 进程 组 中 都 有 一 个 为 主 的 、 
最 早 创建 的 进程 ， 这 个 进程 的 pid 就 成 为 session 和 进程 组 的 代号 。 如 果 当 前 进程 与 父 进程 属 于 不 同 的 
session， 不 同 的 组 ， 同 时 又 是 其 所 在 的 组 与 其 父 进程 之 间 惟 一 的 纽带 ， 那 么 一 旦 当前 进程 不 存在 以 后 ， 
这 整个 组 就 成 了 “孤儿 ” 在 这 样 的 情况 下 ， 按 POSIX 32.22 的 规定 要 给 这 个 进程 组 中 所 有 的 进程 都 
先 发 一 个 SIGHUP 信号 ， 然 后 再 发 -个 SIGCONT 信号 ， 这 是 由 Kill pg ) 完 成 的 。 
我 们 讲 过 ，exit_notify( ) 最 主要 的 目的 是 要 给 父 进程 发 一 个 信号 ， 让 其 知道 子 进程 的 生命 已 经 结束 
而 来 料理 子 进程 的 后 事 ， 这 是 通过 do notify parent( ) 来 完成 的 。 其 代 但 在 kernel/signal.c 中 ， 程 序 很 简 
单 ， 读 者 可 白 行 阅读 : 


[Sys_exit( ) > do_exit( ) > exit_notify( ) > do_notify_parent( )] 


732 /* 

733 * Let a parent know about a status change of a child 
734 */ 

735 

736 void do notify parent(struct task struct *tsk, int sig) 
137 { 

738 struct siginfo info; 

739 int why, status; 

740 

741 info. si_signo = sig; 

742 info.si errno = 0; 

743 info. si_pid = tsk->pid; 

744 info. si_uid = tsk-^uid; 

745 

746 /* FIXME: find out whether or not this is supposed to be c*time. */ 
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info. si utime = tsk->times. tms utime; 
info.si stime = tsk-^times. tms stime; 


status = tsk->exit code & Ox7f; 

why = SI KERNEL; /* shouldn't happen */ 
switch (tsk->state) { 

case TASK STOPPED: 


/* FIXME 一 can we deduce CLD TRAPPED or CLD CONTINUED? */ 
if (tsk~>ptrace & PT_PTRACED) 
why = CLD TRAPPED; 
else 
why = CLD_STOPPED; 
break; 
default: 


if (tsk-»exit code & 0x80) 
why = CLD DUMPED; 

else if (tsk >exit code & Ox7f) 
why = CLD_KILLED; 

else { 


why = CLD EXITED; 

status = tsk-^exit code >> 8; 
} 
break; 


} 
info. si_code = why; 
info. si_status = status; 


send sig info(sig, &info, tsk—p pptr); 
wake up parent (tsk->p_pptr); 
} 


参数 tsk 指向 当前 进程 的 task_struct 结构 ， 上 只 有 当 进 程 处 于 TASK_ZOMBIE (正在 exit( )) 或 


TASK_STOPPED( 被 跟踪 ) 时 才 人 允许 调用 do_notify_parent( )。 从 代码 中 可 见 ， 这 里 的 所 谓 parent 是 指 当 


前 进 


程 的 “养父 ”而 不 是 “生父 ”， 也 就 是 由 指针 p_pptr 所 指 而 个 是 p opptr 所 指 的 进程 。 在 前 面 的 


forget. original. parent( ) 中 已 经 把 每 个 子 进程 的 p_opptr 改 成 了 指向 child_reaper， 而 notify. parent( )] 4) 


是 向 
进程 
相同 


p pptr 所 指 进程 发 信号 ; ADEE, RIKER PERE SE exit( ) 时 岂 不 是 要 间 一 个 已 经 不 存在 了 的 父 
发 信号 吗 ? ABER, exit_notify( ) 的 代码 中 随后 《392 47) 就 把 了 进程 的 p_pptr 设置 成 与 p_opptr 
进程 之 问 都 通过 亲缘 关系 连接 在 一 起 而 形成 “关系 网 ”， 所 用 的 指针 除 p_opptr 和 p_pptr 外 ,还 有 : 
p_cptr， 指 向 子 进程 ， 这 里 的 c 表示 “child”。p_cptr 与 p_pptr 是 相对 应 的 。 当 一 个 进程 有 多 个 子 
进程 时 ，p_cptr 指向 其 “最 年 轻 的 ”， 也 就 是 最 近 创 建 的 那个 子 进程 。 

P_ysptr， 指 向 当前 进程 的 “弟弟 ”， 这 里 的 y ÆR "younger", ifi s 表示 “sibling ”。 

Pp_osptr， 指 向 当前 进程 的 “哥哥 ” XX BÉ o ÆR “older”. 

这 样 ， 当 前 进程 的 所 有 子 进程 帮 遂 过 p ysptr 和 p osptr 连接 在 ”起 形成 一 个 双 链 队列 。 队 列 中 每 
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一 个 进程 的 p_pptr 都 指向 当前 进程 ， 而 当前 进程 的 p_optr 则 指向 队列 中 最 后 创建 的 子 进程 。 有 趣 的 是 ， 
子 进程 在 行事 时 只 认 其 “养父 ” 而 p_opptr 所 指 的 “生父 ” 倒 似乎 无 关 紧 要 。 当 然 ， 一 个 进程 除 身 处 
这 个 由 亲属 关系 形成 的 队列 中 之 外 ， 同 时 也 身 处 其 他 的 队列 中 ， 所 以 task struct. 结构 中 还 有 其 他 的 
task struct 指针 ， 从 而 形成 一 个 并 不 简单 的 “关系 网 ”。 进 程 是 在 创建 的 时 候 在 do fork( ) 中 通过 
SET LINK 进入 这 个 关系 网 的 。SET_LINK 的 定义 在 sched.h 中 : 


813 #define SET LINKS(p) do ( ^ 


814 (p)-^next task = &init task; V 

815 (p)—^prev task = init task.prev task; \ 

816 init task. prev task-»next task = (p); \ 

817 init task.prev task = (p); V 

818 (p)->p_ysptr = NULL; \ 

819 if (((p p osptr = (p)p pptrp cptr) != NULL) V 
820 (p)—p osptr—p ysptr = p; \ 

821 (p)->p_pptr->p_cptr = p; \ 

822 } while (0) 


现在 ， 是 退出 这 个 关系 网 的 时 候 了 。 当 CPU 从 do_notify_parent( ) 返 同 到 exit_notify( ) 中 时 ， 所 有 
子 进程 的 p_opptr 都 已 指向 child_reaper， 而 p_pptr 仍 指向 当前 进程 。 随 后 的 while 循环 将 了 进程 队列 中 
的 每 个 进程 都 转移 到 child_reaper 的 子 进程 队列 中 去 ， 并 使 其 p_pptr 也 指向 child_reaper。 同 时 ， 对 每 
个 子 进程 也 要 检查 其 所 属 的 进程 组 是 否 成 为 了 “ 抓 岛 ”。 

如 果 当 前 进程 是 一 个 session 中 的 主 进程 (current->leader JE 0), 那 就 还 要 将 整个 session 与 其 主 控 终 
端的 联系 切断 ， 并 将 该 tty 释放 (注意 ， 进 程 的 task struct 结构 中 有 个 指针 ty 指向 其 主 控 终 端 )。 函 数 
disassociate_ctty( ) 的 代码 在 drivers/char/tty. io.c 中 : 


[sys exit( ) > do exit( ) > exit notify( ) > disassociate ctty( )] 


560 /* 

561 * This function is typically called only by the session leader, when 
562 * it wants to disassociate itself from its controlling tty. 

563 * 

564 * It performs the following functions: 

565 * (1) Sends a SIGHUP and SIGCONT to the foreground process group 
566 * (2) Clears the tty from being controlling the session 

567 * (3) Clears the controlling tty for all processes in the 

568 * session group. 

569 * 

570 * The argument on_exit is set to 1 if called when a process is 

571 * exiting; it is 0 if called by the ioctl TIOCNOTTY. 

572 */ 

573 void disassociate ctty (int on exit) 

574 { 

575 struct tty struct *tty = current~>tty; 

576 struct task struct *p; 

577 int tty pgrp = -1; 
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578 

579 if (tty) ( 

580 tty pgrp = tty-^pgrp; 

581 if (on exit && tty-^driver. type !- TTY DRIVER TYPE PTY) 
582 tty vhangup(tty); 

583 ) else { 

584 if (current-^tty old perp) { 

585 kill pg(current-^tty old pgrp, SIGHUP, on exit); 
586 kill pg(current-^tty old pgrp, SIGCONT, on exit); 
587 } 

588 return; 

589 } 

590 if (tty pgrp > 0) { 

591 kill pg(tty pgrp, SIGHUP, on exit); 

592 if (!on_exit) 

593 kill pg(tty pgrp, SIGCONT, on exit); 

594 } 

595 

596 current-^tty old pgrp = 0; 

597 tty->session = 0; 

598 tty-^pgrp = -1; 

599 

600 read lock(&tasklist lock); 

601 for each task(p) 

602 if (p-^session == current->session) 

603 p->tty = NULL; 

604 read unlock(&tasklist lock); 

605 } 

606 


那么 ， 进 程 与 主 控 终 端的 这 种 联系 最 初 是 怎样 ， 以 及 在 什么 时 候 建 立 的 呢 ? 显然 ， 在 创建 子 进程 
时 ， 将 父 进程 的 task. struct 结构 复制 给 子 进程 的 过 程 中 把 结构 中 的 tty 指针 也 复制 了 下 来 ， 所 以 子 进程 
具有 与 父 进 程 相同 的 主 控 终 端 。 但 是 子 进程 可 以 通过 ioctl( ) 系 统 调用 来 改变 主 控 终 端 ， 也 可 以 先 将 当 
前 的 主 控 终 端 关闭 然后 再 打开 另 一 个 tty。 不 过 , 在 此 之 前 先 得 通过 setsid( ) 系 统 调用 来 建立 一 个 新 的 人 
机 交互 分 组 〈session)， 并 使 得 作 此 调用 的 进程 成 为 该 session 的 主 进 程 (leader)。 一 个 session 的 主 进程 
与 其 主 控 终端 断绝 关系 意味 着 整个 session 中 的 进程 都 与 之 断绝 了 关系 ， 所 以 要 给 同一 session 中 的 进 
程 发 出 信号 。 从 此 以 后 ， 这 些 进程 就 没有 主 控 终 端 ， 成 了 “后 台 进程 ” 

表 回 到 do_exit( ) 的 代码 中 。 当 CPU 完成 了 exit_notify()， 回 到 do_exit( ) 中 时 ， 剩 下 的 大 事 只 有 一 
件 了 ， 那 就 是 schedule( )， 即 进程 调度 。 前 面 讲 过 ，do_exit( ) 是 不 返回 的 ， 实 际 上 使 do_exit( ) 不 返回 的 
正 是 这 里 的 schedule( )。 换 言 之 ， 和 在 这 里 对 schedule( ) 的 调用 是 不 返回 的 。 当 然 ， 在 正常 条 件 下 对 
schedule( ) 的 调用 是 返回 的 ， 只 不 过 返回 的 时 机 要 延迟 到 本 进程 再 次 被 调度 而 进入 运行 的 时 候 。 函 数 
schedule( ) 按 照 一 定 的 准则 从 系统 中 挑选 一 个 最 适合 的 进程 进入 运行 。 这 个 进程 有 冲 能 就 是 正在 运行 的 
进程 本 身 ， 也 可 能 是 男 一 个 进程 。 如 果 不 同 的 话 ， 那 就 要 进行 切换 。 而 当前 进程 虽然 被 暂时 剥夺 了 运 
行 权 ， 却 维持 其 “运行 状态 ”， 即 task->state 不 变 ， 等 待 下 一 次 义 在 schedule( ) 中 《由 另 一 个 进程 引起 ， 
或 者 因 中 断 进 入 内 核 后 从 系统 空间 返回 用 户 空间 之 前 ?被 选中 时 青 继续 运行 , 从 而 从 schedule( ) 中 返回 。 
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所 以 , 什么 时 候 从 schedule( ) 返 回 取决 于 什么 时 候 被 进程 调度 选中 而 得 以 继续 运行 。 可 是 ， 在 这 里 ， 当 
前 进程 的 task->state 已 经 变 成 了 TASK_ZOMBIE, 这 个 条 件 使 它 在 schedule( ) 中 永远 不 会 再 被 选中 , 所 
以 就 “ 黄 鹤 … 去 不 复 返 了 ”。 人 上 这 里 对 schedule( ) 的 调用 ， 实 际 上 《从 CPU WARA) 也 是 返回 的 , 只 
不 过 是 返回 到 另 一 个 进程 中 去 了 ， 只 是 从 当前 进程 的 角度 来 看 没有 返回 而 已 。 不 过 ， 至 此 为 止 ， 当 前 
进程 还 只 是 因为 不 会 被 选中 而 不 能 返回 ， 从 理论 上 说 只 是 无 限 推迟 而 已 ， 其 task_struct 结构 还 是 存在 
的 。 到 父 进程 收 剑 子 进程 发 米 的 信号 而 来 料理 后 事 ， 将 子 进程 的 task. struct. 结构 释放 之 时 ， 子 进程 就 
最 终 从 系统 中 消失 了 。 在 我 们 这 个 情景 中 ， 父 进程 正在 wait4( ) 中 等 着 哩 。 


像 其 他 系统 调用 -一样 ，wait4() 在 内 核 中 的 入 口 是 sys_wait4( )， 见 exit.c 中 的 代码 : 


487 asmlinkage long sys wait4(pid t pid,unsigned int * stat addr, 
int options, struct rusage * ru) 


488 { 

489 int flag, retval; 

490 DECLARE WAITQUEUE (wait, current); 

491 struct task struct *tsk; 

492 

493 if (options & ^(WNOHANG|WUNTRACED| | WNOTHREAD|  WCLONE| WALL) 
494 return -EINVAL; 

495 

496 add wait queue(&current-»wait chldexit, &wait) ; 


参数 pid 为 某 一 个 子 进 程 的 进程 号 。 
首先 ， 在 当前 进程 的 系统 空间 堆栈 中 通过 DECLARE_WAITQUEUE 分 配 空间 并 建立 了 一 个 
wait, queue, (数据 结构 。 有 关 的 宏 定 义 和 数 据 结构 部 是 存 include/linux/wait.h 中 定义 的 : 


46 struct | wait queue | 

47 unsigned int flags; 

48 define WQ FLAG EXCLUSIVE 0x01 
49 struct task struct * task; 
50 struct list head task list; 
51 #if WAITQUEUE DEBUG 

52 long | magic; 

53 long __waker; 

54 fendif 

55. Jd 


56 typedef struct | wait queue wait queue t; 


92 struct . wait queue head | 


93 wq lock t lock; 

94 struct list head task list; 
95 Sif WAITQUEUE DEBUG 

96 long _ magic; 

97 long _ creator; 

98 Hendif 
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也 就 是 说 ，sys_wait4( ) 一 井 头 就 在 当前 进程 的 系统 堆栈 上 分 配 一 个 wait_queue_t 数据 结构 名 为 
wait)， 结 构 中 的 compiler warning 4 0x1234567, 784) task 指向 当前 进程 的 task_struct， 而 list, head 44 
MJ task list 中 的 两 个 指针 均 为 NULL。 由 于 这 个 数据 结构 建立 在 当前 进程 的 系统 空间 堆栈 中 ， 一 吕 从 
sys_wait4( ) 返 回 , 这 个 数据 结构 就 不 复 存 在 了 。 与 此 相应 , 在 进程 的 task. struct 中 有 个 wait, queue, head. t 
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}; 


typedef struct ^ wait queue head wait queue head t; 


#if WAITQUEUE DEBUG 
# define | WAITQUEUE DEBUG INIT(name) \ 
, (long)&(ame). | magic, 0 
# define __WAITQUEUE HEAD DEBUG INIT (name) \ 
, (long)&(name). magic, (long)&(name). magic 
else 
# define | WAITQUEUE DERUG INIT (name) 
# define | WAITQUEUE HEAD DEBUG INIT (name) 
#endif 


define __WATTQUEUE_INITIAL1ZER (name, task) V 


{ 0x0, task, { NULL, NULL } | WAITQUEUE DEBUG INIT (name) } 


#define DECLARE_WAITQUEUE (name, task) \ 


wait queue t name = . WAITQUEUE INITIALIZER (name, task) 


数据 结构 wait chldexit 用 于 这 个 日 的 。 


然后 ， 通 过 add_wait_queue( ) 将 这 个 数据 结构 (wait) 加 入 到 当前 进程 的 wait_chldexit 队列 中 。 这 
样 做 的 作用 在 下 面 重 温 了 do notify parent( ) 的 代码 以 后 就 会 清楚 。 接 着 ， 就 进入 了 一 个 循环 ， 这 是 一 


个 不 小 的 循环 Cexit.cisys wait4( ) ): 


[sys_wait4( )] 


497 
498 
499 
500 
501 
502 
503 
504 
505 
506 
507 
508 
509 
510 
511 
512 
513 


repeat: 
flag = 0; 
current—>state = TASK INTERRUPTIBLE; 
read_lock (&tasklist_lock) ; 
tsk = current; 
do { 
struct task struct *p; 
for (p = tsk->p_eptr : p : p = p->p osptr) | 
if (pid>0) { 
if (pOpid != pid) 
continue; 
) else if (pid) { 
if (p->pgrp != current—>pgrp) 
continue; 
} else if (pid != -1) { 
if (p->perp != -pid) 
continue; 
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514 
515 
516 
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539 
940 


551 
552 
553 
054 
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559 


. 352. 


Linux 内 核 源 代 色情 景 分 析 《〈 上册) 


Wait for all children (clone and not) if WALL is set; 


* otherwise, wait for clone children *only* if __WCLONE is 

* set; otherwise, wait for non-clone children *only*. (Note: 

* A “clone” child here is one that reports to its parent 

* using a signal other than SIGCHLD.) */ 

if (((pOexit signal != STGCHLD) ^ ((options & | WCLONE) != 0)) 
&& ! (options & __WALL)) 
continue; 

flag = 1; 


switch (p->state) { 
case TASK STOPPED: 


if (!p->exit code) 
continue; 
if (l! (options & WUNTRACED) && ! (p-^ptrace & PT PTRACED)) 
continue; 
read unlock(&tasklist lock); 
retval = ru ? getrusage(p, RUSAGE BOTH, ru) : 0; 
if (!retval && stat addr) 
retval = put user((p—exit code << 8) | Ox7f, stat addr); 
if (!retval) { 
p-^»exit code - 0; 
retval = p->pid: 
} 


goto end wait4; 


case TASK ZOMBIE: 
current~>times. tms_cutime += 


p->times. tms_utime + p->times. tms cutime; 
current-^times. tms cstimo += 
p->times. tms stime + p->times. tms cstime; 
read unlock(&tasklist lock); 
retval = ru ? getrusage(p, RUSAGE BOTH, ru) : 0; 
if (!retval && stat addr) 
retval = put_user(p->exit code, stat addr); 
if (retval) 
goto end wait4; 
retval - p->pid; 
if (pOp opptr !- pp. ppbtr) { 
write lock irq(&tasklist lock); 
REMOVE LINKS (p); 
p-»p pptr = p-?p opptr; 
SET LINKS (p) ; 
do notify parent (p, STGCHLD) ; 
write unlock irg(&tasklist lock); 
} else 
release task(p); 
goto end wait4; 


default: 


第 4 草 ”进程 与 进程 调度 


560 continue; 

561 j 

562 ] 

563 if (options & . WNOTHREAD) 
564 break; 

565 tsk = next thread(tsk); 
566 } while (tsk != current); 

567 read_uniock (&tasklist_ lock); 
568 if (flag) { 

569 retval = 0; 

570 if (options & WNOHANG) 

571 goto end wait4; 

572 retval = -ERESTARTSYS; 

513 if (signal pending(current)) 
574 goto end wait4; 

575 schedule( ); 

576 goto repeat; 

577 } 

578 retval = -ECHILD; 

579 end wait4: 

580 current->state = TASK RUNNING; 
581 remove_wait_queue (&current~>wait chldexit, &wait) ; 
582 return retval; 

583 } 


这 个 出 goto 实现 的 循 坏 要 到 当前 进程 被 调度 运行 ， 并 且 下 列 条 件 之 一 得 到 满足 时 才 结 束 〈 见 代 个 
中 的 “goto end wait4" i184): 

€ — 所 等 待 的 子 进程 的 状态 变 成 TASK_STOPPED 或 TASK_ZOMBIE; 

o ”所 等 竺 的 子 进程 存在 ,可 是 不 在 小 列 两 个 状态 ， 而 调用 参数 options I) WNOHANG 标志 位 为 

1， 或 者 当前 进程 收 到 了 其 他 的 信号 : 

€ HRSA pid 的 那个 进程 根本 不 存在 ， 或 者 不 是 当前 进程 的 子 进程 。 

FU, 当前 进程 将 其 自身 的 状态 设 成 TASK_INTERRUPTIBLE( 匈 499 行 ) 并 人 在 $75 行 凋 用 schedule( ) 
进入 睡 具 让 草 的 进程 先 运 行 。 当 该 进程 因 收 到 信号 出 被 唤 肯 ， 并 用 受到 调度 从 schedule( anli, X 
经 由 576 行 的 goto 语句 转 回 repeat， 再 次 通过 一 个 for HIE 子 进程 队列 ,看 看 所 等 待 的 子 进程 的 
状态 是 否 满足 条 件 。 这 里 的 for 循环 打 描 一 个 进程 的 所 有 子 进程 ， 从 最 午 轻 的 子 进程 开始 济 着 由 各 个 
task struct 结构 中 的 指针 p_osptr 所 形成 的 链 拉 描 ， 找 寻 与 所 等 待 对 象 的 pid 相符 的 子 进程 、 或 符合 其 
他 一 些 条 件 的 了 进程 。 这 个 for 循环 又 联 套 在 一 个 do while 循环 中 。 为 什么 要 有 这 个 外 层 的 do, while 
循环 呢 ? 这 是 因为 当前 进程 可 能 是 一 个 线程 ， 而 所 等 待 的 对 象 实际 DE B] CERES UE HERO — 
个 线程 的 子 进程 ， 所 以 蓝 通 过 这 个 do while 循环 米 检 查 同一 个 thread. group 中 所有 线程 的 了 进程 。 代 
码 中 的 next_thread( JAIE) -^ thread. group 队列 中 找到 下 个 线程 的 task. struct 结构 ， 并 使 局 部 最 tsk 
指 册 这 个 结构 。 在 我 们 这 个 情景 中 ， 当 父 进程 调用 wait4( ) 而 第 一 次 扫描 其 子 进 程 队 列 时 ， 该 了 进程 尚 
在 运行 ， 所 以 通过 schedule( it ABER. “4 SURE exit ) 时 ， 会 向 父 进程 发 一 个 信号 ， 从 而 将 其 唤醒 。 
怎么 唤醒 呢 ? 我 们 在 前 面 看 到 ,， 子 进程 在 exit_notify( ) 中 通过 do_notify_parent( ) 向 父 进 程 发 送信 号 。 这 
个 函数 准备 下 一 个 siginfo 数据 结构 ， 然 后 调 州 send_sig_info( ) 将 其 发 送 给 父 进 称 ， 并 调 骨 
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wake up. process( ) 将 父 进程 唤醒 。 对 send_sig_info( ) 的 代码 我 们 将 在 “进程 间 通 信 ” 的 信号“ 节 中 介 
绍 。 而 wake_up_process( )， 则 把 父 进程 的 状态 从 TASK_INTERRUPTABLE 改 成 TASK_RUNNING, 并 
将 其 转移 到 可 执行 队列 中 ， 使 schedule( ) 能 够 “看 ”到 父 进 程 而 可 以 调度 其 运行 。 

当 父 进程 因子 进程 在 exit( ) 向 其 发 送信 号 而 被 唤醒 时 , 就 转 回 到 前 面 sys_wait4( ) 中 的 repeat 处 , 又 
一 次 扫描 其 子 进程 队列 。 这 -次 ， 半 进程 的 状态 已 经 改 成 TASK ZOMBIE 了 ， 所 以 父 进程 在 将 子 进程 
在 用 户 空间 运行 的 时 间 和 系统 空间 运行 的 时 间 两 项 统计 数据 合并 入 其 自身 的 统计 数据 中 。 然 后 ， 在 典 
型 的 条 件 下 ， 就 调用 release task( ) 将 子 进程 残存 的 资源 ， 就 是 其 task struct 结构 和 系统 空间 堆栈 ， 全 
都 释放 (exit.c): 


{sys_wait4( ) > release( )] 


25 static void release task(struct task struct * p) 

26 { 

27 if (p != current) { 

28 #ifdef CONFIG SMP 

29 f* 

30 * Wait to make sure the process isn t on the 

3l * runqueue (active on some other CPU still) 

32 */ 

33 for (;;) 1 

34 task lock(p); 

35 if (!p-^has cpu) 

36 break; 

37 task unlock (p); 

38 do { 

39 barrier( ); 

40 } while (p-^has cpu); 

4l } 

42 task_unlock (p) ; 

43 Hendif 

44 atomic_dec (&p—>user->processes) ; 

45 free_uid(p->user) ; 

46 unhash process (p) ; 

47 

48 release thread (p) ; 

49 current->cmin_flt += p->min_flt + p->cmin_flt; 

50 current-^cmaj flt += p-^maj flt + p->cmaj_flt; 

51 current—>cnswap += p->nswap + p-?cnswap; 

52 /* 

53 * Potentially available timeslices are retrieved 
54 * here - this way the parent does not get penalized 
55 * for creating too many processes. 

56 * 

57 * (this cannot be used to artificially ’ generate’ 
58 * timeslices, because any timeslice recovered here 
59 * was given away by the parent in the first place.) 
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60 */ 

61 current-2counter += p->counter: 

62 if (current >counter >= MAX COUNTER) 
63 current->counter = MAX COUNTER: 
64 free_task_struct (p); 

65 } else { 

66 printk( task releasing itself\n”); 
67 } 

68  ] 


这 里 通过 unhash process( ) 把 子 进程 的 task. struct Z& T4 JA Zi Se A PIPER, RISE FREER Both 
几 项 统计 信息 也 合并 入 父 进 程 。 什 于 release thread( ) 只 是 检查 进程 的 LDT( 如 果 有 的 话 ) 是 否 确 已 释放 。 
最 后 ， 就 调用 free task struct( ) task, struct 结构 和 系统 空间 堆 栈 所 占据 的 商 个 物理 页 面 释放 。 

在 sys_wait4( ) 中 还 有 个 特殊 情况 需要 考虑 ， 那 就 是 万 -- 了 了 进程 的 p_opptr 与 p_pptr 不 同 ， 也 就 是 
说 其 “养父 ”与 “生父 ”不 同 。 如 前 所 述 ， 进 程 在 exit( ) 时 ，do_notify_parent( ) 的 对 象 是 其 “养父 ”， 
但 是 当 “ 生 父 ” 与 “养父 ”不 同时 ， 其 “生父 ”可 能 也 在 等 待 ， 所 以 将 子 进程 的 p_pptr 指针 设置 成 与 
_opptr 相同 ， 并 通过 REMOVE LINKS 将 其 task struct 从 其 “养父 ”的 队列 中 脱离 出 来 ， 上 骨 通 过 
SET LINKS 把 它 归 还 给 “生父 ”， 重 新 挂 入 其 “生父 ”的 队列 。 然 后 ， 给 其 “生父 ”发 一 信号 ， 让 它 
自己 来 处 理 。 

此 外 , 根据 当前 进程 在 调用 wait4( ) 时 的 要 求 , 还 可 能 要 把 些 状 态 信息 和 统计 信息 通过 put. user() 
复制 到 用 户 空 间 中 。 如 果 复 制 失败 的 话 , 那 暂 时 就 不 能 将 子 进程 的 task_struct 结构 释放 了 (这 里 的 “goto 
end_wait4” 跳 过 了 对 release( ) 的 调用 )。 在 这 种 情况 下， 系统 中 会 留 下 子 进程 的 “尸体 ”用 户 通过 “ps” 
命令 米 观 察 系统 中 的 进程 状态 时 ， 会 看 到 有 个 进程 的 状态 为 “ZOMBIE”。 读 者 在 前 面 看 证: 在 
exit notify( ) 中 ， 当 父 进 程 要 结束 生命 前 为 其 子 进 程 “ 托 狐 ” 时 ， 还 要 看 一 下 子 进程 的 状态 是 大 
TASK_ZOMBIE， 若 是 的 话 ， 就 要 替 它 调用 do_notify_parent( ) 给 新 的 “养父 ”发 一 信息 ， 就 是 这 个 原 
IN. 

全 此 ， 在 执行 了 release( UG. FER RRS "OK VBUK", 从 系统 中 消失 了 。 

可 是 ， 要 是 父 进程 不 在 wait4( ) 中 等 待 呢 ? 那 也 不 要 紧 。 读 者 在 第 3 章 中 已 经 看 到 ， 每 当 进程 从 系 
统 调用 、 中 断 或 异常 返回 时 ， 都 要 检查 :下 是 否 有 信号 等 待 处 理 ， 如 有 的 话 就 转 入 entry.S 中 的 
signal return 处 调用 do_signal( )。 而 do_signal( ) 中 有 一 个 片段 为 (在 arch/i386/kernel/signal.c 中 ): 


643 ka = &current-^sig-^action[signr-1]; 

644 if (ka->sa. sa handler == SIG IGN) ( 

645 if (signr != STGCHLD) 

646 continue; 

647 | /* Check for SIGCHLD: it's special. */ 

648 while (sys wait4(-1, NULL, WNOHANG, NULL) > 0) 
649 /* nothing */; 

650. continue; 

651 } 


可 见 父 进程 在 收 到 SIGCHLD 信号 后 还 会 被 动 地 来 调用 sys_wait4( )， 此 时 的 调用 参数 pid 为 一 1， 
表示 辣 个 进程 组 中 的 任何 一 个 子 进程 都 在 处 埋 之 列 ( 见 sys_wait4( ) 的 for 循环 中 对 参数 pid 的 比 对 )。 
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当然 ， 如 果 父 进程 已 经 为 SIGCHLD 信和 号 设置 了 其 他 的 处 理 程序 ， 那 就 另 作 别论 了 。 

读者 也 许 还 会 问 ， 息 样 才能 保证 一 定 会 有 系统 调用 、 中 断 或 异常 来 迫使 其 父 进程 执行 do_signal( ) 
WE? F - 父 进 程 在 运行 时 既 不 作 系统 调用 ， 也 不 访问 外 设 ， 更 没有 任何 操作 引起 异常 呢 ? 别 忘 记 时 钟 
中 斯 是 周期 性 地 发 生 的 ， 要 不 然 就 连 调度 也 有 可 能 不 会 发 生 了 ， 正 因为 如 此 ， 时 钟 中 断 才 被 看 作 是 系 
统 的 “心跳 ”。 
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在 多 进程 的 操作 系统 中 ， 进 程 调度 是 一 个 全 局 性 的 、 关 键 性 的 问题 ， 它 对 系统 的 总 体 设 计 、 系 统 
的 实现 、 功 能 设置 以 及 各 方面 的 性 能 都 有 着 决定 性 的 影响 。 根 据 调度 结果 所 作 的 进程 切换 的 速度 ， 也 
是 衡量 一 个 操作 系统 性 能 的 重要 指标 。 进 程 调度 机 制 的 设计 ， 还 对 系统 复杂 性 有 着 极 大 的 影响 ， 常 党 
会 由 于 实现 的 复杂 程度 而 在 功能 与 性 能 方面 作出 必 划 的 权衡 和 让 步 。 一 个 好 的 系统 的 进程 调度 机 制 ， 
要 兼顾 三 种 不 同 应 用 的 需要 : 
€ 交 开 式 应 用 。 在 这 种 应 用 中 ， 着 重 于 系统 的 响应 速度 ， 使 共用 一 个 系统 的 各 个 用 户 〈 以 及 各 个 
应 用 程序 ) 都 能 感觉 到 自己 是 在 独占 地 使 用 一 个 系统 。 特 别 是 ， 当 系统 中 有 大 量 进程 共存 时 ， 
仍 要 能 保证 等 个 用 户 都 有 可 以 接受 的 响应 速度 而 并 不 感到 明显 的 延迟 。 根 据 测 定 ， 当 这 种 延迟 
超过 150 毫秒 时 ， 使 用 者 就 会 明显 地 感觉 到 。 
€ 批 处 理应 用 。 批 处 理应 用 往往 是 作为 “后 台 作 业 ” 运 行 的 ， 所 以 对 响应 速度 并 无 莫 求 ， 但 是 完 
成 一 个 作业 所 需 的 时 间 仍 是 一 个 重要 的 因素 ， 考 虑 的 是 “平均 速度 ”。 
”实时 应 用 。 这 是 时 间 性 最 强 的 应 用 ， 不 但 要 考虑 进程 执行 的 半 均 迷 度 ， 还 要 考虑 “即时 速度 ” 
不 但 要 考虑 响应 速度 5 即 从 某 个 事件 发 生 到 系统 对 此 作出 反应 并 开始 执行 有 关 程 序 之 间 所 需 的 
时 间 )， 还 要 考虑 有 关 程 序 〈 常 常 在 用 户 空间 ) 能 徊 在 规定 时 间 内 执行 完 。 在 实时 应 用 中 , d 
重 的 是 对 程序 执行 的 “可 预测 性 ”。 
另外 ， 进 度 调 度 的 机 制 还 要 考虑 到 “公正 性 ” 让 系统 中 的 所 有 进程 都 有 机 会 向 前 排 进 ， 尽 管 其 进 
度 各 有 不 同 ， 并 最 终 受到 CPU 速度 和 负载 的 影响 。 更 重要 的 是 ， 还 要 防止 “ 死 锁 ”的 发 生 ， 以 及 防止 
对 CPU 能 力 的 不 合理 使 用 ， 也 就 趟 说 要 防止 CPU 尚 有 能 力 且 有 进程 等 着 执行 ， 却 由 于 某 种 原因 而 长 
时 间 得 不 到 执行 的 情况 。 - 旦 这 些 情况 发 咎 时 ， 调 度 机 制 还 应 能 识别 与 化 解 。 可 以 说 ， 关 于 进程 调度 
的 研究 是 整个 操作 系统 理论 的 核心 。 不 过 ， 本 书 的 日 的 在 于 对 Linux 内 核 的 剖析 和 解释 ， 而 不 在 于 理 
论 方面 的 深入 探 计 ， 有 兴趣 的 读者 可 以 阅读 操作 系统 方面 的 专著 。 

为 了 满 是 上 述 的 目标 ， 在 设计 一 个 进程 调度 机 制 时 要 考虑 的 具体 问题 主要 有 : 

(1) 调度 的 时 机 : 在 什么 情况 下 、 什 么 时 候 进行 调度 。 

(2) 调度 的 “政策 ”(policy): 根据 什么 准则 挑选 下 一 个 进入 运行 的 进程 。 

(3) WERYN: Æ “E” (preemptive) 还 是 “不 可 剥夺 ”(nonpreemptive)。 当 正在 这 行 的 
进程 并 不 自愿 暂时 放弃 对 CPU AY “EPR AL” BY, ERT DA a BPE PTI RIS AER, 停止 
HORTA A KER MILS. WR ART AIP, PARLE RE Pa AS, HUE 
“例外 ”? 

这 三 个 问题 ， 特 别 是 第 一 和 第 于 个 问题 ， 是 紧密 结合 在 一 起 的 。 例 如 ， 如 果 调 度 的 性 质 是 绝对 地 

不 可 剥夺 ， 也 就 是 说 坚持 完全 自愿 的 上 原则， 那么 调度 的 时 机 也 就 基本 上 决定 了 ， 只 能 在 有 一 个 进程 自 
愿 调度 的 时 候 才 能 进行 调度 。 相 应 地 ， 就 要 设计 ~ 个“ 原 语 ” 即 系统 调用 ， 让 进程 可 以 表达 自己 的 这 
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^E. IRL, USES HE, WMR 个 进程 因 陷 入 了 人 毕 循 环 而 抓 住 CPU 不 放 该 怎么 兴 。 

这 里 要 说 明 一 下 ,在 中 文 插 也 许诺 该 把 是 否 可 以 剥夺 称 为 “政策 ”， 但 是 在 英文 的 书刊 中 已 经 把 调 
度 准则 或 标准 称 为 “policy”， 所 以 我 们 只 好 把 这 称 为 “方式 ” 以 免 引起 不 必要 的 混淆 。 

进一步 ， 如 果 调 度 的 性 质 是 有 条 件 地 可 测 夺 ， 那 么 ， 在 什么 情况 下 可 刊 夺 就 成 了 重要 的 问题 。 例 
如 ， 可 以 把 时 间 划 分 成 时 间 片 ， 每 个 时 间 片 来 “次 时 钟 中 断 ， 而 调度 可 以 在 时 间 片 中 断 时 进行 。 按 进 
程 的 优先 级 别 的 高 低 进行 调度 ， 每 个 时 间 片 “次 ， 除 此 之 外 就 只 能 在 进程 自愿 时 才 可 进行 调度 。 这 样 ， 
只 要 时 间 片 划分 得 当 ， 交 互 式 应 用 的 归 求 就 可 以 满足 了 。 但 是 ， 这 样 的 系统 显然 不 适合 实时 的 应 用 。 
因为 ， 有 可 能 发 生 “ 急 惊 风 遇 上 慢 郎中 ”的 情况 ， 优 先 级 别 高 的 进程 急 着 要 运行 ， 而 正在 运行 中 的 进 
程 偏偏 “觉悟 不 识 ”， 不 懂得 “ 先 人 后 书 ”， 别 的 进程 只 好 干 等 着 它 把 时 间 片 用 完 而 坐 失 良机 。 从 另 一 
个 角度 讲 ， 这 也 取决 于 技术 的 发 展 ， 特 别 是 CPU 的 速度 。 例 如 ， 就 在 这 么 一 个 系统 中 ， 如 果 可 以 把 时 
间 片 分 小 到 0.5 毫秒 ， 而 CPU 仍 能 在 这 么 短 的 时 间 里 做 足够 多 的 事 ， 那 么 对 一 般 的 实时 应 用 来 说 可 能 
还 是 能 满足 要 求 的， 虽然 从 整体 上 讲 CPU 用 在 调度 与 切换 上 的 开销 所 占 的 比例 上 升 了 。 

ABA, Linux 内 核 的 调度 机 制 到 底 是 什么 样 的 呢 ? 我 们 还 是 分 三 个 方面 来 同 答 这 个 问题 。 

在 往 下 叙述 之 前 ， 此 处 先 给 出 ”个 进程 的 状态 转换 关系 示意 图 (图 4.4)。 


fork( ) 


TASK, RUNNING 







资源 到 位 

wake up interruptible( ) 
REHAS 

wake_up( } 


TASK_INTERRUPTIBLE 
浅 度 睡眠 


收 到 信号 SIG_CONT 
wake_up( ) 










等 待 资源 到 位 
wake_up( ) 


TASK UNINTERRUPTIBLE 
HEBES 


schedule( ) 

















等 待 资源 到 位 等 待 资源 到 位 
sleep on( ) interruptible sleep. on( ) 
schedule( ) schedule( ) 










ptrace( ) 
schedule( ) 


TASK STOPPED 
暂停 


do_exit( ) 










TASK_ZOMBIE 
死亡 位 户口 未 注销 





4.4 进程 状态 转换 图 


先 看 调度 的 时 机 。 
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首先 ， 自 愿 的 调度 随时 都 可 以 进行 。 在 内 核 里 面 ， 一 个 进程 可 以 通过 schedule( ) 启动 一 次 调度 ， 
当然 也 可 以 在 调用 schedule( ) 之 前 ， 将 本 进程 的 状态 设置 成 为 TASK_INTERRUPTIBLE 或 
TASK_UNINTERRUPTIBLE， 暂 时 放弃 运行 市 进 入 睡眠 。 在 用 户 空 间 中 ， 则 可 以 通过 系统 调用 pause() 
来 达到 同样 的 目的 。 也 可 以 为 这 种 自愿 的 暂时 放弃 运行 加 | 时间 限制 。 在 内 核 中 有 schedule_timeout( ) 
用 于 此 项 目的 ， 相 应 地 ， 在 用 户 空间 则 可 以 通过 系统 调用 nanosleep( ) 而 达到 日 的 《注意 ，sleep( ) 是 库 
A, PRASAD, CRA BEARS Km). KEM: ANAS, RAPS 
(8 P EX I ASE TLS; E Bi ARETE A LA, ERRE Ht nr RESERR 
的 系统 调用 中 。 几 乎 所 有 涉及 到 外 设 的 系统 调用 ， 如 open(). read(). write( ) 和 select( ) 等 ， 都 是 可 能 
受阻 的 。 

除 此 之 外 ， 调 度 还 可 以 非 自愿 地 ， 即 强制 地 发 生 在 每 次 从 系统 调用 返回 的 前 夕 ， 以 及 每 次 从 中 斯 
或 异常 处 理 返回 到 用 户 空间 的 前 夕 。 注 意 ， 这 里 “返回 到 用 户 空 间 ” 几 个 字 是 关键 性 的 ， 因 为 这 意味 
着 只 有 在 用 户 空间 〈 当 CPU CHP ST) 发 生 的 中 断 或 异常 才 会 引起 调度 。 关 于 这 一 点 我 们 在 
第 3 章 讲述 中 断 返 回 时 提 到 过 ， 但 是 有 必要 在 此 加 以 强调 ， 并 重 温 entry.S 中 的 两 个 片段 : 


260 ret from exception: 
261 #ifdef CONFIG SMP 


267 else 

268 movl SYMBOL NAME (irq stat), %ecx # softirq active 
269 testl SYMBOL NAME(irq stat)^4, %ecx # softirq mask 
270 #endif 

271 jne handle softirq 

212 

213 ENTRY (ret from intr) 

274 GET CURRENT (%ebx) 

275 movl EFLAGS (%esp) , %eax # mix EFLAGS and CS 

276 movb CS (esp), %al 

277 test] $(VM MASK | 3), %eax # return to VM86 mode or non-supervisor? 
278 jne ret_with_reschedule 

279 jmp restore_all 


277 行 中 寄存 器 EAX 的 内 容 有 两 个 来 源 , ECRICAT ATR K RTTE P BOE AP RU A ELSE 
器 CS 的 内 容 ， 最 低 的 两 位 表示 当时 的 运行 级 别 。 从 代码 中 可 以 看 到 ， 转 入 ret_with_reschedule 的 条 件 
为 中 断 (成 异常 ) 发 生前 CPU 的 运行 级 别 为 3， 即 用 户 状态 我们 让 这 里 不 关心 VM_MASK， 那 是 为 
VM86 模式 而 设置 的 )。 这 一 点 对 于 系统 的 设计 和 实现 有 很 重要 的 意义 。 因 为 那 意味 着 当 CPU EAK 
中 运行 时 无 需 考虑 蝇 制 调度 的 可 能 性 。 发 生 在 系统 空间 的 中 断 或 异常 当然 是 可 能 的 ， 但 是 这 种 中 断 或 
异常 不 会 引起 调度 。 这 就 使 内 核 的 实现 简化 了 ， 早 期 的 Unix 内 核 正 是 靠 这 个 前 提 来 简化 其 设计 与 实现 
的 。 理 则 的 话 ， 内 核 中 所 有 可 能 为 一 个 以 上 进程 共享 的 变量 和 数据 结构 就 全 都 要 通过 互 斥 机 制 《 如 信 
St) 加 以 保护 ， 或 者 说 都 要 放 在 临界 区 中 。 不 过 ， 随 着 多 处 理 器 SMP 系统 结构 的 出 现 以 及 日 益 广泛 
的 采用 ， 这 种 简化 正在 失去 重要 性 。 在 多 处 理 器 SMP 系统 路 《〈 见 “多 处 理 器 SMP 系统 结构 ”一 章 )， 
尽管 在 内 核 中 由 于 不 会 发 生 调 度 而 雹 需 考 虑 二 斥 ， 但 却 不 能 不 考虑 在 另 一 个 处 理 嚣 上 运行 的 进程 访问 
共享 资源 的 可 能 性 。 这 样 ， 不 管 在 同一 个 CPU 上 古谷 有 可 能 在 内 核 中 发 生 调度 ， 所 有 可 能 为 多 个 进程 
《可 能 在 不 同 的 CPU 上 运行 ) 共享 的 变量 和 数据 结构 ， 都 得 保 坊 起 来 。 这 就 是 读者 在 阅读 代码 时 看 到 
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那么 多 的 up( )、down( ) 等 信号 量 操作 或 加 锁 操 作 的 原因 。Linux 内 核 中 一 般 将 用 于 多 处 理 器 SMP 结构 
的 代码 放 在 条 件 编译 ##fdef __SMP __ 中 ， 介 是 却 没有 把 这 些 用 于 互 斥 保护 的 操作 也 放 在 条 件 编译 中 。 
究 其 原因 ， 一 来 可 能 是 太 多 了 ， 加 不 胜 加 ， 再 说 在 单 处 理 嚣 条件 下 的 运行 时 开销 也 不 大 ， 二 来 也 是 为 
日 后 对 调度 机 制 的 改进 奠定 苦 础 。 

ABA Linux 现行 的 这 种 调度 机 制 有 什么 缺点 或 不 足 ， 为 什么 可 能 会 有 HH 后 的 改进 呢 ? 例 如 ， 丰 实 
时 的 应 用 中 ， 某 个 中 断 的 发 生 可 能 不 但 要 求 迅速 的 中 断 服 务 ， 还 要 求 迅 速 地 调度 有 关 进 程 进 入 运行 ， 
以 使 在 较 高 的 层次 上 ， 也 就 是 在 用 户 空 间 中 对 事件 进行 及 时 的 处 理 。 可 是 ， 如 果 这 样 的 中 断 发 生 在 内 
核 中 时 ， 本 次 中 断 返 丫 是 不 会 引起 调度 的 ， 而 要 到 最 初 使 CPU 从 用 户 空间 进入 内 核 的 那 次 系统 调用 或 
中 断 《 或 异常 ) 返回 时 小 会 发 生 调度 。 锁 车 内 核 中 的 这 上 段 代 但 恰好 需要 较 长 时 间 完 成 的 话 ， 或 者 连续 
又 发 生 几 次 中 断 的 话 ， 就 可 能 将 调度 过 分 地 推迟 。 良 好 的 内 核 代码 可 以 减 径 这 个 问题 ， 但 并 不 能 从 根 
本 上 解决 问题 。 所 以 这 是 个 设计 问题 而 不 是 实现 问题 。 只 是 ， 随 着 CPU 速度 变 得 越 来 越 快 ， 这 个 问题 
渐渐 地 变 得 不 那么 重要 了 。 

注意 ,“ 从 系统 空间 返 问 到 用 户 空 间 ” 只 是 发 生 调 度 的 必要 条 件 ， 而 不 是 充分 条 件 。 具 体 是 否 发 生 
洞 度 偿 要 在 有 无 此 种 要 求 ， 看 一 下 entry.S 中 的 这 一 段 代 但: 


217 ret_with_reschedule: 


218 cmpl $0, need_resched (%ebx) 
219 jne reschedule 

220 cmpl $0, sigpending (*ebx) 
221 jne signal return 

222 restore all: 

223 RESTORE ALL 


287 reschedule: 
288 call SYMBOL NAME (schedule) # test 
289 jmp ret from sys call 


可 见 , 只 有 在 当前 进程 的 task_struct 结构 中 的 need, resched 字段 为 非 0 时 才 会 转 刘 reschedule 处 调 
用 schedule( )。 邓 么 ， 谁 来 设 团 这 个 字段 呢 ? 当然 症 内 核 ， 从 用 户 空间 是 访问 不 到 进程 的 task. struct 结 
构 的 。 可 是 ， 内 核 在 什么 情况 下 设置 这 个 字段 呢 ? BRAY TERE cl SR EUR DLE HB HT DUE ERR 
而 用 中 内 菜 种 原因 受 附 以 外 ， 主 要 就 是 当 因 某 种 原 大 唤醒 一 个 进程 的 时 候 ， 以 及 在 时 钟 中 断 服 务 程序 
发 现 当前 进程 山 经 连续 运行 信 久 的 时 候 。 

再 看 调度 的 方式 。 | 

Linux ARARSA EA UU ARRE” 方式 。 当 进程 在 用 户 空间 运行 时 ， 不 管 自愿 不 
门 愿 ， 一 且 有 必要 《例如 已 经 运行 了 足够 长 的 时 间 )， 内 核 就 可 以 暂时 剥夺 其 运行 而 调度 其 他 进程 进入 
运行 。 可 是 , … 卫 进程 进入 了 内 核 空间 , 或 者 说 进入 了 “长 官 ”(supervisor) 模式 ， 那 就 好 像 是 进 了 “高 
层 ” 而 “ 刑 人 不 上 大大” 了。 这 时 候 ， 尽 管内 核 知 送 应 该 要 调度 了 ， 但 实际 上 却 不 会 发 生 ，，. 青 要 到 该 
进程 即将 “下 台 ”， 也 就 是 同 到 用 户 空 间 的 前 夕 才 能 录 夺 其 运行 。 所 以 ，Linux 的 调度 方式 从 原则 上 来 
说 是 可 剥夺 的 , 可 是 在 实际 运行 中 由 十 调度 时 机 的 限制 而 变 成 了 有 条 件 的 。 正 因为 这 样 , 有 的 书 说 Linux 
的 调度 是 本 剥夺 的 ， 有 的 却说 是 不 可 剥夺 的 ， 甚 至 同一 本 书 中 有 时 候 说 是 可 剥夺 的 ， 有 时 候 又 说 是 不 
可 测 夺 的 ， 其 原因 盖 出 于 此 。 

那么 ， 莘 夺 式 的 调度 发 生 在 什么 时 候 呢 ?同样 也 是 发 牛 存 进程 从 系统 空间 (包括 | 办 系 统 调用 进入 
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Aw) 返 叫 用 户 空间 的 前 夕 。 

至 于 调度 政策 ， 基 本 上 是 从 UNIX 继承 下 来 的 以 优先 级 为 基础 的 调度 。 内 核 为 系统 中 的 每 个 进程 
计算 出 ~ 个 反映 其 运行 “资格 ”的 权 值 ， 然 后 挑选 权 值 最 高 的 进程 投入 运行 。 在 运行 过 程 中 ， 当 前 进 
程 的 资格 随时 间 而 递减 ， 从 而 在 下 一 次 调度 的 时 候 原来 资格 较 低 的 进程 可 能 就 更 有 资格 运行 了 。 到 所 
有 进程 的 资格 都 变 成 了 0 时 ， 就 重新 计算 一 次 所 有 进程 的 资格 。 资 格 的 计算 主要 是 以 优先 级 为 基础 的 ， 
所 以 说 是 以 优先 级 为 基础 的 调度 。 

但 是 ， 为 了 适应 各 种 不 同 应 用 的 需要 ， 内 核 在 此 基础 上 实现 了 三 种 不 同 的 政策 ， SCHED_FIFO、 
SCHED RR 以 及 SCHED_OTHER。 每 个 进程 都 有 自己 的 适用 的 调度 政策 ， 并 且 ， 进 程 还 可 以 通过 系统 
调用 sched. setscheduler( ) 设 定 自 己 适 用 的 调度 政策 。 其 中 SCHED_FIFO 适合 于 时 间 性 要 求 比较 蝇 、 但 
每 次 运行 所 需 的 时 间 比 较 短 的 进程 ， 实 时 的 应 用 大 者 具有 这 样 的 特点 。SCHED_RR 中 的 “RR” 表 示 

“Round Robin”， 是 轮流 的 意 岂 ， 这 种 政策 适合 比较 大 、 也 就 是 每 次 运行 需 时 较 长 的 进程 。 而 除 此 二 
者 之 外 的 SCHED_OTHER， 则 为 传统 的 调度 政策 ， 比 较 适 合 于 交互 式 的 分 时 应 用 。 

既然 针 个 进程 都 有 自己 的 适用 调度 政策 ， 内 核 怎样 在 适 几 不 同调 度 政策 的 进程 之 间 决 定 取舍 呢 ? 
实际 上 最 后 还 是 都 归结 到 各 个 进程 的 权 值 ， 只 不 过 是 在 计算 资格 时 把 适用 政策 也 考虑 进去 ， 就 好 像 考 
大 学 时 符合 某 些 特 殊 条 件 的 考生 可 以 获得 加 分 一 样 。 同 时 ， 对 于 适用 不 同 政策 的 进程 的 优先 级 别 也 加 
了 限制 。 我 们 将 结合 代码 更 深入 地 讨论 这 些 政策 间 的 差异 和 作用 。 

下 面 ， 我 们 就 结合 代码 深入 到 调度 和 切换 的 过 程 中 去 。 在 本 节 中 我 们 先 看 一 个 主动 调度 ， 也 就 是 
由 当前 进程 自愿 调用 schedule( ) 暂 时 放弃 运行 的 情景 。 在 exit( ) 一 节 中 ， 读 者 己 经 看 到 个 止 在 结束 生 
命 的 进程 在 do_exit( ) 中 的 最 后 一 件 事 就 是 调用 schedule( ), 我 们 就 从 这 里 接着 往 下 看 ,深入 到 schedule( ) 
里 面 去 ， 其 代码 在 kernel/sched.c FP: 


498 /* 

499 * "schedule( )' is the scheduler function. It's a very simple and nice 
500 * scheduler: it's not perfect, but certainly works for most things. 
501 * 

502 * The goto is “interesting” 

503 * 

504 *  NOTE!! Task 0 is the 'idle' task, which gets called when no other 
505 * tasks can run. It can not be killed, and it cannot sleep. The ’ state’ 
506 * information in task[0] is never used 

507 */ 

508 asmlinkage void schedule (void) 

509 { 

510 struct schedule data * sched data; 

511 struct task struct *prev, *next, *p; 

512 struct list head *tmp; 

513 int this epu, c; 

514 

515 if (!current— active mm) BUG( ); 

516 need resched back: 

517 prev = current; 

518 this epu = prev-^processor; 

519 

520 if (in interrupt ( )) 
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521 goto scheduling in interrupt; 

522 

523 release kernel lock(prev, this cpu): 

524 

525 /* Do “administrative” work here while we don't hold any locks */ 
526 if (softirq active(this cpu) & softirq mask(this cpu)) 

527 goto handle softirq; 

528 handle softirq back: 

529 


这 个 函数 中 使 用 了 许多 goto 语句 。 对 十 这 么 一 个 非常 频繁 地 执行 的 函数 ， 把 运行 效率 放 在 第 一 
位 是 可 以 理解 的 ， 只 是 给 阅读 和 理解 带 米 了 一 些 困难 。 

以 前 我 们 讲 过 ， 在 task struct 结构 中 有 两 个 mm. struct 指针 。 一 个 是 mm， 指 向 代表 着 进程 的 虞 让 
《用 户 ) 空间 的 数据 结构 。 如 果 当 前 进程 实际 上 是 个 内 核 线程 ， 那 就 没有 用 户 空间 ， 所 以 其 mm 指针 
为 0， 运 行 时 就 要 暂时 借用 在 它 之 前 运行 的 那个 进程 的 active_mm。 所 以 ， 正 在 运行 中 的 进程 ， 也 即 当 
前 进程 ， 在 进入 schedule( ) 时 其 active_mm 一 定 不 能 是 0 (9.515 行 )。 后 面 我 们 还 要 回 到 这 个 话题 上 。 

以 前 讲 过 ,对 schedule ) 只 能 由 进程 在 内 核 中 主动 调用 , 或 者 在 当前 进程 从 系统 空间 返 芝 用户 空间 
的 前 夕 被 动 地 发 生 ， 而 不 能 在 一 个 中 断 服务 程序 的 内 部 发 咎 。 即 使 “个 中 断 服务 程序 有 调度 的 要求 ， 
也 只 能 通过 把 当前 进程 的 need_resched 字段 设 成 1 米 表 达 这 种 获 求 , 而 不 能 直接 调用 schedule( )。 读者 
也 许 会 问 ， 我 们 在 第 3 章 中 看 到 ， 在 执行 中 断 服务 程序 的 时 候 是 允许 开 中 断 的 ， 如 果 在 执行 过 程 中 发 
^E T REPT, 那么 当 从 冉 套 的 中 断 返 回 时 不 是 也 要 调用 schedule( ) 吗 ? 那 不 就 等 于 是 在 中 断 服 务 程序 
的 内 部 调用 了 这 个 函数 吗 ? 其 实 ， 从 娩 套 的 中 断 返 加 时 不 会 调用 schedule( ), 因为 此 时 的 中 断 返回 并 不 
是 返 问 到 用 户 空间 。 还 要 注意 : 因 中 断 而 进入 内 核 并 不 等 于 已经 进入 了 其 个 中 断 服 务 程序 ， 而 当 CPU 
要 从 系统 空间 返回 用 户 空间 之 时 则 已 经 离开 了 县 体 的 中 断 服务 程序 ， 详 见 第 3 党 。 所 以 ， 如 果 在 此 个 
中 断 服 务 程序 内 部 调用 schedule( )， 那 一 定 是 有 问题 了 ， 所 以 转向 scheduling_in_interrupt。 接 者 看 


sched.c: 


[schedule( )] 

686 scheduling in interrupt: 

687 printk( Scheduling in interruptW^); 
688 BUG( ) ; 

689 return; 





内 核对 此 的 反应 是 显示 或 者 在 /var/log/messages 文件 末尾 添上 一 条 出 错 信息 ， 然 后 执行 一 个 宏 操 
fe BUG， 这 是 在 include/asm-i386/page.h 中 定义 的 : 


85 /* 

86 * Tell the user there is some problem. Beep too, so we can 
87 * see HH Hhear bugs in early bootup as well! 

88 */ 

89  &define BUG( ) do { \ 

90 printk( kernel BUG at %s:%d!\n", _ FILE__, _ LINE. ): \ 
91 asm — volatile  (". byte OxOf, 0x0b”); V 
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92 ) while (0) 


这 里 的 奥妙 之 处 是 在 91 行 中 淮 备 下 了 两 个 字 节 0x0f 和 OxOb, ik CPU 当 作 指令 去 执行 。 可 是 由 这 
天 个 字 节 构成 的 是非 法 指令 ， 因 而 会 产生 … 次 “非法 指令 〈invalid op)” W, E CPU 执行 
do_invalid_op( )。 当 然 ， 在 实际 运行 中 这 样 的 错误 《在 中 断 服务 程序 或 bf 函数 的 内 部 调用 schedule( )) 
是 不 会 发 生 的 ， 除 非 正在 调试 用 户 自己 编写 的 中 断 服务 程序 。 

我 们 回 过 头 来 继续 往 下 看 schedule( )， 这 里 523 行 的 relsase_kernel_lock( ) 对 于 1386 单 处 理 器 系统 
为 空 语 多， 所 以 接着 就 是 检查 是 否 有 内 核 软 中 段 服务 请 求 在 等 待 〈《 见 第 3 章 )。 如 果 有 就 转 入 
handle, softirq 为 这 些 请 求 服务 ; 


[schedule( )] 

675 handle, softirq: 

676 do softirq( ); 

671 goto handle softirg back; 
从 执行 softirq 队列 完毕 以 后 继续 往 下 看 : 

[schedule( )] 


528 handle softirq back: 


529 

530 /* 

531 * 'sched data' is protected by the fact that we can run 
532 * only one process per CPU. 

533 */ 

534 sched data - & aligned data[this cpu]. schedule data; 
535 

536 spin lock irq(&runqueue lock); 

537 

538 /* move an exhausted RR process to be last.. */ 

539 if (prev->policy == SCHED RR) 

540 goto move rr last; 

541 move rr back: 


SEL sched data 指向 一 个 schedule data 数据 结构 , 川 来 保存 供 下 一 次 调度 时 使 用 的 信息 (sched.c): 


91 /* 

92 * We align per-CPU scheduling data on cacheline boundaries, 
93 * to prevent cacheline ping-pong 

94 */ 

95 static union | 

96 struct schedule data { 

97 struct task struct * curr; 

98 cycles t last schedule; 

99 ] schedule data; 
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100 char | pad [SMP CACHE BYTES]: 
101 } aligned data [NR CPUS] __cacheline aligned = ( {{&init task, 0}}}; 


这 里 的 类 型 cycles t 实际 上 是 励 符号 整数 ， 用 来 记录 调度 发 生 的 时 间 。 这 个 数据 结构 是 为 多 处 理 
器 SMP 结构 而 设 的 ， 所 以 我 们 在 这 里 并 不 关心 。 数 组 中 的 第 一 个 元 素 ， 即 CPU 0 的 schedule data £i 
构 初 始 化 成 {&init_task, 0}， 其 余 的 则 全 为 {0,0}。 代码 中 __cacheline_aligned 表示 数据 结构 的 起 点 应 与 
高 速 缓存 中 的 缓冲 线 对 齐 。 

下 面 就 要 涉及 可 执行 进程 队列 了 ， 所 以 先 将 这 个 队列 锁 住 ， 以 防止 来 自 其 他 处 理 器 的 干扰 。 如 果 
当前 进程 prev 的 调度 政策 为 SCHED_RR， 即 轮换 调度 ， 那 就 要 先进 行 一 点 特殊 的 处 理 。SCHED_RR 
和 SCHED_FIFO 都 是 基于 优先 级 的 调度 政策 ,可 是 在 怎样 调度 具有 相同 优先 级 的 进程 这 个 问题 上 二 者 
有 有 区别。 调度 政 策 为 SCHED_FIFO 的 进程 “ 口 受 到 调度 而 开始 运行 之 后 ， 就 要 一 让 运行 到 白 愿 让 出 或 
者 被 优先 级 更 高 的 进程 剥夺 为 止 。 对 于 冬 次 受到 调度 时 要 求 运 行 时 间 不 长 的 进程 ， 这 样 并 没有 什么 不 
X. 可 是 ， 如 果 是 受到 调 瞩 后 可 能 会 长 时 间 运 行 的 进程 ， 那 样 就 不 公平 了 。 这 种 不 公正 性 是 对 具有 相 
同 优先 级 的 进程 而 言 的 。 央 为 具有 更 高 优先 级 的 进程 可 以 剥夺 它 的 运行 ， 而 优先 级 更 低 的 进程 则 本 米 
就 没有 机 会 运行 。 但 是 ， 这 样 对 具有 相同 优先 级 的 其 他 进程 就 不 公平 了 。 所 以 ， 对 这 样 的 进程 应 该 实 
ÍT SCHED_RR 调度 政策 ， 这 种 政策 在 相同 的 优先 级 上 实行 轮换 调度 。 也 就 是 说 ， 对 调度 政策 为 
SCHED RR 的 进程 有 个 时 间 配 额 ， 用 完了 这 个 配额 就 此 让 具有 相同 优先 级 的 其 他 就 绪 进 程 先 运行 。 这 
里 ， 就 是 对 调度 政策 为 SCHED_RR 的 当前 进程 的 这 种 处 理 Csched.c): 


[schedule( )] 

679 move rr last: 

680 if (!prev->counter) { 

681 prev-?counter = NICE _TO_TICKS (prev->nice) ; 
682 move_last_runqueue (prev) ; 

683 } 

684 goto move rr back; 

685 


这 是 什么 意思 昵 ? 这 里 的 prev-»counter 代表 着 当前 进程 的 运行 时 间 配 额 ， 其 数值 在 每 次 时 钟 中 断 
时 都 要 递减 。 这 是 在 一 个 冰 数 update process times( ) 中 进行 的 ， 详 见 下 一 和。 不 管 一 个 进程 的 时 间 配 
人 额 有 多 高 ， 随 着 运行 时 间 的 积累 最 终 总 会 递减 到 0。 对 十 调度 政策 为 SCHED_RR 的 进程 ， 一 旦 其 时 间 
配额 降 到 了 0， 就 要 从 可 执行 进程 队列 runqueue 中 当前 的 位 置 上 移 到 队列 的 末尾 ， 同 时 恢复 其 最 初 的 
时 间 配 额 。 对 于 有 具有 相同 优先 级 的 进程 ， 调 度 的 时 候 排 在 前 面 的 进程 优先 ， 所 以 这 使 队列 中 具有 相同 
优先 级 的 其 他 进程 有 了 优势 。 宏 操作 NICE_TO_TICKS 根据 系统 时 钟 的 精度 将 进程 的 优先 级 别 换算 成 
可 以 运行 的 时 间 配 额 ， 这 也 是 华 sched.c 中 定义 的 : 


44 /* 

45 * Scheduling quanta. 

46 * 

47 * NOTE! The unix "nice^ value influences how long a process 
48 * gets. The nice value ranges from -20 to +19, where a -20 
49 * is a “high-priority” task, and a “+10” is a low-priority 
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50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 


* task. 
* 


Linux 内 核 源 代码 情景 分 析 CEM) 


* We want the time-slice to be around 50ms or so, so this 
* calculation depends on the value of HZ. 


*/ 
tif HZ < 200 
#define TICK SCALE (x) 
Helif HZ < 400 
#define TICK SCALE(x) 
#elif HZ < 800 
define TICK SCALE (x) 
#elif HZ < 1600 
define TICK SCALE (x) 
Helse 
Sdefine TICK SCALE (x) 
ttendif 


((x) >> 2) 
((x) > D 
(x) 

((x) << D 


((x) << 2) 


tidefine NICE TO TICKS (nice) (TICK SCALE (20- (nice) ) +1) 


将 一 个 进程 的 task. struct 结构 从 可 执行 队列 中 的 当前 位 置 移 到 队列 的 林 尾 是 由 move, last, runqueue 


完成 的 : 


[schedule( ) > move, last runqueue( )] 


309 
310 
311 
312 
313 


static inline void move last runqueue (struct task struct * p) 


{ 


list del (&p->run list); 
list add tail (&p->run_list, &runqueue head): 


} 


SCAR AS $]u] putr ERE BAU Ra: PARA UAR TOSS e ERR. (Ae fT 个 资格 与 
ABIRIAIERETPTE, HbA, ABS EK A AEB) TT RETE RET EP SS SO |. ARAL AT. schedule( ) ET 
Æ (sched.c): 


[schedule( )] 


541 
542 
543 
544 
545 
546 
547 
548 
549 
550 
551 


move rr back: 


switch (prev->state) { 
case TASK INTERRUPTIBLE: 
if (signal_pending(prev)) { 
prev->state = TASK RUNNING; 


break: 


} 


default: 


del_from_runqucue (prey) ; 
case TASK RUNNING: 
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552 } 
553 prev—>need_resched = 0; 


当前 进程 就 是 正在 运行 中 的 进程 ， 可 是 当 进 入 schedule( ) 时 其 状态 却 不 一 定 是 TASK_RUNNING。 
例如 ， 在 我 们 这 个 情景 中 ， 当 前 进程 已 在 do_exit( ) 中 将 其 状态 改 成 了 TASK_ZOMBE。 又 例如 , 前 - 
节 中 我 们 看 到 当前 进程 在 sys_wait4( ) 中 调用 schedule( ) 时 的 状态 为 TASK_INTERRUPTIBLE。 所 以 ， 
这 里 的 prev->state 与 其 说 是 当前 进程 的 状态 还 不 如 说 是 其 意愿 。 正 因为 这 样 ， 当 其 意愿 味 不 是 继续 进 
行 也 不 是 可 中 断 的 睡眠 时 ， 就 要 通过 del from runqueue( ) 把 这 进程 从 可 执行 队列 中 撤 下 来 。 另 一 方面 ， 
也 可 以 看 出 TASK INTERRUPTIBLE 与 TASK, UNINTERRUPTIBLE 两 种 睡眠 状态 之 问 的 区 别 ， 前 者 
在 进程 有 信和 号 等 待 处 理 时 要 将 其 改 成 TASK_RUNNING， 计 其 处 理 完 这 些 信和 号 再 说 ， 而 后 者 则 不 受信 
号 的 影响 ,请 注意 , A 548 行 与 549 行 之 间 并 无 break 庄 句 ,所 以 当 没 有 信号 等 待 处 理 时 就 落 入 了 default 
的 情形 ， 同 样 要 将 进程 从 可 执行 队列 中 撤 下 来 。 反 之 ， 如 果 当 前 进程 的 意愿 是 TASK_RUNNING， 即 
继续 进行 ( 见 551 行 )， 那 在 这 里 就 不 需要 有 什么 特殊 处 理 。 

然后 ， 将 prev->need_resched 恢复 成 0， 因为 所 需求 的 调度 已 经 在 进行 。 下 面 就 要 挑选 一 个 进程 来 
运行 了 (sched.c): 


[schedule( )] 

555 /* 

556 * this is the scheduler proper: 

557 x/ 

558 

559 repeat schedule: 

560 /* 

561 * Default process to select. 

562 */ 

563 next = idle task(this cpu); 

564 c = -1000; 

565 if (prev->state == TASK RUNNING) 

566 goto still running; 

567 

568 still running back: 

569 list for each(tmp, &runqueue head) | 
570 p = list entry(tmp, struct task struct, run list); 
571 if (can schedule(p, this cpu ) { 
572 int weight = goodness(p, this cpu, prev->active_mm) ; 
573 if (weight > c) 

574 c = weight, next = p; 
575 } 

576 } 


在 这 段 程序 中 ，next 总 是 指向 已 知 最 住 的 候选 进程 ，c 则 是 这 个 进程 的 综合 权 值 ， 或 运行 资格 。 挑 
选 的 过 程 从 idle 进程 即 0 号 进程 开始 ， 其 权 值 为 一 1000， 这 是 可 能 的 最 低 值 ， 表 示 仅 在 没有 其 他 进程 
可 以 运行 时 才 会 让 它 运 行 。 然 后 ， 遍 历 可 执行 队列 ranqueue 中 的 每 个 进程 〈 在 单 CPU 系统 中 
can_schedule( ) 的 返回 但 水 远 为 1)， 也 就 是 般 操 作 系统 教科 书 中 所 称 的 “就 绪 ” 进 程 ， 为 每 一 个 这 样 
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的 进程 通过 函数 goodness( ) 计 算出 它 当前 所 具有 的 权 值 ， 然 后 与 当前 的 最 高 值 c 相 比 。 注 意 这 里 的 条 
件 “weight > c”， 这 意味 着 “先入 为 大 ”。 也 就 是 说 ， 如 果 两 个 进程 共有 相同 权 倘 的话 ， 那 就 是 排 在 前 
面 的 进程 胜出 。 代 码 中 的 list for each 是 个 宏 定 义 ， 定 义 于 include/linux/list.h: 


144 /*% 

145 * list for each -  iterate over a list 

146 * @pos: the &struct list head to use as a loop counter. 
147 * Ghead: the head for your list. 

148 */ 

149 define list for each(pos, head) \ 

150 for (pos = (head) next; pos != (head); pos = pos—>next) 


这 里 还 有 -一 个 小 插曲 ， 就 是 如 果 当 前 进程 的 意图 是 继续 运行 , 那 就 要 先 执行 -- 下 still. running 
Csched.c) : 


[schedule( )] 


670 still running: 


671 c = goodness (prev, this cpu, prev—>active mm); 
672 next = prev; 

673 goto still running back; 

674 


也 就 是 说 ， 如 果 当 前 进程 想 要 继续 这 行 ， 籼 么 在 挑选 候选 进程 时 以 当前 进程 此 刻 的 权 值 并 始 。 这 
意味 者 ， 相 对 于 权 值 相同 的 其 他 进程 来 说 ， 当 前 进程 优先 。 
那么 ， 进 程 的 当前 权 值 是 怎样 计算 前 昵 ?请 看 goodness ) 的 代码 (sched.c): 


[schedule( ) > goodness( )] 


123 /* 

124 * This is the function that decides how desirable a process is. 

125 * You can weigh different processes against each other depending 

126 * on what CPU they' ve run on lately etc to try to handle cache 

127 * and TLB miss penalties. 

128 * 

129 * Return values: 

130 * — -1000: never select this 

131 * 0: out of time, recalculate counters (but it might still be 

132 * selected) 

133 * +ve: “goodness” value (the larger, the better) 

134 * +1000: realtime process, select this 

135 */ 

136 

137 static inline int goodness (struct task struct * p, int this cpu, 
struct mm_struct *this_mm) 

138 { 


- 366 . 


139 
140 
141 
142 
143 
144 
145 
146 
147 
148 
149 
150 
151 
152 
153 
154 
155 
156 
157 
158 
159 
160 
161 
162 
163 
164 
165 
166 
167 
168 
169 
170 
171 
172 
173 
174 
175 
176 
177 
178 
179 
180 
181 
182 
183 
184 
185 
186 


第 4 章 ”进程 与 进程 调度 


int weight; 


/* 

* select the current process after every other 
* runnable process, but before the idle thread 
* Also, dont trigger a counter recalculation. 


*/ 
weight = -1; 
if (p-^policy & SCHED YIELD) 
goto out; 
/* 
* Non-RT process - normal case first. 
*/ 
if (p->policy == SCHED OTHER) { 
/* 
* Give the process a first-approximation goodness value 
* according to the number of clock-ticks it has left. 
* 
* Don’ t do any other calculations if the time slice is 
* over.. 
*/ 


weight = p->counter;: 
if (!weight) 
goto out; 


#ifdef CONFIG SMP 
/* Give a largish advantage to the same processor... */ 
/* (this is equivalent to penalizing other processors) */ 
if (p-^processor == this cpu) 
weight += PROC CHANGE PENALTY; 
#endif 


/* ... and a slight advantage to the current MM */ 
if (p-^mm == this mm || !p->mm) 
weight += 1; 
weight += 20 - p—nice; 
goto out; 


/* 

* Realtime process, select the first one on the 
* runqueue (taking priorities within processes 
* into account). 

*/ 

weight = 1000 + p->rt_priority; 

out: 
return weight; 
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首先 ， 如 果 一 个 进程 通过 系统 调用 sched_yield( ) 基 确 表 示 了 “礼让 ”后 ， 就 将 其 权 值 定 为 一 1。 这 
是 很 低 的 权 人 位， 一 般 就 绀 进程 的 权 值 至 少 起 0。 

对 于 没有 实时 要 求 的 进程 ， 即 调度 政策 为 SCHED_OTHER Wb, HARE RMAF TAR. 
-个 因素 是 剩 下 的 时 间 配 额 ， 如 果 册 完了 则 权 值 为 0。 另 一 个 因素 是 进程 的 优先 级 nice， 这 是 从 早期 
Unix 沿用 下 来 的 负 向 优先 级 ， 其 数值 表示 “谦让 ”的 程度 ， 所 以 称 为 “nice”。 其 取 值 范围 为 19~ 一 20， 
以 一 20 为 最 高 ， 只 有 特权 用 户 才能 把 nice 值 设置 成 小 十 0; 而 (20 一 p->nice》 则 掉 转 了 它 的 方向 成 
为 1 至 40。 所 以 ， 综 合 的 权 值 在 时 间 配 额 尚 未 用 完 时 茜 本 上 是 下痢 之 和 和。 此外， 如 果 是 个 内 核 线程， 
或 者 其 用 户 空间 与 当前 进程 的 相同 ， 因 而 盛 需 切 换 用 户 空间 ， 则 会 得 到 一 点 小 “奖励 ”将 权 值 额外 加 
1。 

对 于 实时 进程 ， 即 调度 政策 为 SCHED_FIFO 或 SCHED RR 的 进程 ， 则 另 有 一 种 正 向 的 优先 级 ， 
那 就 是 实时 优先 级 rt_priority，( 这 里 的 “rt” 表 示 “real time”), WLA (1000 + p->rt_priority)。 可 
见 ，SCHED_FIFO 利 SCHED RR 两 种 有 了 时间 要 求 的 政策 赋予 进 程 很 高 的 权 值 (相对 于 
SCHED_OTHER)， 这 种 进程 的 权 值 至 少 是 1000。 另 一 方面 ，rt_priotity 的 值 对 杆 实时 进程 之 间 的 权 值 
比较 也 起 着 重 此 的 作用 ， 其 数值 也 是 在 系统 调用 sched_setscheduler( ) 中 与 调度 政策 起 设置 的 。 从 这 
里 还 可 以 看 出 : 对 十 这 两 种 调度 实时 政策 ， :个 进程 已 经 运行 了 多 久 , 也 右 是 时 间 配 额 p->counter 的 当 
前 值 ,对 权 值 的 计算 不 起 作用 .。 不 过 , 前 面 已 经 看 全, 对 十 调度 政策 为 SCHED_RR 的 进程 , 当 p-»counter 
达到 0 时 会 导致 将 进程 移 到 队列 的 尾部 。 实 时 进程 的 nice 数值 与 其 优先 级 无 关 ， 促 是 对 SCHED. RR 
进程 的 时 间 配 额 大 小 有 关 。 山 于 实时 进程 的 权 值 有 个 很 大 的 基数 ， 当 有 实时 进 称 就 绪 时 庄 实 时 进程 是 
没有 机 会 运行 的 。 


相当 复杂 的 算法 《〈 那 叶 还 没有 实时 进程 )， 后 米 在 实践 中 觉得 那 佑 算法 太 复 杂 了 ， 味 不 断 加 以 简化 ,在 
调度 的 效率 、 调 度 的 公正 性 以 及 其 他 指标 之 间 反 复权 衡 、 折 束 ， 发 展 成 了 现在 这 个 样子 。 男 一 方面 ， 
对 实时 进程 的 调度 也 是 POSIX 标准 的 要 求 。 不 过 ，goodness( ) 这 个 函数 并 不 代表 Linux 的 调度 算法 的 
全 部 ， 而 要 与 前 面 讲 到 的 对 SCHED RR 的 特 白 处 理 、 对 意欲 继续 运行 的 妆 前 进程 的 特 侏 处 理 、 以 及 下 
面 要 讲 到 的 recalculate 结合 起 来 分 析 。 限 丁 篇 幅 ， 本 书 将 专注 十 代码 本 身 的 腔 辑 及 过 程 ， 而 不 对 调度 
算法 进行 定量 的 分 析 。 

H] schedule( )。 妆 代码 中 的 while 循环 结束 时 ， 变 量 c 小 的 值 有 几 种 再 能 。 -种 可 能 是 个 大 十 
0 的 止 数 ， 此 时 next 指向 挑选 出 米 的 进程 。 男 “种 可 能 是 c 的 值 为 0， 发 生 卫 就 绪 队 列 中 所 有 进程 的 权 
值 都 是 0 fx. BER init 进程 和 调用 了 《系统 调用 ) sched_yield( ) 的 进程 以 外 ， 每 个 进程 的 权 但 最 
低 为 0， 所 以 只 此 队列 中 有 其 他 就 绪 进程 存在 就 不 可 能 为 负数 。 这 申 要 指出 ， 队 列 中 所 有 其 他 进程 的 权 
值 部 已 降 到 0， 说 明 这些 进 程 的 调度 政策 都 起 SCHED OTHER. DUE fX SCHED FIFO 或 
SCHED RR 的 进 笠 存在 ， 则 其 权 值 至 少 也 有 1000. 

继续 往 下 看 〈sched.c) : 





[schedule( )] 


578 /* Do we need to re-calculate counters? */ 
579 if Cle) 
580 goto recalculate; 
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如 采 当 前 已 经 选择 的 进程 〈 权 值 最 商 的 进程 》 的 权 值 为 0， 那 就 要 重新 计算 各 个 进程 的 时 间 配 额 。 
如 上 了 所 述 ， 这 说 明 系 统 中 当前 没有 就 绪 的 实时 进程 。 而 且 ， 这 种 情况 已 经 持续 了 一 段 时 间 ， 因 为 否则 
SCHED OTHER 进程 的 权 值 便 没 有 机 会 “消耗 ” 钊 0。 


[schedule( )] 

658 recalculate: 

659 { 

660 struct task struct *p; 

661 spin unlock, irq(&runqueue lock); 
662 read ilock(&tasklist lock); 

663 for each task (p) 

664 p->counter = (p-^counter >> 1) + NICE TO TICKS(p—nice); 
665 read unlock(&tasklist lock); 

666 spin lock irq(&runqueue lock); 
667 ) 

668 goto repeat schedule; 

669 


HEX for each task(), 读者 已 经 在 以 前 看 到 过 了 。 这 里 所 作 的 计算 是 将 每 个 进程 当前 的 时 间 配 额 
p->counter 除 以 2, 再 在 上 面 加 上 由 该 进程 的 nice 值 换算 过 来 的 tick 数量 。 宏 操作 NICE TO TICKS 的 
定义 也 在 前 面 看 到 过 了 (显然 ，nice 值 对 于 非 实时 进程 既 表示 优先 级 也 决定 着 时 间 配 额 )。 可 见 ， 所 作 
的 计算 是 很 简单 的 。 这 里 要 注意 ，for_each_task( ) 是 对 所 有 进程 的 循环 ， 而 并 不 是 仅 对 就 绪 进 程 队列 的 
循环 。 对 于 不 在 就 绪 进 程 队 列 中 的 非 实时 进程 ， 这 里 得 到 了 提升 其 时 间 配 额 、 从 而 提升 其 综合 权 值 的 
机 会 。 不 过 ， 对 综合 权 值 的 这 种 提升 是 很 和 有限 的 ， 每 次 重新 计算 都 将 原 有 的 时 间 配 额 减 六 ， 再 与 
NICE_TO_TICKS(p->nice) 相 加 ， 这 样 就 决定 了 重新 计算 以 后 的 综合 权 值 永远 也 不 冲 能 达到 
NICE_TO_TICKS(p->nice) 的 两 伴 。 因 此 ， 即 使 经 过 很 长 时 间 的 “ 炸 光 养 星 *”， 也 不 能 达到 可 与 实时 进程 
竞争 的 地 步 (综合 权 值 全 少 起 1000)， 所 以 只 是 对 非 实 时 进程 之 间 的 竞争 有 意义 。 至 于 实时 进程 ,时间 
配额 的 增加 并 不 会 提升 其 综合 权 值 ， 而 且 对 十 SCHED_FIFO 进程 则 连 时 间 配 额 也 是 没有 意义 的 。 计 算 
完 以 后 ， 程 序 转 回 标号 repeat schedule 处 重新 挑选 。 这 样 ， 当 再 次 完成 对 就 绪 进 程 队列 的 打 描 时 ， 变 
量 c 的 值 应 该 不 为 0 了 ， 此 时 next 指向 挑选 出 来 的 进程 。 

进程 挑 好 之 后 ， 接 下 来 归 做 的 就 是 切换 的 事情 了 (sched.c): 


[schedule( )] 

581 /* 

582 * from this point on nothing can prevent us from 
583 * switching to the next task, save this fact in 
584 * sched data. 

585 */ 

586 sched data >curr = next; 

587 #ifdef CONFTG SMP 

588 next-»has cpu = 1; 

589 next—>processor - this cpu; 


590 Bendi f 
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spin unlock irq(&runqueue lock); 


if (prev -- next) 
goto same process; 


#ifdef CONFIG_SMP 


Hendif /* CONFIG SMP */ 


kstat. context swtch-**; 

/* 

* there are 3 processes which are affected by a context switch: 
* 


* prev ==.... ==> (last => next) 


It's the ' much more previous’ ’ prev’ that is on next's stack, 
but prev is set to (the just run) 'last' process by switch to( ). 
This might sound slightly confusing but makes tons of sense. 


* * x* x 


*/ 
prepare to switch( ); 
{ 
struct mm struct *mm = next-^mm; 
struct mm struct *oldmm = prev-^active mm; 
if (!mm) { 
if (next-^active mm) BUG( ); 
next-^active mm = oldmm; 
atomic inc (&oldmm->mm count); 
enter lazy tlb(oldmm, next, this cpu); 
} else { 
if (next-^active mm != mm) BUG( ); 
switch mm(oldmm, mm, next, this cpu); 


} 


if (!prev->mm) { 
prev-»active mm = NULL; 
mndrop (ol dmm) ; 


/* 
* This just switches the register state and the 
* stack. 
*/ 
switch to(prev, next, prev); 
__schedule_tail (prev) ; 


same process: 


reacquire kernel lock(current); 
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653 if (current->need resched) 
654 goto need resched back; 
655 

656 return; 

657 


这 里 我 们 跳 过 对 SMP aT}. 首先， 如 果 挑 选 出 米 的 进程 next 就 是 当前 进程 prev， 
就 不 用 切换 ,直接 转 到 标号 same process 处 就 返回 了 。 这 里 的 reacquire_kernel_ lock( ) 对 于 i386 单 CPU 
结构 而 言 为 空 语句 。 前 面 已 经 把 当前 进程 的 need_resched 清 0, 如果 现在 又 成 了 非 0 则 =-- 定 是 发 生 了 中 
断 并 是 情况 有 了 变化 ， 所 以 转 问 tq. scheduler back 处 再 调度 次。 否则 ， 如 果 挑 选 出 来 的 进程 next 与 
当前 进程 prev 不 同 ， 那 就 要 切换 了 。 对 十 i386 € CPU £iMjm] A. prepare to switch( ) 也 是 空 语句 ， 而 
649 118] — schedule tail( ) 则 只 是 将 当前 进程 prev 的 task. struct 结构 中 policy 字段 里 的 SCHED YIELD 
标志 位 清 成 0。 所 以 实际 上 只 剩 下 了 两 件 事 ， 其 一 是 对 用 户 虚 存 空间 的 处 理 ， 其 二 就 是 进程 的 切换 
Switch to( ). 

先 来 看 对 用 户 空 间 的 处 理 , 这 里 之 所 以 要 新 开 一 个 scope 起 因为 要 在 堆栈 中 补充 分 配 盎 个 变量 mm 
和 oldmm， 前 者 指向 “新 进程 ”next 的 mm, struct 结构 ， 后 者 则 为 “ 老 进程 ”prev 的 active mm. 首先 ， 
如 果 新 进程 是 个 不 具备 用 户 空间 的 内 核 线程 ,那么 其 active_mm 指针 也 必须 是 0， 否 则 就 一 定 是 出 了 问 
题 。 但 是 ， 内 核 的 设计 和 实现 实际 上 不 允许 一 个 进程 《哪怕 是 内 核 线程 ) 没有 active_mm， 因 为 指向 页 
商 映 射 目录 的 指针 就 在 这 个 数据 结构 中 。 所 以 ， 如 果 新 进程 没有 自己 的 mm_struct (因此 是 内 核 线程 )， 
就 要 人 在 进入 运行 时 向 被 切换 出 去 的 进程 借用 :个 mm struct K CA 628 行 和 630 77). ADE OKAY 
mm struct 结构 能 用 吗 ? 能 。 因 为 妹 然 没有 上 几 户 空间 ， 则 上 所 需 的 只 是 系统 党 间 的 映射 ， 而 所 有 进程 的 系 
统 空间 映射 部 是 相同 的 。 那 么 ， 借 用 的 mm, struct 结构 什么 时 候 归 还 呢 ? 到 下 一 次 调度 其 他 进程 运行 
时 , 也 就 是 说 当 这 个 内 核 线程 被 切换 出 去 时 归还 , 这 就 是 638 行 至 641 行 所 做 的 事情 。 这 里 的 mmdrop( ) 
只 是 将 通过 共享 借用 的 mm struct 结构 中 的 共享 计数 减 1， 而 不 是 真 的 将 此 结构 释放 ， 关 为 这 个 计数 在 
ol 以 后 不 可 能 达到 0。 如 果 新 进程 next 有 自己 的 mm struct 结构 〈 因 此 是 个 进程 )， 那 么 
next->actieve_mm 必须 与 next-»mm 相同 ， 省 则 就 有 问题 了 。 出 于 新 进程 有 自己 的 用 广 空 间 ， 所 以 就 要 
通过 switch mm( ) 进 行 用 户 空间 的 切换 。 这 是 个 inline PE, HAIE include/asm_i386/mmu_context.h 
m 


[schedule( ) » switch mm( )] 


28 static inline void switch mm(struct mm struct *prev, 
struct mm struct *next, struct task struct *tsk, unsigned cpu) 


29 | 

30 if (prev != next) f 

3l /* stop flush ipis for the previous mm */ 
32 clear bit(cpu, &prev Pcpu vm mask); 

33 /* 

34 * Re-load LDT if necessary 

35 */ 

36 if (prev->segments !- next segments) 

37 load, LDT (next) ; 


38 #ifdef CONFIG SMP 
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39 cpu tlbstate[cpu]. state = TLBSTATE OK; 

40 cpu tlbstate[cpu].active mm = next; 

41 Hendif 

42 set bit(cpu, &next-^cpu vm mask); 

43 /* Re-load page tables */ 

44 asm volatile("movl %0, %%cr3”: :^r" (__pa(next—>pgd))) ; 
45 } 


46 #ifdef CONFIG_SMP 


58  #endif 
59 } 


对 于 单 CPU 结构 而 言 ， 这 里 关键 的 诸 负 只 有 一 行 ， 那 就 是 44 行 中 的 汇编 语句 ， 它 将 新 进程 页 面 
目录 的 起 始 物 理 地 址 装 入 到 控制 寄存 崔 CR3 中 。 我 们 在 第 2 章 讲 过 ，CR3 总 是 指向 当前 进程 的 页 面目 
Re BF LDT 则 仅 在 VM86 模式 中 才 使 用 ， 所 以 不 在 我 们 关心 之 列 。 

读者 也 许 会 问 : 进程 本 身 尚 未 切换 ， 测 存储 管理 机 制 中 的 页 面目 录 指 针 CR3 却 已 经 切换 了 ， 这 样 
不 会 造成 问题 吗 ? 不 会 的 ， 因 为 这 个 时 候 CPU 在 系统 空间 运行 ， 而 所 有 进程 的 页 面目 录 中 与 系统 空间 
相对 应 的 目录 项 都 指向 相同 的 页 面 表 ， 所 以 ， 不 管 换 上 哪 一 个 进程 的 页 面 旦 录 都 一 样 ， 受 影响 的 只 是 
用 广 空间 ， 系 统 空间 的 映射 则 水 远 不 变 。 

现在 ,到 了 最 后 要 切换 进程 的 关头 了 。 所 谓 进程 的 切换 主要 是 堆栈 的 切换 ,这 是 出 宏 操 作 switch_to() 
完成 的 ， 定 义 于 include/asm i386/system.h FP: 


[schedule( ) > switch, to( )] 


15 define switch_to(prev, next, last) do | \ 

16 asm volatile("pushl %%esi\n\t” X 

17 “pushl %%edi\n\t” \ 

18 "pushl %%ebp\n\t” \ 

19 "movl %%esp, %0\n\t” /* save ESP */ \ 

20 "movl %3, %%esp\n\t” /* restore ESP */ \ 

21 "movl $1f, %1\n\t” /* save RIP */ \ 

22 “pushl %4\n\t” /* restore EIP */ \ 

23 “jmp | switch to\n” \ 

24 “te hte \ 

25 “popl %%ebp\n\t” \ 

26 "popl %%edi \n\t” \ 

27 "popl %%esi\n\t” \ 

28 ;^m^ (prev->thread. esp), “=m” (prev—->thread. eip), V 
29 "-b^ (last) \ 

30 i^m" (next->thread. esp), "m" (next-^thread. eip), \ 
31 “a” (prev), "d" (next), \ 

32 "b^ (prev)); \ 


33 } while (0) 


经 历 过 前 面 几 章 中 的 汇编 程序 ， 读 者 现在 对 嵌入 C 程序 中 的 汇编 语 名 应 该 不 陌生 了 。 这 里 的 输出 
部 有 三 个 参数 ， 表 尔 这 上段 程序 执行 以 后 有 三 项 数据 会 有 改变 。 其 中 %0 Mo 都 在 内 存 中 ， 分 别 为 
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prev->thread.esp 和 prev->thread.cip, if %2 则 与 寄存 器 EBX 结合 ， 对 应 于 参数 中 的 last。 测 输入 部 则 有 5 
个 参数 。 其 中 W%3 和 %4 在 内 人 在 中 ， 分 别 为 next->thread.esp 和 next->thread.eip, %5, %6 利 9%7 分 别 与 
寄存 器 EAX、EDX 以 及 EBX 结合 ， 分 别 对 应 十 prev. next 和 prev. 

这 一 段 程序 虽然 只 有 宴 察 数 行 ， 切 很 有 奥妙 。 先 米 看 开头 的 三 条 push 指令 和 结尾 处 的 三 条 pop 18 
令 。 看 起 来 好 像 是 很 般 ， 其 实 却 暗藏 玄机 。 且 看 第 19 行 和 20 行 。 第 19 行将 当前 的 ESP， 也 就 是 当 
前 进程 prev 的 系统 空间 堆栈 指针 存 入 prev->thread.esp; 第 20 行 义 将 新 受到 调度 要 进入 运行 的 进程 next 
的 系统 空间 堆栈 指针 next->thread.csp X ESP。 这 样 一 米 ，CPU 在 第 20 行 与 21 行 这 此 条 指令 之 间 就 
已 经 切换 了 堆栈 。 假 定 我 们 有 A. B 两 个 进程 ， 在 本 次 切换 中 prev 指向 A， 而 next 指向 B。 也 就 是 说 ， 
在 本 次 切换 中 A 为 要 “ 调 离 ” 的 进程 ， 而 B 为 此 “切入 ”的 进程 。 敢 么 ， 在 这 里 的 第 16 4201 4E 
使 用 A BHEE, WAR 21 行 开始 就 是 在 用 B 的 堆栈 了 。 换 言 之 ， 从 第 21 行 开 始 , “当前 进程 ”已 经 
是 B 而 不 是 A 了 。 我 们 以 前 讲 过 ， 在 内 核 代 码 中 当 需 要 访问 当前 进程 的 task: struct 结构 时 使 用 的 指针 
current 实际 上 是 宏 定 义 ， 它 根据 当前 的 堆栈 指针 BSP 计算 出 所 需 的 地 址 。 如 果 第 21 行 处 引用 current 
的 话 ， 那 就 已 经 指向 B 的 task struct 结构 了 。 从 这 个 意义 上 说 ， 进 程 的 切换 在 第 20 行 的 指令 执行 完 就 
已 经 完成 了 。 但 是 ， 构 成 一 个 进程 的 另 一 个 要 素 是 称 序 的 执行 ， 这 方面 的 切换 显然 尚未 完成 。 孝 么 ， 
为 什么 在 第 16 至 18 47 push 进 A 的 堆栈 ， 而 在 第 25472 27 行 却 从 B 的 堆栈 POP In] 米 呢 ? 这 就 是 奥 
妙 所 在 了 。 其 实 ， 第 25 行 至 27 行 是 在 恢复 新 切入 的 进程 在 次 被 调 离 时 push 进 堆栈 的 内 容 。 

那么 ， 程 序 执行 的 切换 ， 具 体 又 是 怎样 实现 的 呢 ? 让 我 们 来 看 第 21 行 至 24 行 。 第 21 行将 标号 
“1” 所 在 的 地 址 ， 实 际 上 就 是 第 25 行 的 pop 指令 所 在 的 地 址 保存 在 prev->thread.eip 中 ， 作 为 进程 A 
下 一 次 被 调度 运行 而 切入 时 的 “返回 ”地 址 。 然 后 ， 又 将 next->thread.eip 压 入 堆栈 。 所 以 ， 这 里 的 
next->thread.eip 正 是 进程 B |: 次 被 调 离 时 在 第 21 行 中 保存 的 。 它 也 指向 这 里 的 标号 “1” 即 25 行 
的 pop 指令。 接着， 在 23 行 通过 jmp 指令 ， 而 不 是 call 指令 ， 转 入 了 一 个 函数 __switch_to( ). HA 
说 在 __switch_to( ) 中 十 了 些 什 么 ， 当 CPU 执行 到 水 里 的 ret 指令 时 ， 由 于 是 通过 jmp 指令 转 过 去 的 ， 
最 后 进入 堆栈 的 next->thread.eip 就 变 成 了 返回 地 址 ， 而 这 就 是 标号 “1” 所 在 的 地 址 ， 也 就 是 25 行 的 
pop 指令 所 在 的 地 址 。 由 十 每 个 进程 在 被 调 离 时 孝昌 执行 这 里 的 第 21 行 ， 这 就 决定 了 每 个 进程 在 受到 
调度 恢复 运行 时 部 是 从 这 里 的 第 25 行 开 始 。 但 是 有 一 个 例外 ， 那 就 是 新 创建 的 进程 。 新 创建 的 进程 并 
没有 在 “| 次 凋 离 时 ”执行 过 这 里 的 第 16 至 21 行 ， 所 以 ”来 要 将 其 task, struct 结构 中 的 thread.eip 
事先 设置 好 ， “来 所 设置 的 “返回 地 址 ”也 未 必 是 这 里 的 标号 “1” 所 在 ， 这 皮 决 于 其 系统 空间 叭 栈 的 
设置 .事实 上 , MALE fork() 一 人 中 已 经 看 到 , 这 个 地 址 在 copy_thread( ) 中 ( 见 arch/i386/kernel/process.c ) 
设置 为 ret_from_fork， 其 代码 在 entry.S 中 : 





179 ENTRY (ret from fork) 


180 pushl %ebx 

181 call SYMBOL NAME(schedule tail) 

182 addl $4, %esp 

183 GET. CURRENT (%ebx) 

184 testb $0x02, tsk_ptrace (%ebx) # PT TRACESYS 
185 jne tracesys exit 

186 jmp ret from sys call 


tU bi, X TREN ERR, AH] schedule tail( ) 以 后 就 直接 转 到 ret. from. sys. call, “返回 ” 
到 用 户 空 间 去 了 。 将 前面 情景 中 子 进 程 被 创建 以 后 第 一 次 切入 时 的 系统 室 间 堆栈 和 父 进程 创建 了 子 进 
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程 以 后 被 调度 从 系统 调用 fork ) 返 回 而 切入 时 的 《系统 空间 ) 堆栈 作 一 比较 ， 就 可 以 看 得 更 清楚 了 ， 
4.5 是 一 幅 示 意图 。 


父 进 程 子 进程 


regs 


从 schedule( ) 返 回 的 地 址 ， 


B ret from sys call, 
entry.S 第 289 行 y 


entry.S 第 205 17 






父 进 程 恢复 运行 时 的 切入 点 ， ESP 
即 前 述 标号 为 “1” 处 , system.h 
第 24 行 ESP 


图 4.5 ”系统 调用 返回 时 父子 进程 系统 堆栈 对 照 图 


在 堆栈 空间 的 顶部 ， 或 者 说 堆栈 的 “底部 ”， 是 父 进 程 因 fork( ) 系 统 调用 而 进入 系统 空间 时 保存 的 
返回 “现场 ”% 包括 CPU 在 穿越 陷阱 门 时 自动 保存 在 系统 空间 堆栈 中 的 内 容 以 及 道 过 entry.S 中 的 
SAVE ALL 保存 的 寄存 器 内 容 ， 合 在 ”起 形成 一 个 数据 结构 regs。 这 一 部 分 被 原封 不 动 地 复制 到 了 子 
进程 的 堆栈 中 ，, 但 其 中 用 来 返回 函数 值 的 EAX 被 设 成 0, 而 指向 用 户 空 间 堆 栈 的 指名 ESP 也 作 了 相应 
的 修改 ( 见 copy_thread( ))。 

父 进 程 在 fork( ) 子 进程 以 后 ， 并 不 立即 主动 调用 schedule( )， 而 只 是 将 其 task. struct. 结构 中 的 
need_resched 标志 设 成 了 1, 然后 就 从 do_fork( ) 和 sys_fork( ) 中 返回 ,经 过 entry.S 中 的 ret from sys call 
到 达 ret_with_reschedule 时 ， 如 果 其 task, struct 结构 中 的 need_resched 为 0， 那 就 直接 返回 了 ， 这 时 其 
堆栈 指针 已 经 指向 了 regs, 所 以 RESTORE ALL 语 使 进程 问 到 用 户 空 间 (参看 第 3 章 )。 可 是 ， 现 在 
need resched 已 经 是 1， 就 要 调用 schedule( ) 进 行 调度 ， 所 以 其 堆栈 指针 又 回 过 头 来 向 下 伸展 。 如 果 调 
度 的 结果 是 继续 运行 ， 那 就 马上 会 从 schedule( ) 返 回 ， 就 像 什么 事 也 没 发 生 过 一 样 。 出 如 果 调 度 了 另 一 
个 进程 运行 ,那么 其 系统 空间 维 栈 就 变 成 了 图 4.5 中 的 样子 。 处 于 堆栈 “顶部 ”的 是 进程 在 卜 一 次 被 调 
度 运 行 时 的 切入 点 ， 那 就 是 在 前 面 switch. to( ) 的 代码 中 21 行 设置 的 。 注意，switch_to( ) 是 一 个 宏 操作 
而 并 不 是 … 个 函数 ， 所 以 堆栈 中 并 没有 从 switch_to( ) 返 回 的 地 址 。 将 来 ， 当 父 进程 被 调度 恢复 运行 时 ， 
在 switch_to( ) 的 20 行 恢复 了 其 维 栈 指针 , 然后 在 __ switch_to( ) 中 执行 ret 指令 时 就 “返回 ”到 了 25 行 ， 
所 以 其 堆栈 中 的 这 一 项 也 可 以 看 成 是 “从 __switch_to( ) 返 回 的 地 址 ”。 父 进程 最 后 返 同 到 了 entry.$ 中 
的 289 行 ， 紧 接着 就 会 跳 转 到 ret_from_sys_call。 相 比 之 下 ， 子 进程 的 这 个 “ 返 同 地 址 ”被 设置 成 
ret_from_sys_call， 所 以 在 __switch_to( ) 一 执行 ret HOMBRES TA, HT) RU. 

最 后 ， 在 __switch_to( ) 中 到 底 十 了 些 什么 呢 ? 看 arch/i386/kernel/process.c 中 的 相关 代码 : 


[schedule( ) > switch, to( ) > __ switch to( )] 


604 /* 
605 * switch to(x yn) should switch tasks from x to y. 
606 * 
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607 
608 
609 
610 
611 
612 
613 
614 
615 
616 
617 
618 
619 
620 
621 
622 
623 
624 
625 
626 
627 
628 
629 
630 
631 
632 
633 
634 
635 
636 
637 
638 
639 
640 
64] 
642 
643 
644 
645 
646 
647 
648 
649 
650 
651 
652 
653 
654 


void | switch to(struct task struct *prev p, struct task struct *next p) 


{ 


X 0 X 0X X X 0X X X HH X X X X X XS X Xo X 


*/ 
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We fsave/fwait so that an exception goes off at the right time 
(as a call from the fsave or [wait in effect) rather than to 
the wrong process. Lazy FP saving no longer makes any sense 
with modern CPU's, and this simplifies a lot of things (SMP 
and UP become the same) 


NOTE! We used to use the x86 hardware context switching. The 
reason for not using it any more becomes apparent when you 
try to recover gracefully from saved state that is no longer 
valid (stale segment register values in particular). With the 
hardware task-switch, there is no way to fix up bad state in 
a reasonable manner. 


The fact that Intel documents the hardware task-switching to 
be slow is a fairly red herring - this code is not noticeably 
faster. However, there is some room for improvement here, 
so the performance issues may eventually be a valid point. 
More important, however, is the fact that this allows us much 
more flexibility. 


struct thread struct *prev = &prev p->thread, 
*next = &next p-^thread; 
struct tss struct ¥tss = init tss + smp processor id( ); 


unlazy fpu(prev p); 


/* 

* Reload esp0, LDT and the page table pointer: 
*/ 

tss~>esp0 = next—esp0: 


/* 
* Save away %fs and %gs. No need to save %es and %ds, as 
* those are always kernel segments while inside the kernel. 
*/ 
asm volatile(^movl %%fs,%0":”=m” (*(int *)&prev— fs)); 
asm volatile("movl "fégs,*0":"-m" (k(int *) &prev->gs)) ; 


/* 

* Restore %fs and %gs. 

*/ 

loadsegment(fs, next—^fs); 
loadsegment(gs, next->gs) : 


/* 


* Now maybe reload the debug registers 
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655 */ 

656 if (ext debugregi7]) { 

657 loaddebug (next, 0); 

658 loaddebug(next, 1); 

659 loaddebug(next, 2); 

660 loaddebug(next, 3); 

661 /* no 4 and 5 */ 

662 loaddebug(next, 6); 

663 loaddebug(next, 7); 

664 } 

665 

666 if (prev->ioperm || next->ioperm) | 

667 if (next-^ioperm) { 

668 /* 

669 * 4 cachelines copy ... not good, but not that 
670 * bad either. Anyone got something better? 

671 * This only affects processes which use ioperm( ). 
672 * [Putting the TSSs into 4k-tlb mapped regions 
673 * and playing VM tricks to switch the IO bitmap 
674 * is not really acceptable. | 

675 */ 

676 memcpy(tss-»io bitmap, next->io_ bitmap, 

677 IO BITMAP SIZE*sizeof (unsigned long)) ; 

678 tss->bitmap = IO BITMAP OFFSET; 

679 } else 

680 /* 

681 * a bitmap offset pointing outside of the TSS limit 
682 * causes a nicely controllable SIGSEGV if a process 
683 * tries to use a port IO instruction. The first 
684 * sys ioperm( ) call sets up the bitmap properly 
685 */ 

686 tss->bitmap = INVALID IO BITMAP_OFPSET; 

687 } 

688} 


这 里 处 理 的 主要 是 TSS， 其 核心 就 是 第 eas 17, Yr TSS 由 的 内 核 空 间 (0 级 》 堆栈 指针 换 成 
next->esp0。 这 是 因为 CPU 在 穿越 中 断 门 或 陷阱 门 时 要 根据 新 的 运行 级 别 从 TSS 中 取得 进 各 在 系统 空 
问 的 堆栈 指针 〔 详 见 第 3 章 )。 其 次 ， 段 寄存 器 fs 和 gs 的 内 容 也 随后 作 了 相应 的 切换 。 舍 十 CPU 中 为 
debug 而 设 的 一 些 寄存 器 ， 以 及 说 明 进程 VO 操作 权限 的 位 图 〈 见 第 3 背 )， 那 就 不是 我 们 在 这 里 所 关 
心 的 了 。 

我 们 在 第 3 章 中 提 到 过 ，Intel HRB LIE AAAS MEM A TSS, WHR TSS fà 
针 、 也 就 是 寄存 器 TR 的 内 容 ， 由 CPU 的 硬件 来 实现 进程 〈 任 务 ) MIR. RM EAR ARAMA )) 
的 ， 但 是 实际 上 却 术 必 合 适 。 这 里 ， 代 码 的 作 痢 加 了 一 段 注释 ， 说 Linux 曾经 用 过 由 硬件 实现 的 切换 ， 
但 后 来 林 用 了 。 注 释 中 说 了 一 个 原因 ， 其 中 第 … 个 原因 语 蕊 不 闫 。 但 是 ， 第 二 个 原因 是 很 有 趣 的 ， 必 
就 是 月 前 的 这 种 软件 实现 甚至 比 硬件 实现 可 以 中 快 。 至 于 第 于 个 原因 ， 即 灵活 性 ， 那 倒是 不 言 而 喻 的 

总 之 ， 除 刚 创建 的 新 进程 外 ， 所 有 进程 在 受到 调度 时 的 切入 点 都 是 在 switch to( EREE 
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schedule( ) 中 ， 因 为 switch_to( ) 是 个 宏 操 作 ) 中 的 标号 1", -… 直 运行 到 下 一 次 进入 switch_to( ) 以 后 在 
switch to( ) 中 执行 ret 为 小。 或 者 也 可 以 认为 ， 切 入 点 在 switch_to( ) 中 的 25 行 , .一 直 运 行 到 在 下 一 
次 进入 switch_to( ) 后 的 23 行 。 总 之 ， 这 新 、 旧 当前 进程 的 交接 点 就 在 switch_to( ) 这 段 代 但 中 。 

那么 ， 既 然 都 是 在 同一 点 上 交接 ， 并 且 从 此 以 后 一 直到 返回 用 户 空间 这 一 段 路 程 又 是 共同 的 ， 不 
同 进程 的 不 同 “上下文 ” 义 是 怎样 体现 的 呢 ? 这 不 同 就 在 于 系统 空间 堆栈 中 的 内 容 。 不 同 进程 进入 系 
统 空间 时 的 运行 现场 不 同 ， 返 回 地 址 不 同 ， 用 户 空间 堆栈 指针 不 同 ， 一 旦 辐 到 用 户 空间 就 回 到 了 各 和 
的 路 线 上 ， 各 奔 前 程 了 。 

最 后 ， 让 我 们 回 到 在 系统 调用 exit( ) 中 通过 schedule( ) 自 愿 让 出 运行 的 情景 (图 4.6)。 由 于 对 
schedule ) 的 调用 是 在 do_exit( ) 中 作出 的 ， 在 交接 时 这 个 进程 的 系统 空间 堆栈 如 图 4.6 所 示 。 





从 sys_exit( ) 返 回 的 地 三， 
entry.S 第 204 íT. 

从 do. exit( ) 返 回 的 地 址 ， 
在 sys_exit( ) 中 。 

从 schedule( ) 返 回 的 地 址 ， 

在 do_exit( ) 中 。 

switch to( ) 中 标号 为 “1” 处 ， 
system.h 第 24 fT. 





图 4.6 进程 切换 时 系统 空间 堆栈 示意 图 


从 图 中 可 以 看 出 ， 如 果 〔 假 定 〉 这 个 进程 像 其 他 进程 一 样 会 被 调度 继续 运行 的 话 ， 它 就 会 循 下 列 


的 路 线 返 回 到 川 户 空间 : 
(1) A switch_to( ) 中 的 标号 “1” 处 恢复 运行 。 由 于 switch to( ) 是 宏 操 作 而 不 是 函数 ， 所 以 这 实 
际 上 是 在 schedule( ) 中 。 
(2) AA schedule( ) 返 回 到 do_exit( ) 中 。 
(3) ”从 do exit( ) 返 回 到 sys_exit( ) 中 。 
(4) A sys_exit( )i ES entry.s 中 的 system. call 处 , 即 代 码 中 的 204 行 。 
(5) ”通过 宏 操 作 RESTORE_ALL 同 到 用 户 空 间 。 


此 处 所 讲 的 返回 路 线 与 前 面 讲 的 系统 调用 fork( ) 中 的 父 进程 作 一 比较 ， 可 发 现 ， 进 程 主动 交 出 运 
行 时 的 系统 空间 堆栈 以 及 返回 路 线 与 被 动 地 被 剥 舍 运 行 时 有 所 不 同 。 前 者 取决 于 进程 在 何 处 调用 
schedule( )， 而 石 者 则 一 定 是 页 entry.S 中 的 reschedule 处 。 

可 是 ， 在 exit( ) 这 个 情景 中 ， 由 才 在 调用 schedule( ) 之 前 已 经 把 进程 的 状态 改 成 TASK_ZOMBIE, 
所 以 不 会 下 被 调度 运行 了 了 。 


4/7 强制 性 调度 


Linux 内 核 中 进程 的 蜡 制 性 调度 , 也 就 是 非 白 愿 的 、 被 动 的 、 和 剥夺 式 的 调度 , 证 此 是 由 时 间 引 起 的 。 
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前 面 讲 过 ， 这 种 调度 发 生 在 进程 从 系统 空间 返回 到 用 户 空间 的 前 夕 。 当 然 ， 并 非 每 次 从 系统 空间 返回 
4g Pss qe] E] Sas RE RS. MON 3 章 中 以 及 前 节 引 自 entry.S 的 代码 片段 ret, with reschedule 可 
以 看 出 ， 此 时 是 否 真 的 调用 schedule( )， 最 终 偿 要 取决 于 当前 进程 task_struct 结构 中 的 need. resched 是 
否 为 1( 非 0)。 因 此 ， 问 题 就 归结 为 当前 进程 的 need, resched 是 在 什么 情况 下 才 置 成 1 的 。 人 在 目前 版 
本 的 内 核 中 ， 在 单 CPU 的 条 件 下 ， 主 要 有 如 下 儿 种 情况 : 

e ”在 时 钟 中 断 的 服务 程序 中 ， 发 岗 当 前 进程 (连续 ) 运行 的 时 间 过 长 。 

e HRE “个 睡眠 中 的 进程 时 ， 发 坝 被 歇 醒 的 进程 比 当前 进程 只有 资格 这 行 。 

e :个 进程 通过 系统 调用 改变 调度 政策 或 礼让 。 这 种 情况 实际 上 应 该 被 视 为 主动 的 、 自 愿 的 调 

度 ， 内 此 这 样 的 系统 调用 会 引起 立即 调 虞 。 

先 看 第 -一 种 情况 。 在 前 一 节 ， 读 者 出 看 到 ， 调 度 时 彪 为 可 执行 进程 队列 ( 谍 绪 进 程 队列 〉 中 的 每 
个 进程 都 计算 出 一 个 当时 的 权 值 。 对 于 -- 般 交互 式 的 应 用 ， 其 数值 主要 取决 于 进程 剩 下 的 时 间 配 额 ， 
BE task struct 结构 中 的 一 个 计数 器 counter. 的 当前 值 。 对 于 有 实时 要 求 的 进程 ， 也 就 是 调度 政策 为 
SCHED RR 或 SCHED FIFO 的 进程 ， 则 运行 资格 与 此 无 关 ， 并 且 都 有 非常 高 的 权 值 。 当 队列 中 所 有 
的 进程 均 为 交互 式 进程 ， 即 调度 政策 为 SCHED_OTHER 的 进程 ， 并 且 所 有 这 些 进程 都 用 完了 时 间 配 额 
时 ， 就 要 重新 计算 并 设 暂 每 个 进程 的 时 间 配 额 ， 其 数值 主旨 取决 十 为 各 个 进程 设 定 的 优先 级 别 。 在 运 
行 中 ， 则 每 当 发 生 时 钟 中 断 时 都 要 递减 当 脐 进程 的 时 间 配 额 ， 使 当前 进程 的 运行 资格 逐渐 降低 ， 当 计 
数 器 的 值 降 伞 0 时， 就 要 强制 进行 一 次 调度 ， 测 夺 当 前 进程 的 运行 。 

在 第 3 章 的 “时 钟 中 断 ” 一 节 中 ， 读 省 已 经 看 人 到， 在 时 钟 中 断 服务 程序 do_timer_interrupt( ) 中 要 调 
用 一 个 函数 do_timer( ), 放 已 浏 览 过 这 个 丽 数 的 代 色 。 在 这 个 另 数 中 ， 对 于 单 CPU 结构 《在 SMP 结构 
中 各 个 CPU 使 用 本 地 的 定时 器 ， 称 为 APIC 定时 器 ) 要 调用 另 一 个 函数 update_process_times( ) 米 调整 
当前 进程 与 时 间 有 关 的 一 些 运行 参数 ， 其 代码 在 kernel/sched.c F: 


[do_timer_interrupt( ) > do, timer( ) > update, process times( )] 


575 — /* 

516 * Called from the timer interrupt handler to charge one tick to the current 
577 * process. user_tick is 1 if the tick is uscr time, 0 for system 
578 */ 

579 void update_process_times (int user tick) 

580 { 

581 struct task struct *p = current; 

582 int cpu = smp processor id( ), system = user tick ` 1; 

583 

584 update one process(p, user tick, system, cpu); 

585 if (p->pid) ( 

586 if (--p->counter <= 0) { 

587 p-?counter = 0; 

588 p-^need resched = 1; 

589 j 

590 if (p->nice > 0) 

591 kstat.per cpu nice[cpu] += user tick; 

592 else 

593 kstat.per cpu user[cpu] +- user tick; 

594 kstat.per cpu system[cpu] += system; 


.378 . 


第 4 章 DERE Sue 


595 } else if (local bh count(cpu) |! local irq count(cpu) > 1) 
596 kstat. per cpu systom[cpu] += system; 
597  ] 


只 要 不 是 0 号 进程 ， 就 从 当前 进程 的 计数 器 中 减 1。 当 计数 降 到 0 时 ， 就 将 task struct 结构 中 的 
need resched 置 成 1。 全 于 函数 中 其 他 的 操作 ， 包 括 update_one_process( )， 只 是 与 统计 信息 有 关 ， 我 们 
在 这 里 并 不 关心 ， 读 者 可 以 自己 阅读 。 


这 个 函数 的 代码 也 在 kernel/sched.c H: 


321 /* 

322 * Wake up a process. Put it on the run-queue if it's not 
323 * already there. The "current" process is always on the 
324 * run-queue (except when the actual re-schedule is in 

325 * progress), and as such you're allowed to do the simpler 
326 * “current~>state = TASK RUNNING" to mark yourself runnable 
327 * without the overhead of this. 

328 */ 

329 inline void wake up process(struct task struct * p) 

30 { 

331 unsigned long flags: 

332 

333 /* 

334 * We want the common case fall through straight, thus the goto. 
335 */ 

336 spin lock irqsave (&runqueue_lock, flags); 

337 p-?state = TASK RUNNING; 

338 if (task on runqueue (p)) 

339 goto out; 

340 add to runqueue (p) ; 

341 reschedule idle(p); 

342 out: 

343 spin unlock irqrestore(&runqueue lock, flags); 

344 ] 


可 见 ， 所 谓 “ 唤 醒 ”， 就 是 把 进程 的 状态 设置 成 TASK_RUNNING， 并 将 该 进程 挂 入 runqueue. CRI 
可 执行 进程 队列 )， 然 后 使 调用 函数 reschedule_idle( )。 对 十 单 CPU 结构 来 说 ， 这 个 函数 很 简单 : 


[wake up process( ) > reschedule_idle( )] 


198 /* 

199 * This is ugly, but reschedule idle( ) is very timing-critical. 
200 * We are called with the runqueue spinlock held and we must 
201 * not claim the tasklist lock. 

202 */ 


203 static FASTCALL(void reschedulc_idle(struct task struct * p)); 
204 
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205 static void reschedule_idle(struct task struct * p) 
206 { 
207 8ifdef CONFIG SMP 


2004 9 4 74 —$ 


286 Helse /* UP */ 


287 int this cpu = smp processor id( ); 

288 struct task struct *tsk; 

289 

290 tsk = cpu curr(this cpu); 

29] if (preemption goodness(tsk, p, this cpu) > 1) 
292 tsk-^need resched = 1; 

293 Hendif 

294  ] 


其 目的 是 将 所 唤醒 的 进程 与 当前 进程 之 间作 一 比较 。 如 果 所 唤醒 的 进程 运行 资格 喝 高 就 将 当前 进 
程 的 need_resched 标志 设 图 成 1. PX preemption_goodness( ) 汁 算 两 个 进程 综合 权 值 的 差 ， 其 代 但 也 是 
在 sched.c 中 定义 的 : 


[wake up process( ) > reschedule idle( ) > preemption goodness( )] 


189 /* 
190 * the ’ goodness value’ of replacing a process on a given CPU. 
191 * positive value means 'replace', zero or negative means 'dont' 
192 */ 
193 static inline int preemption goodness (struct task struct, * prev, 
struct task struct * p, int cpu) 
194 { 
195 return goodness(p, cpu, prev->active mm) - 
goodness(prev, cpu, prev >active mm); 
196 | 


读者 也 许 注 意 到 了 ， 在 reschedule_idle( ) 中 的 当前 进程 指针 并 不 是 通过 宏 操 作 current Tf 4585315 
AS FAME cpu. curr 得 到 的 。 这 两 者 有 什么 区 别 呢 ? 先 来 看 看 epu. curr 的 定义 ， 那 也 是 在 sched.c HE 
义 的 : 


103 #define cpu curr(cpu) aligned data| (cpu) ]. schedule data. curr 





不 知 读者 是 否 记 得 ， 这 是 在 schede ) 中 挑选 了 要 进入 运行 但 尚未 切换 之 前 设置 的 ，( 见 sched.c, 
586 行 )。 所 以 ， 在 人 部 分 时 间 帆 这 是 与 current 一 致 的 ， 代 是 在 完成 切换 之 前 的 -… 小 段 时 间 里 ， 这 个 进 
程 并 不 是 真正 的 当前 进程 。 可 是 ， 将 刚 唤醒 的 进程 与 这 个 进程 相 比 最 然 更 准确 ， 因 为 当 CPU 要 从 系统 
室 间 返 辐 到 用 户 空间 时 ， 这 个 进程 已 经 “ 企 位 ”了 。 

第 一 种 情况 ， 实 际 上 应 该 被 视 为 白 愿 的 让 出 。 但 是 ， 从 内 核 代 亿 的 形 蕊 上 看 ， 也 是 通过 相同 的 办 
ik. 将 当前 进程 的 need_resched 标志 置 为 1， 使 得 在 进程 返回 用 广 空间 前 夕 发 生 调度 ， 所 以 也 放 在 这 一 
节 中 。 此 类 系统 调用 有 上 师 个 ，-- 个 是 sched_setscheduler( ), 另 一 个 是 sched yield( )。 系 统 调用 
sched_setscheduler( ) 的 作用 是 改变 进程 的 调度 政策 。 用 户 登 录 人 到 系统 后 ,第 一 个 进程 的 适 川 调度 政策 为 
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SCHED_OTHER， 也 就 是 默认 为 无 实时 要 求 的 交互 式 应 用 。 在 通过 fork ) 创 建新 进程 时 则 将 此 进程 适 
用 的 调度 政策 遗传 给 了 了 了 进程。 但 是 ， 用 户 可 以 通过 系统 调用 sched_setscheduler( ) 改 变 其 适用 调度 政 
策 。 内 核 代 码 中 对 此 系统 调用 的 实现 sys; sched, setscheduler( ) 在 kernel/sched.c H: 


957 
958 
959 
960 
961 
962 
963 
964 
965 
966 


887 
888 
889 
890 
891 
892 
893 
894 
895 
896 
897 
898 
899 
900 
901 
902 
903 
904 
905 
906 
907 
908 
909 
910 
911 
912 
913 
914 
915 
916 
917 
918 


asmlinkage long sys sched setscheduler(pid t pid, int policy, 
struct sched param *param) 
{ 


return setscheduler(pid, policy, param); 


} 


asmlinkage long sys_sched_setparam(pid_t pid, struct sched param *param) 
{ 
return setscheduler (pid, -1, param); 


) 


static int setscheduler(pid t pid, int policy, 
struct sched param *param) 
{ 
struct sched param lp; 
struct task struct *p; 
int retval; 


retval = -EINVAL; 
if ('param || pid < 0) 
goto out nounlock; 


retval - -EFAULT; 
if (copy from user(&lp, param, sizeof(struct sched param))) 
goto out nounlock; 


f* 

* We play safe to avoid deadlocks. 
*/ 

read lock irq(&tasklist lock); 
spin lock(&runqueue lock); 


D = find process, by pid(pid); 


retval = -ESRCH; 
if (!p) 
goto out unlock; 


if (policy < 0) 
policy = p->policy; 
else { 
retval = -EINVAL; 
if (policy != SCHED FIFO && policy != SCHED RR && 
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919 policy != SCHED OTHER) 

920 goto out unlock; 

921 } 

922 

923 /* 

924 * Valid priorities for SCHED FIFO and SCHED RR are 1..99, valid 
925 * priority for SCHED OTHER is 0. 

926 */ 

927 retval = -EINVAL; 

928 if (1p.sched priority < 0 || 1p.sched priority > 99) 
929 goto out unlock; 

930 if ((poliey == SCHED OTHER) != (lp. sched priority == 0)) 
931 goto out unlock; 

932 

933 retval = —EPERM; 

934 if ((policy == SCHED FIFO || policy == SCHED_RR) && 
935 capable (CAP_SYS_NICE) ) 

936 goto out_unlock; 

937 if ((current->euid != p->euid) && (current-»euid != p->uid) && 
938 t capable (CAP_SYS_NICE) ) 

939 goto out. unlock; 

940 

941 retval = 0; 

942 p->policy = policy; 

943 p->rt_priority = lp.sched priority; 

944 if (task_on_runqucue (p) ) 

945 move first runqueue(p); 

946 

947 curreni-^need resched = 1; 

948 

949 out uniock: 

950 spin unlock(&runqueue lock); 

95] read unlock iraq(&tasklist lock); 

952 

953 out nounlock: 

954 return retval; 

955 } 


从 代码 中 可 以 看 出 ，Linux AOA TAR TIT REE, BU SCHED FIFO. SCHED RR 以 及 
SCHED_OTHER。 每 个 进程 都 必然 采取 其 中 之 - (06918 行 )。 除 调度 政策 外 还 有 一 些 参 数 ， :个 进程 
的 调度 政策 与 调度 参数 结合 在 一 起 就 决定 了 它 受 内 核 调 度 的 种 种 特性 。 

这 里 的 capable( ) 是 个 inline KZG EFIA current->cap_effective， 看 某 个 标志 位 是 否 为 1， 也 就 是 
进程 是 否 允 许 进行 某 种 特定 的 操作 。 文 件 include/inux/capabilityh 中 定义 了 所 有 的 标志 位 。 函 数 
move. first, runqueue( ) 将 进程 从 可 执行 进程 队列 的 当前 位 置 移 到 队列 的 前 部 (如果 该 进程 在 可 执行 进程 
队列 中 的 话 )， 使 其 在 调度 时 (相对 于 具有 相同 运行 资格 的 进程 》 处 于 较为 有 利 的 地 位 。 最 后 将 当前 进 
程 的 need_resched 设 成 1， 强 制 发 生 … 次 调度 。 
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另 一 个 系统 调用 sched. yield( ) 使 运行 中 的 进程 可 以 为 其 他 进程 “让 路 ” 但 并 不 进入 睡眠 。 内 核 中 
的 实现 sys sched yield( ) 也 在 sched.c P: 


1019 asmlinkage long sys sched yield (void) 


1020 { 

1021 /* 

1022 * Trick. sched yield( ) first counts the number of truly 
1023 * 'pending runnable processes, then returns if it's 
1024 * only the current processes. (This test does not have 
1025 * to be atomic.) In threaded applications this optimization 
1026 * gets triggered quite often. 

1027 */ 

1028 

1029 int nr pending = nr running; 

1030 

1031 #if CONFIG SMP 

1032 int i; 

1033 

1034 // Substract non-idle processes running on other CPUs. 
1035 for (i = 0; i < smp num cpus; i++) 

1036 if (aligned data[i]. schedule data. curr != idle task(i)) 
1037 nr pending--; 

1038 felse 

1039 // on UP this process is on the runqueue as well 

1040 nr pending--; 

1041 #endif 

1042 if (nr pending) { 

1043 /* 

1044 * This process can only be rescheduled by us, 

1045 * so this is safe without any locking. 

1046 */ 

1047 if (current->policy == SCHED OTHER) 

1048 current~>policy |= SCHED YIELD: 

1049 current >need_resched = 1; 

1050 } 

1051 return Q; 

1052  ] 


与 改变 调度 政策 或 参数 时 不 同 的 是 ， 这 里 并 不 改变 当前 进程 在 可 执行 进程 队 亿 中 的 位 置 。 不 过 前 
蛤 ,“ 礼 让 ”只 有 在 系统 中 还 有 其 他 就 绪 进 程 存在 的 情况 下 才 有 意义 ， 所 以 这 里 先 要 检查 nr. pending, 
好 正 在 等 待 运行 的 进程 数量 。 代码 中 将 current->policy 中 的 SCHED_YIELD 标志 置 为 1, 这 个 标志 位 在 
紧 接 着 的 调度 中 就 清 成 0。 有 关 的 代码 在 __schedule_tail ( ) 中 ， 这 是 在 schedule( ) 中 通过 switch_to( ) 切 
换 进程 以 后 调用 的 。 

与 主动 调度 由 比 ， 通 过 将 当前 进程 的 need resched 标志 置 1 以 强制 进行 的 调度 有 - -个 重要 的 不 同 ， 
那 就 是 从 发 现 有 调度 的 必要 到 调度 真正 发 生 有 个 延迟 ， 叫 做 “调度 延迟 (dispatch latency) ”。 在 前 列 
的 三 种 条 件 中 ， 第 三 种 〈 改 变调 度 政策 或 礼让 ) 对 时 间 并 不 敏感 。 第 一 种 虽 是 由 时 间 引 起 ， 但 实际 上 
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也 并 无 实时 的 要 求 。 而 第 二 种 ， 就 是 当 唤 醒 一 个 进程 并 发 现 该 进程 的 权 值 比 当前 进程 更 高 ， 也 就 是 更 
为 紧急 时 ， 这 就 有 时 间 上 要 求 了 。 

唤醒 一 个 睡眠 中 的 进程 有 两 种 来 源 。 -种 症 进程 问 通 信 , 例如 一 个 进程 向 男 一 个 进程 发 送 了 -个 信 
E, 读者 已 经 在 系统 调用 exit( ) 一 节 中 看 到 过 。 进 程 间 通信 当然 不 局 限于 信号 发 送 ， 其 他 的 例子 如 以 后 
读者 在 “进程 间 通信 ”中 会 看 到 的 通过 管道 、 报 文 队 列 以 及 socket 等 于 段 进行 的 通信 。 典 型 的 情景 就 
是 在 client/server 方式 的 应 用 中 。- “个 进程 在 睡眠 中 等 待 来 白 其 他 进程 的 服务 请 求 ， 而 当 其 他 进程 通过 
某 种 手段 向 其 发 送 一 个 请 求 时 就 要 将 其 从 睡眠 中 唤醒 。 身 第 二 种 米 源 则 通常 更 为 紧急 ， 那 就 是 某 个 事 
件 的 发 生 引起 了 一 次 中 断 ， 在 中 断 服务 程序 中 或 bh 明 数 中 由 于 该 事件 的 发 生 而 要 将 其 个 进程 《或 若干 
个 进程 ) 唤醒 ， 使 其 可 以 在 用 广 空间 对 事件 作 进一步 的 处 理 。 这 种 情况 往往 有 哆 高 的 时 间 要 求 。 这 里 
有 两 个 问题 ， 第 -是 当 调度 发 生 时 被 唤醒 的 进程 是 否 一 定 会 被 挑选 上 。 这 一 点 由 十 SCHED_ FIFO 和 
SCHED RR 两 种 调度 政策 的 设立 和 优先 级 的 使 用 而 有 了 保证 。 第 二 就 是 钙 底 什么 时 候 (多 少 微 秒 之 内 ) 
会 发 生 调 度 ， 这 一 点 在 日 前 的 linux 内 核 中 是 没有 保证 的 ， 而 只 能 从 统计 的 、 平 均 的 角度 看 是 否 能 满足 
条 件 。 


48 系统 调用 nanosleep( ) 和 pause( ) 


出 于 种 种 原因 ， 运 行 中 的 进程 常常 需要 主动 进入 睡眠 状态 ， 并 发 起 次 调度 让 出 CPU。 这 一 定 要 
通过 系统 调用 ， 或 者 在 系统 调用 内 部 才能 做 到 。 注 意 ， 前 一 节 中 讲 到 的 系统 调用 sched_yield( ) 与 此 有 
所 不 同 ， 那 只 是 让 内 核 进 行 一 次 调度 ， 而 当前 进程 继续 保持 可 运行 状况 。 而 这 里 所 说 的 是 ， 当 前 进程 
进入 睡 甩 ,也 就 是 将 进程 的 状态 变 成 TASK_INTERRUPTIBLE 或 TASK_UNINTERRUPTIBLE, 并 从 可 
执行 队列 中 脱钩 ， 调 度 的 结果 一 定 是 共 他 进程 得 以 运行 。 并 昌 ， 进 程 一 旦 进入 睡眠 状态 ， 戌 需要 经 过 
唤醒 才能 将 状态 恢复 成 TASK_RUNNING， 并 回 到 可 执行 队列 中 。 

这 种 主动 在 一 段 时 间 内 放弃 运行 、 让 出 CPU 的 行动 可 以 分 成 两 种 。 一 种 是 隐 仿 的， 不 傅 定 的 ， 就 
是 说 暂时 让 出 CPU 的 可 能 性 隐 含 在 其 他 行为 之 中 。 此 时 让 出 CPU 本身 并 不 是 只 的 ， 而 上 只是 在 真正 的 
目的 一 时 不 能 达到 ， 必 须 等 待 时 才 出 于 公德 心 ， 把 CPU 暂时 让 出 来 。 这 样 的 例子 有 read( )、write( )、 
open( )、send( )、recvfrom( ) 等 等 ， 几 乎 所 有 与 外 设 有 关 的 系统 调用 都 有 可 能 在 执行 的 过 程 小 受阻 而 进 
入 睡眠 、 让 出 CPU。 田 -种 是 明 俏 的 ， 有 目的 就 在 进入 睡眠 状态 。 这 样 的 系统 调用 证 北 有 岗 个 ， 一 个 是 
nanosleep( ), 55 — 4 pause( )。 

系统 调用 nanosleep( ) 使 当前 进程 进入 睡眠 状态 ， 但 是 在 指定 的 时 间 以 后 由 内 核 将 该 进程 唤醒 ， 所 
以 常常 用 来 实现 周期 性 的 应 用 。 程 序 员 们 常常 使 用 的 slee ) 是 个 库 函 数 ， 实 际 上 是 通过 系统 调用 
nanosleep( ) 来 实现 的 。 

系统 调用 pause( ) 也 使 当前 进程 进入 睡眠 ， 可 是 与 时 间 无 关 ， 要 到 接收 到 Ma SIN A ORME, Pr 
以 常常 用 来 协调 车 十 进程 的 运行 。 读者 在 前 儿 节 中 看 到 的 系统 调用 wait4( )， 类 似 的 还 有 wait3( )， 实 际 
上 可 以 看 作 是 pause( ) 的 “种 特例 ， 拓 为 它 此 在 接收 到 特定 的 信号 SIGCHLD FF A TRAE 
才 被 唤醒 。 

还 有 -种 特殊 情况 ， 当 前 进程 接收 到 了 信号 SIGSTOP， 然 后 在 当前 进程 从 系统 空间 返回 到 用 户 公 
间 之 前 (不 管 是 因为 系统 调用 、 中 断 或 是 异常 );， 就 会 在 do_signal( ) 中 调用 schedule( )， 进 程 状态 变 成 
TASK_STOPPED， 并 从 可 执行 队列 中 脱钩， “提要 到 收 和 到 一 个 SIGCONT 信号 时 才能 恢复 到 可 运行 状 
态 。 这 种 情况 实际 上 是 强制 性 的 ， 但 由 于 在 形式 上 当前 进程 在 do_signal( ) 的 过 程 中 “主动 ”调用 
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schedule( )， 所 以 没有 把 它 放 在 强制 性 调度 一 节 中 ， 我 们 在 讲 进程 问 通 信 时 还 要 讲 到 这 个 话题 。 
这 一 节 中 我 们 集中 介绍 nanosleep( ) 和 pause( PHARA AH. 
系统 调用 nanosleep( ) 在 内 核 小 的 实现 为 sys_nanosleep( )， 共 代码 在 kernel/sched.c 中 : 


797 asmlinkage long sys_nanosleep (struct timespec *rqtp, struct timespec *rmtp) 
798 { 


799 struct timespec t; 

800 unsigned long expire; 

801 

802 if(copy (rom user(&t, rqtp, sizeof(struct timespec))) 

803 return -EFAULT; 

804 

805 if (t.tv nsec >= 1000000000L || t.tv nsec < 0 || t.tv sec < 0) 
806 return -EINVAL; 

807 

808 

809 if (t.tv sec == 0 && t. tv nsec <= 2000000L && 

810 current—>policy != SCHED OTHER) 

81i { 

812 /* 

813 * Short delay requests up to 2 ms will be handled with 
814 * high precision by a busy wait for all real-time processes 
815 * 

816 * Tts important on SMP not to do this holding locks. 
817 */ 

818 udelay((t.tv nsec + 999) / 1000); 

819 return Q; 

820 ] 

821 

822 expire = timespec to Jjiffies(&t) + (t.tv sec || t. tv nsec); 
823 

824 current-?state = TASK INTERRUPTTBLE ; 

825 expire = schedule timeout (expire) ; 

826 

827 if (expire) { 

828 if (rmtp) { 

829 jiffies to timespec(expire, &t); 

830 if (copy_to_user(rmtp, &t, sizeof (struct timespec))) 
831 return -EFAULT; 

832 } 

833 return -EINTR; 

834 } 

835 return 0; 

836 } 


FE pi 3t sleep( ) 的 参数 是 以 秒 为 单位 的 整数 ， 而 nanosleep( RARAWA timespec 结构 指 外。 第 
一 个 指针 rqtp， 指 向 给 定 所 需 睡 眠 时 间 的 数据 结构 ， 第 二 个 指针 rmtp， 则 指向 返回 剩余 睡眠 时 间 的 数 
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据 结 构 。 这 是 因为 睡眠 中 的 进程 有 可 能 因 接收 到 信号 而 提前 被 唤醒 ， 这 时 候 函 数 返 回 一 1 并 在 rmtp 所 
指 的 数据 结构 中 返回 剩余 的 时 间 〈 如 果 mp 不 是 NULL)， 然 后 进程 可 以 决定 是 否 再 次 睡眠 把 时 间 用 
光 。 
数据 结构 timespec 的 定义 在 include/linux/time.h P: 


9 struct timespec { 


10 time t tv sec; /* seconds */ 
11 long tv nsec; /* nanoseconds */ 
12 i 


这 里 的 tv_sec， 单 位 为 秒 ， 而 tv_nsec WBE, WR 10° RP. CHR, RRR ER RTL 
度 可 以 达到 豪 微 秒 的 量 级 。 以 前 讲 过 ， 在 典型 的 内 核 配 置 中 时 钟 中 断 的 频率 Hz 为 100 CX. 
include/asm-i386/paramh)， 也 就 是 说 时 钟 中 断 的 周期 为 10 毫秒 。 这 意味 着 ， 如 果 进 程 进入 睡眠 而 循 正 
常 途径 由 时 钟 中 断 服务 程序 来 唤醒 的 话 ， 那 就 上 只 能 达到 10 毫秒 的 精度 。 正 因为 这 样 ， 才 有 809—821 
行 的 特殊 处 理 ， 那 就 是 如 果 要 求 睡眠 的 时 间 小 于 2 毫秒 ， 和 而 要 求 睡眠 的 进程 又 是 个 有 实时 要 求 的 进程 

(其 调度 政策 为 SCHED_FIFO 或 SCHED_RR)， 者 就 不 能 真 的 让 这 个 进程 进入 睡眠 ， 因 为 那样 有 可 能 
要 到 10 毫秒 以 后 才能 将 其 唤醒 ， 对 于 实时 应 用 的 进程 来 说 这 是 不 能 接受 的 。 所 以 ， 在 这 样 的 情况 下 能 
提供 的 只 是 延迟 而 不 是 睡眠 。 这 里 由 一 个 宏 操 作 udelay( ) 通 过 计数 来 实现 延迟 ， 其 定义 在 
include/asm-i386/delay.h 中 : 


16 Hdefine udelay(n) (, builtin constant p(n) ? V 
17 ((n) > 20000 ? bad udelay( ) : | const udelay((n) * Oxl0c6ul)) : \ 
18 __udelay (n)) 


除 若干 预定 的 常数 以 外 ， 都 是 通过 函数 _udelay( ) 完 成 延迟 ， 其 代码 在 arch/i386/lib/delay.c H. R 
们 把 涉及 的 各 个 函数 逐 层 列 在 下 面 ， 供 读者 阅读 : 


[sys_nanosleep( ) > udelay( ) > | udelay( )] 


76 void __udelay (unsigned long usecs) 


TT { 
78 ...const udelay(usecs * 0x000010c6);  /* 2w*32 / 1000000 */ 
79 . ] 


[sys nanosleep( ) > udelay() > __udelay( ) > const udelay( )] 


67 inline void | const, udelay (unsigned long xloops) 

68 { 

69 int dO; 

70 __asm__ ("mull %0” 

71 ;"-d" (xloops), ^-&a" (d0) 

72 ;^1" (xloops), "0^ (current cpu data. loops per jiffy)); 
13 |. deiay(xloops * HZ); 

74 | 
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常量 current, cpu. data.loops per sec 的 数值 取决 于 具体 的 CPU, 系统 初始 化 时 山内 核 根 据 采 集 的 数 
据 确定 ， 并 保存 在 数据 结构 current, cpu, data 中 : 


[sys_nanosleep( ) > udelay( ) > __udelay( ) > __const_udelay( ) >__delay()] 


59 void __delay (unsigned long loops) 


60 { 

61 if(x86 udelay tsc) 

62 | rdtsc delay (loops); 
63 else 

64 .. loop delay (loops) ; 
65 } 


如 果 CPU 支持 基于 硬件 的 延迟 ， 孝 么 就 通过 __rdtsc_delay( ) 完 成 所 需 的 延迟 ， 否 则 由 软件 通过 计 
数 实现 。 


[sys nanosleep( ) > udelay( ) > ___udelay( ) > __const_udelay() > __delay( ) > .... loop. delay( )] 


42 /* 

43 * Non TSC based delay loop for 386, 486, MediaGX 
44 */ 

45 

46 static void | loop delay (unsigned long loops) 
47 { 

48 int d0; 

49 __asm__ __volatile__ ¢ 

50 “\tjmp 1f\n” 

51 ^. align 16\n” 

52 “1:\tjmp 2f\n” 

53 ” align 16\n” 

54 ”2:\tdecl %O\n\tjns 2b” 

55 :“=ta” (d0) 

56 :^0^ (loops)); 

57 o} 


读者 对 于 嵌入 C 代 码 的 汇编 语句 已 经 不 随 生 了 ， 所 以 这 里 不 再 解释 。 从 这 段 代 码 中 可 以 看 出 ， 
udelay( ) 是 通过 计数 循环 来 达到 延迟 的 。 也 就 是 说 ， 这 种 情况 下 当前 进程 并 不 真 的 进入 睡眠 ， 并 不 让 出 
CPU， 而 只 是 道 过 循环 来 消磨 掉 一 些 时 间 。 这 当然 不 是 个 好 外 法 ， 但 对 于 有 实时 要 求 的 进程 也 只 好 不 
得 已 而 为 之 。 再 说 ， 即 使 对 于 有 实时 上 要求 的 进程 ， 只 要 延迟 的 时 间 超 过 ?2 毫秒， 也 不 用 通过 这 种 办 法 来 
实现 。 可 是 ， 为 什么 会 有 这 么 短 的 延迟 要 求 呢 ? 这 一 般 是 与 外 设 操 作 相 联 系 的 ， 有 些 外 设 要 求 连续 两 
次 操作 之 间 的 时 间 间 隅 不 得 小 于 某 个 特定 值 ， 所 以 就 有 了 这 么 短 的 延迟 要 求 。 

回 到 sys_nanosleep( ) 的 代 公 中 。 对 十 正常 的 睡眠 要 求 ， 先 调用 timespec_to_jiffies( )， 将 数据 结构 t 
中 的 数值 换算 成 时 钟 中 断 的 次 数 ， 换 算 的 方法 在 time.h 中 ， 我 们 把 它 留 给 读者 自己 阅读 (time.h): 


[sys. nanosleep( ) > timespec_to_jiffies( )] 
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17 — /* 

18 * Change timeval to jiffies, trying to avoid the 

19 * most obvious overflows.. 

20 * 

21 * Ànd some not so obvious. 

22 * 

23 * Note that we don t want to return MAX LONG, because 
24 * for various timeout reasons we often end up having 
25 * to wait "jiffies*l' in order to guarantee that we wait 
26 * at least “jiffies” ~ so "jiffies*l" had better still 
27 * be positive. 

28 */ 

29  fdefine MAX JIFFY OFFSET (COUL >> 1)-1) 

30 

3l static | inline _ unsigned long 

32 timespec_to_jiffies (struct timespec *value) 

33 { 

34 unsigned long sec = value->tv_sec; 

35 long nsec = value->tv_nsec; 

36 

37 if (sec >= (MAX_JIFFY_OFFSET / HZ)) 

38 return MAX JIFFY OFFSET; 

39 nsec += 1000000000L / HZ - 1; 

40 nsec /- 1000000000L / HZ; 

4] return HZ * sec * nsec; 

42 |} 


注意 ， 前 面 sys_nanosleep( ) 中 的 822 行 的 (t.tv_sec 11it.tv_nsec) 是 关系 表达 式 ， 共 值 为 1 或 者 0。 

然后 , 将 当前 进程 的 状态 改 为 TASK_INTERRUPT 并 调用 schedule timeout( yit A WEIR. ARTINE, 
HEAR AS TASK_INTERRUPT 与 TASK_UNINTERRUPT 的 区 别 在 于 后 者 在 进程 接收 到 信和 与 时 不 会 被 唤 
BE. PEDES schedule timeout( ) 的 代码 也 在 sched.c "P: 


[sys_nanosleep( ) > schedule timeout( )] 


369 signed long schedule timeout (signed long timeout) 


370 { 

371 struct timer list timer; 
372 unsigned long expire; 

373 

374 switch (timeout) 

375 { 

376 case MAX_SCHEDULE_TIMEOUT: 
377 /* 


378 * These two special cases are useful to be comfortable 
379 * in the caller. Nothing more. We could take 

380 * MAX SCHEDULE TIMEOUT from one of the negative value 
381 * but I’ d like to return a valid offset (520) to allow 
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382 * the caller to do everything it want with the retval. 
383 */ 

384 schedule( ) ; 

385 goto out; 

386 default: 

387 f* 

388 * Another bit of PARANOID. Note that the retval will be 
389 * 0 since no piece of kernel is supposed to do a check 
390 * for a negative retval of schedule timeout( ) (since it 
391 * should never happens anyway). You just have the printk( ) 
392 * that will tell you if something is gone wrong and where. 
393 */ 

394 if (timeout < 0) 

395 { 

396 printk(KERN ERR "schedule timeout: wrong timeout ” 
397 “value %lx from %p\n”, timeout, 

398 __builtin_return address (0)); 

399 current-^state = TASK RUNNING; 

400 goto out; 

401 } 

402 } 

403 

404 expire = timeout + jiffies; 

405 

406 init timer (&timer) : 

407 timer. expires = expire; 

408 timer. data = (unsigned long) current; 

409 timer. function = process timeout; 

410 

411 add_timer (&timer) ; 

412 schedule( ); 

413 del timer sync(&timer); 

Al4 

415 timeout = expire - jiffies; 

416 

417 out: 

418 return timeout < 0 ? 0 : timeout; 

419 ) 


在 内 核 中 把 时 钟 中 断 的 次 数 作为 计时 的 统 尺度, 并 给 时 钟 中 断 之 间 的 间隔 起 了 个 名 字 岂 做 “jifty” 
“有 瞬 问 ”的 意思 )。 与 此 相应 ， 内 核 中 设置 了 一 个 全 局 的 计数 器 jiffies， 用 来 对 系统 白 初始 化 以 来 时 钟 
中 断 的 次 数 计数 。 所 以 ， 在 调用 schedule timeout( ) 之 前 把 需要 睡眠 的 时 间 先 换算 成 时 钟 中 断 的 数量 ， 
把 这 个 数量 与 当前 的 jiffies 相 加 就 得 到 了 “到 点 ”的 时 间 。 但 是 ， 当 所 要 求 的 时 间 太 长 ， 长 到 不 能 
带 符号 整数 表达 时 【〔 其 实 是 最 人 的 赴 数 减 1， 见 前 面 sys_nanosleep( ) 函 数 代码 中 对 timespec_to_jiffies( ) 
的 注解 以 及 代码 中 的 第 822 行 ), 就 返 叫 一 个 常数 MAX_JIFFY_OFFSET。 这 个 常数 在 schedule. timeout( ) 
中 被 视 作 “无 限期 ” 所 以 在 384 行 中 调用 schedule( ) 就 完事 了 。 既 然 是 无 限期 睡眠 ， 内 核 就 不 承担 按 
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时 将 其 唤醒 的 责任 ， 这 个 进程 要 … 直 睡眠 到 有 另 … 个 进程 向 其 发 送 一 个 信人 与 时 才 会 被 唤醒 。 

函数 schedule timeout( ) 的 返回 值 为 进程 被 唤醒 时 剩 下 的 还 未 睡 完 的 时 间 。 我 们 来 看 看 当 调 用 参数 
为 MAX_JIFFY_OFFSET 时 的 返回 值 。 在 这 种 情况 下 ， 当 进程 被 唤醒 而 从 schedule( ) 返 问 时 就 通过 goto 
语句 转 到 标号 out Lb, 而 变量 timeout 的 数值 在 这 整个 过 程 中 并 林 改 变 , 仍旧 是 MAX_JIFFY_OFFSET， 
这 体现 了 从 无 限 减 去 有 限 后 结果 还 是 无 限 的 原理 。 

当 要 求 的 睡眠 时 间 在 规定 的 范围 以 内 时 ， 内 核 就 要 承担 起 按时 将 此 进程 唤醒 的 责任 了 。 为 此 目的 ， 
内 核 此 设置 好 一 个 “定时 器 ”% 也 就 是 这 里 的 数据 结构 timer， 并 将 其 挂 入 一 个 定时 器 队列 ， 而 每 次 时 
钟 中 断 时 都 要 检查 这 些 定 时 器 是 和 否 到 点 。 数 据 结 构 timer 的 类 型 为 timer Hist， 是 在 include/linux/time.h 
中 定义 的 ， 详 见 第 3 章 中 的 “时 钟 中 断 ” 一 节 。 我 们 在 那里 提 到 了 这 个 数据 结构 及 其 作用 ， 但 没有 深 
入 加 以 讨论 ， 这 是 因为 那 时 我 们 还 没有 讲 过 进程 调度 及 有 关 的 机 制 ， 很 难 真正 讲 清楚 。 而 现在 ， 结 合 
schedule timeout( ) 的 代码 ， 就 可 以 把 整个 过 程 和 机 制 讲 清楚 了 。 这 里 ， 在 init_timer( ) 以 后 ， 将 定时 器 
的 到 点 时 间 设 置 成 计算 得 到 的 expire。 到 点 时 要 执行 的 函数 则 为 process_timeout( )， 等 -FRASE 
到 它 到 底 干 些 什么 了 。 准 备 传 给 process timeout( ) 的 参数 为 current, 读者 应 该 还 记得 ， 这 实际 上 是 一 
个 得 到 当前 进程 task_struct 指针 的 宏 操 作 。 读 者 也 许 会 问 ， 为 什么 个 干 瞻 把 数据 结构 中 的 变量 data 改 
成 task struct 指针 ? 这 是 因为 这 样 更 为 灵活 、 通 用 ， 再 说 到 点 时 此 调 用 的 函数 也 并 不 总 是 与 某 个 进程 
直接 有 关 的 。 

函数 add_timer( ) 将 timer 挂 入 定时 器 队列 ， 其 代码 在 timere 省 : 


[sys_nanosleep( ) > schedule timeout( ) > add timer( )] 


176 void add timer(struct timer list *timer) 


177 { 

178 unsigned long flags; 

179 

180 spin lock irgsave(&timerlist lock, flags); 

181 if (timer pending(timer)) 

182 goto bug; 

183 internal add timer(timer); 

184 spin unlock irgrestore(&timerlist lock, flags); 
185 return; 

186 bug: 

187 spin unlock irgrestore(&timerlist lock, flags); 
188 printk("^bug: kernel timer added twice at *p. W^, 
189 builtin return address (0)); 

190  ] 


核心 的 操作 是 在 internal. add timer ZRK., RST a "GU, 日 的 是 将 核心 的 队列 操作 保 
护 起 来 。 出 spin_lock_irqsave( EK PXA, iii spin_unlock_irqsave( ) 则 在 操作 以 后 再 恢复 原状 。 函 
数 internal_add_timer( ) 的 代码 还 是 在 同 文件 中 Ctimer.c): 


[sys_nanosleep( ) > schedule, timeout( ) > add. timer( ) > internal add timer( )] 


122 static inline void internal add timer(struct timer list *timer) 
123 { 
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124 /* 

125 * must be cli-ed when calling this 

126 */ 

127 unsigned long expires = timer >expires; 

128 unsigned long idx = expires - timer jiffies; 

129 struct list head * vec; 

130 

131 if (idx < TVR SIZE) { 

132 int i = expires & TVR MASK; 

133 vec = Ivl. vec + i; 

134 } else if (idx < 1 << (TVR BITS + TVN BITS)) { 

135 int i = (expires >> TVR BITS) & TVN MASK; 

136 vec = tv2. vec + i; 

137 } else if (idx < L << (TVR BITS + 2 * TVN BITS)) | 

138 int i = (expires >> (TVR BITS + TVN BITS)) & TVN MASK; 
139 vec = tvà.vec + i; 

140 | else if (idx < 1 << (TVR BITS + 3 * TVN BITS)) ( 

141 int i = (expires >> (TVR BITS + 2 * TVN BITS)) & TVN MASK ; 
142 vec = tv4. vec + i; 

143 ] else if ((signed long) idx < 0) { 

144 /* can happen if you add a timer with expires == jiffies 
145 * or you set a timer to go off in the past 

146 */ 

147 vec - tvl.vec + tvl. index; 

148 | else if (idx <= OxffffffffUL) { 

149 int i = (expires >> (TYR BITS + 3 * TVN_BITS)) & TVN MASK; 
150 vec = tv5.vec + i; 

151 } else { 

152 /* Can only get here on architectures with 64-bit jiffies */ 
153 INIT LIST_HEAD(&timer->list) ; 

154 return; 

155 } 

156 /* 

157 * Timers are FIFO! 

158 */ 

159 list add(&timer-^list, vec—>prev) ; 

160 } 


zr ne 行 中 引用 的 timer_jiffies te 4 Fey Be, Ra TS HE WY BR BA PUDE AER dE BY Tn]. E CLER TEE 1 
了 哪 一 点 ， 同 时 也 是 设置 定时 器 的 基准 点 ， 其 数值 有 可 能 会 不 同 于 jitfies， 等 “会 儿 我 们 就 会 看 到 它 的 
KH. 

在 进一步 深入 到 internal. add, timer( ) 的 代码 中 去 之 前 ， 有 必要 先 大 致 介绍 一 下 定时 器 队列 的 组 织 。 
本 来 ， 最 简单 的 办 法 是 将 所 有 的 timer. list 结构 ， 即 定时 器 ， 按 “到 点 ”的 先后 链接 在 一 起 成 为 一 个 队 
Si, PRIVEE jiffies 改变 时 就 从 该 队 讽 的 头 部 开始 过 个 检查 并 处 理 这 些 数据 结构 ， 直 到 发 现 第 一 个 尚 
本 到 点 的 定时 器 时 就 可 以 结束 了 。 可 是 这 样 有 个 缺点 ， 就 是 每 当归 将 一 个 新 的 定时 器 加 入 到 这 个 队列 
中 去 时 ， 要 在 队列 中 进行 线性 搜索 ， 导 找 适 沽 的 链 入 位 置 ， 在 最 坏 的 情况 下 旨 扫 描 过 队列 中 所 有 的 数 
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据 结构 。 当 队 刻 中 的 成 员 数 量 有 可 能 很 大 时 ， 这 种 方案 的 效率 就 不 能 令 人 满意 了 。 学 过 数据 结构 与 算 
法 的 读者 可 能 马上 会 想到 可 以 通过 “杂凑 ”(hash) 来 改善 效率 。 也 就 是 说 ， 将 这 些 定时 器 数据 结构 组 
织 成 一 个 队 询 数组 ， 或 者 说 队列 的 阵列 ， 而 不 是“ 个 单一 的 队列 ， 然 后 根据 等 个 定时 器 到 点 的 时 间 经 
过 杂凑 计算 决定 应 该 将 其 链 入 到 哪 一 个 队列 中 。 这 样 ， 通 过 将 定时 器 分 散 链 入 到 不 同 的 队列 中 ， 吕 可 
以 减 小 各 个 队列 的 半 均 长 度 ， 从 而 提高 效率 。 最 简单 的 杂 读 计算 莫 过 于 从 数值 中 抽取 最 低 的 若干 位 ， 
也 就 是 通过 “与 ”运算 将 数值 中 的 高 位 详 蔽 掉 ， 这 实际 上 相当 于 将 数值 除 以 一 个 2 的 整数 次 车 以 后 取 
其 余数 。 但 是 ， 在 这 种 简单 的 杂 凌 表 组 织 里 每 个 队列 中 还 会 有 很 多 分 属 不 同 到 点 时 间 的 定时 器 ， 这 是 
因为 只 要 杂凑 计算 后 的 结果 相同 就 会 被 链 入 到 同一 个 队列 中 。 例如，jiffies 是 个 32 位 无 符号 整数 ， 候 
如 我 们 取 最 低 的 10 位 作为 杂 凌 计算 的 结果 ， 也 就 是 说 在 数组 中 有 27 个 队列 ， 那 么 从 理论 上 说 在 最 坏 
的 情况 下 在 一 个 队列 中 可 以 有 分 属于 27 种 不 同 到 点 时 间 的 定时 器 。 当 然 ， 在 实际 运行 中 是 不 会 这 人 么 粮 
糕 的 ， 但 是 总 叫 人 觉得 不 尽 如 和 人意。 理想 的 解决 方案 是 每 个 队列 中 只 有 属于 同一 到 点 时 间 的 定时 器 。 
可 是 总 不 可 能 设置 2 个 定时 器 队列 吧 ? 所 以 , 既 要 顾及 在 时 钟 中 断 发 生 时 检查 并 处 理 这 些 定时 器 的 效 
率 ， 义 要 顾及 在 将 定时 器 插入 到 这 些 队 列 中 去 时 的 效率 ， 对 此 机 制 的 设计 和 实现 是 PEAR. Linux 内 
核 比 较 好 地 解决 了 这 个 问题 ， 设 计 并 实现 了 一 种 相当 巧妙 的 方案 。 
在 Linx 内 核 中 设置 了 五 个 而 不 是 一 个 这 样 的 杂凑 表 , 即 定时 器 队 询 数组 。 详 见 下 列 代 但 (timerc): 


74 /* 
15 * Event timer code 
16 */ 


77 +#define TVN BITS 6 
78  #define TVR BITS 8 
79 ttdefine TVN SIZE (1 << TVN BITS) 
80 . &define TVR SIZE (1 << TVR BITS) 
81  #define TVN MASK (TVN SIZE ~ 1) 
82 Hdefine TVR MASK (TVR SIZE - 1) 


83 

84 struct timer vec { 

85 int index; 

86 struct list head vec[TVN SIZE]; 

87 Hh 

88 

89 struct timer vec root | 

90 int index; 

91 struct list head vec[TVR SIZE]; 

92 i 

93 

94 static struct timer voc tv5; 

95 static struct timer vec tv4; 

96 static struct timer vec tv3; 

97 static struct timer vec tv2; 

98 static struct timer vec root tvl; 

99 

100 static struct timer vec * const tvecs[ ] = 1 
101 (struct timer vec *)&tvl, &tv2, &tv3, &tv4, &tvb 
102 }; 
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数据 结构 v1、tv2、…、tv5 每 个 都 包含 了 A timer list 指针 数组 ， 这 就 是 所 谓 杂 凌 表 (bucket), 
表 中 的 每 个 指针 都 指向 一 个 定时 器 队列 。 上 其 中 tvl 与 其 他 几 个 数据 结构 的 不 同 仪 在 于 数组 的 大 小 ，tvl 
中 的 数组 大 小 为 交 ， 而 其 他 几 个 的 大 小 都 是 2。 这 样 ， 队 列 的 数量 总 共 是 痉 十 4X26=512， 还 是 可 以 接 
受 的 。 每 个 数组 都 与 一 个 变量 index 相 联系 ， 用 来 指示 当下 一 个 时 钟 中 断 发 生 时 要 处 理 的 队 齐 。 与 此 同 
时 ,将 32 位 的 到 点 时 间 也 划分 成 五 段 ， 其 中 最 低 的 一 段 为 8 位 ， 与 tvl 相对 应 ， 其 他 四 段 则 都 是 6 位。 
夺 将 一 个 定时 器 挂 入 队列 中 去 时 ， 先 根据 到 点 时 间 和 当前 时 间 计 算出 这 个 定时 回应 该 在 多 少 次 时 钾 中 
斯 以 后 到 点 ， 如 果 这 个 益 值 小 于 256 的 话 就 取 到 点 时 间 的 最 低 8 位 作为 其 杂凑 值 ， 然 后 用 这 个 杂 凌 值 
作为 下 标 在 tvl 的 数组 中 找到 相应 的 队 刘 ， 并 将 此 定时 器 链 入 到 这 个 队列 中 。 由 于 tv1 的 数组 中 有 256 
个 队列 ， 所 以 每 个 队列 中 的 定时 器 都 具有 相同 的 到 点 时 间 。 可 是 ， 当 差 值 大 于 等 于 256 WE A Mg? 
这 时 候 就 看 差 值 是 省 小 于 24， 如 打 是 ， 就 取 到 点 时 间 的 数 信 中 的 第 二 段 (6 位 ， 从 第 8 位 至 第 14 位 ) 
为 杂凑 值 ， 或 下 标 ， 并 将 定时 器 插入 到 tv2 的 某 个 队列 中 去 。 示 意图 如 图 4.7。 


| 一 


图 4.7 定时 器 队列 数组 下 标 确定 规则 示意 图 





第 段 8 位 ,与 tvl 相 联系 
第 一 段 6 位 ， 与 tv2 相 联 系 


显然 ，tv2 中 的 队列 与 wl 中 的 不 同 ， 因 为 tvl 中 每 个 队列 申 的 定时 器 者 属于 同 “个 到 点 时 间 ， 而 
w2 中 的 队列 则 不 然 。 理 论 上 tv2 中 的 每 个 队列 部 可 能 含有 分 属 256 个 不 同色 点 时 间 的 定时 器 。 也 就 是 
说 ，tv2 的 “尺度 ”与 fwl 不 同 。 当 差 值 大 于 2 时 ， 那 就 要 进一步 看 养 值 是 个人 于 2? 了 ， 余 类 排 。 

HÆ nf LATA] BI intemal_add_timer( ) 的 代码 中 了 。 读者 应 该 可 以 白山 读 懂 这 段 代 公 ,其 中 其 体 将 定时 
器 链 入 到 队列 中 的 操作 由 list_add( ) 完 成 。 

也 就 是 说 ， 每 次 都 是 插入 到 队列 的 尾部 。 对 于 tvl 中 的 队列 米 说 ， 由 于 每 个 队列 中 所 有 的 定时 器 
都 是 在 同时 间 到 点 ， 所 以 插入 的 位 置 根 本 没有 关系 ; 而 对 于 其 他 的 队列 米 说 ， 下 面 就 会 看 刘 其 实 也 
没有 关系 。 这 样 ， 将 一 个 定时 器 链 入 双 队 列 中 的 操作 变 得 很 简单 ， 根 木 就 不 需要 在 队列 中 寻找 合适 的 
插入 位 置 了 ， 从 而 其 代价 成 了 一 个 常数 ， 调 与 队列 长 度 尤 关 了 。 同 时 ， 当 时 钟 中 断 发 生 ， 从 汕 将 jiffies 
向 前 推进 “ 步 时 ， 只 要 在 twl 中 根据 index 的 指示 将 个 队列 中 所 有 的 定时 器 都 处 理 -- 遍 〈 执 行 定时 器 
所 指定 的 函数 ) 并 将 这 些 定时 器 释放 ， 然 后 将 index 也 向 前 推进 ， 步 就 行 了 。 当 tvl.index 达到 256 时 
就 又 将 其 设 成 0， 四 到 数组 的 开头 ， 开 始 男 外 一 轮 的 256 次 时 钟 中 断 。 此 时 ， 由 二 -个 tvl 周期 已 经 完 
成 ， 就 从 tv2 中 根据 tv2.index 的 指引 将 tv2 中 的 一 个 队列 搬运 到 tvl 中 。 在 搬运 的 过 程 中 ,对 队列 中 的 
每 个 定时 器 都 再 调用 一 次 internal_add_timer( )。 此 时 该 队列 中 所 有 定时 器 的 到 点 时 间 与 当前 时 间 的 其 都 
已 小 于 256 Ghi AAV IR BEBE, PEL A EATS tvl 中 的 各 个 队列 中 去 ， 而 与 各 个 定时 器 在 队 
列 中 的 位置 无 关 。 由 此 可 见 ， 链 入 tv2 各 个 队列 里 的 定时 器 是 分 商 步 到 位 进入 tvl 中 的 队列 《第 一 步 进 
Aw2, 58 2 步 进入 tv1)。 依 次 类 推 ， 当 到 点 时 间 与 当前 时 间 的 差 大 于 2” 时 要 先进 入 tv5， 分 石 步 才能 
进入 tl. BAE SEIN ESEA HL A BERE wi F, ARR SIKH AK, FRASER, 
号 是 最 多 为 步 。 所 以 ， 这 个 办 法 要 比 线性 搜索 好 得 多 。 
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将 定时 器 链 入 到 其 个 队列 中 以 后 ，schedule_timeout( ) 就 调用 schedule( ), 使 当前 进程 真正 地 进入 睡 
IRo SETRA, 
那么 ， 时 钟 中 断 怎 样 唤醒 这 个 进程 呢 ? 
在 第 3 章 中 的 “时 钟 中 断 ” 一 节 中 ， 我 们 看 到 在 从 时 钟 中 斯 返回 之 前 要 执 行 与 时 钟 有 关 的 bh 函数 
timer bh(). ifj timer. bh( ) 要 调用 一 个 函数 run. timer. list( ) (timer.c): 


668 void timer_bh (void) 


669 { 

670 update_times( ); 
671 run timer list( ); 
6722 } 


eC run. timer. list( ) 的 代码 在 sched.c 中 : 


[timer_bh( ) > run timer list( )] 


288 static inline void run timer list (void) 

289 { 

290 spin lock icq(&timerlist lock); 

291 while ((long) (jiffies ^ timer jiffies) >= 0) | 
292 struct list head *head, *curr; 

293 if (Itvl. index) | 

294 int n= 1l; 

295 do { 

296 cascade timers(tvecs[n]) ; 

297 } while (tvecs[n]- index == 1 && ++n < NOOF_TVECS) ; 
298 } 

299 repeat: 

300 head = tvl. vec + tvl. index; 

301 curr = head->next; 

302 if (curr != head) { 

303 struct timer list *timer; 

304 void (*fn) (unsigned long); 

305 unsigned long data; 

306 

307 timer = list entry(curr, struct timer list, list); 
308 fn = timer->function; 

309 data= timer->data; 

310 

311 detach. timer (timer) ; 

312 timer->list.next = timer->list. prev = NULL; 
313 timer_enter (timer) ; 

314 spin unlock irq(&timerlist lock): 

315 fn(data) ; 

316 spin lock irq(&timerlist lock); 

317 timer exit( ) ; 

318 goto repeat; 
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319 ] 

320 ++timer jiffies; 

321 tvl. index = (tvl.index + 1) & TVR MASK; 
322 } 

323 spin unlock irq(&timerlist lock); 

324 |] 


在 “时 钟 中 断 ” 节 中 ， 我 们 还 讲 过 ,在 特殊 的 情况 下 jiffies 向 前 推进 的 步 长 有 可 能 大 于 1。 正 因 
为 这 样 ， 这 里 通过 “个 循环 来 处 理 jiffies 的 每 个 单 步 。 在 每 个 单 步 中 ， 先 看 tvl.index 是 否 为 0， 若 为 0 
就 要 从 tv2 中 搬运 一 个 队列 到 tvl 中 。 我 们 也 把 这 种 情况 暂时 搁 ，: 下 ， 先 来 看 不 为 0 时 的 情况 。 

代码 中 由 goto 实现 的 循环 就 是 处 理 在 这 ~… 步 小 到 点 的 队列 。 处 理 本 身 是 很 简单 的 ， 顺 着 队列 挨个 
把 定时 器 通过 detach_timer( ) 从 队列 中 摘除 出 米 ， 然 后 就 执行 该 定时 器 所 指定 的 函数 。 执 行 完 这 整个 队 
列 时 ,就 将 times, jiffies 和 tvl.index 也 往 前 推进 一 步 。 但 是 ,tvl.index 的 值 是 以 256 为 模 的 (TVR_MASK)， 
所 以 其 数值 在 255 以 后 就 回 色 了 0, 下 -个 循环 中 或 者 下 一 次 执行 这 个 函数 时 就 要 通过 cascade_timers( ) 
从 tv2 中 搬运 一 个 队列 到 tvl 中 来 。tv2 中 也 有 一 个 index， 也 此 向 前 推进 。 符 当 jiffies 向 前 推进 了 256 
步 ， 也 就 是 得 当 发 生 了 256 次 时 钟 中 断 时 ，tv2.index 就 要 往 前 推进 一 步 。 与 tv1.index 不 同 ，tv2.index 
是 以 64 为 模 的 ， 所 以 在 达到 63 以 后 就 要 回 到 0。 当 tv2.index 为 1 时 就 此 从 tv3 中 搬运 一 个 队列 到 tv2 
中 和 tvl 中 ， 余 类 推 。 

为 什么 是 在 tv2.index 为 1 时 , 侧 不 是 为 0 时 , 才 从 tv3 中 搬运 呢 ? 回头 去 看 -- 下 internal_add_timer( ) 
的 代码 就 清楚 了 。 当 到 点 时 间 与 当前 时 间 的 差 idx 为 TVR_SIZE 即 256 时 ， 经 过 第 136 行 的 处 理 以 后 
结果 为 1 而 不 是 0。 实际 上 ，tv2 中 下 标 为 0 的 省 个 队列 定 是 空 的 。 同 时 ， 为 了 便于 实现 ， 代 码 中 将 
vl. tv2 等 五 个 数据 结构 也 放 在 一 个 数组 中 ， 这 就 是 tvecs[ ]。 这 里 将 下 标 设 成 从 1 开始 ， 就 是 表示 从 
tv2 开始 搬运 ， 而 第 298 行 则 表示 如 果 tv2.index 推进 以 后 变 成 了 1 就 要 进一步 从 tv3 搬运 ， 余 类 推 。 

这 里 的 NOOF_TVECS 为 常数， 实际 上 就 是 5 (timer.c): 


104 #define NOOF TVECS (sizeof(tvecs) / sizeof(tvecs[0])) 
HŽ cascade timers( ) 的 代码 也 在 同一 文件 中 。 这 起 PRR, FRR IRET o 


{timer_bh( ) > run timer list( ) > cascade_timers( )] 


264 static inline void cascade timers (struct timer vec *ty) 

265 f 

266 /* cascade all the timers from tv up one level */ 

267 struct list head *head, *curr, *nexl; 

268 

269 head = tv->vec + tv-^index; 

270 curr = head->next; 

271 /* 

272 x We are removing all timers from the list, so we don't have to 
273 * detach them individually, just clear the list afterwards. 
214 */ 

275 while (curr !- head) { 

216 struct timer list *tmp; 
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217 

278 tmp = list entry(curr, struct timer list, list); 
219 next = curr-?next; 

280 list del(curr); // not needed 

281 internal add timer (tmp); 

282 curr - next; 

283 } 

284 INIT LIST HEAD (head) ; 

285 tv->index = (tv->index + 1) & TVN_MASK; 

286 } 


在 我 们 这 个 情景 中 , 定时 器 中 的 函数 指针 为 process_timeout, 参数 为 睡眠 中 进程 的 task. struct 指针 ， 
所 以 到 点 时 就 会 调用 process_timeout( ) (sched.c): 


[timer bh( ) > run timer, list( ) > process timeout( )] 


362 static void process timeout (unsigned long __ data) 


363 { 

364 struct task struct * p = (struct task struct *) __ data; 
365 

366 wake up process(p); 

367 } 


ei BH i wake up process 将 睡眠 中 的 进程 唤醒 。 尼 的 代码 读者 已 经 在 前 -“ 节 “强制 性 调度 ”中 看 
到 过 了 。 进 程 被 唤醒 泊 且 再 次 被 调度 运行 时 ， 就 问 到 了 前 耐 的 schedule timeout( ) 中 。 换 句 话 说， 是 该 
进程 从 前 面 schedule timeout( ) 中 的 schedule( ) 返 回 了 。 

呵 过 去 继续 看 schedule_timeout( ) 的 代码 , 从 schedule( ) 返 回 以 后 紧 接 着 就 调用 了 del timer, sync (), 
读者 也 许 会 感到 奇怪 ， 刚 才 在 run_timer_list( ) 中 不 是 已 经 通过 detach, timer( ) 把 定时 器 从 队列 中 删除 了 
135? 怎么 这 里 又 要 del_timer_syne( ) 呢 ?对 于 单 处 理 器 的 系统 ，del_timer_sync( ) 定 义 为 del_timer( )， 我 
们 来 看 看 detach_timer( ) 和 del timer( ) 的 代码 (sched.c): 


[timer bh( ) > run timer list( ) > detach tiner( )] 


192 static inline int detach timer (struct timer list *timer) 
193 { 

194 if (!timer_pending (timer) ) 

195 return 0; 

196 list del(&timer— list); 

197 return 1; 

198} 


[timer_bh( ) > run timer  list( ) > detach tiner( ) > timer_pending( )] 


54 static inline int timer pending (const struct timer list * timor) 
55 { 
56 return timer->list.next != NULL; 
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所 以 detach_tiner( ) 仅 在 所 处 理 的 timer_list 数据 结构 和 企 队 询 中 时 才 把 它 从 队列 中 删除 。 函 数 
del timer( ) 实 际 上 调用 detach_timer( ): 


[sys nanosleep( ) > schedule timeout( ) > del_timer( )] 


213 int del_timer (struct timer list * timer) 


214 { 

215 int ret; 

216 unsigned long flags; 

217 

218 spin lock irqsave(&timerlist lock, flags); 

219 ret = detach timer(timer); 

220 timer-?list.next = timer—>list. prev - NULL; 

221 spin unlock irgrestore(&timerlist lock, flags): 
222 return rel; 

223 } 


可 见 ， 对 一 个 已 经 从 队列 中 脱 链 的 定时 器 再 调用 一 次 del. timer( ) 并 没有 害处 。rnJ 是 ， 即 使 没有 和 宕 
处 ， 也 没有 理由 做 盛 用 功 啊 。 是 的 ， 但 是 要 想到 ，run_timer_list( ) 并 不 是 惟 可 以 将 这 个 进程 唤醒 的 消 
数 。 当 为 一 个 进程 向 睡眠 中 的 进程 发 送 MESA, RE ny DO CaM. FLL. Æ schedule_timeout( ) 
中 再 调用 一 次 del_timer( ) 就 可 以 确保 安全 了 。 这 里 要 指出 , 这 时 的 timer 是 个 局 部 量 , 其 空间 在 堆栈 中 ， 

“ALM schedule_timeout( ) 返 回 ， 这 个 数据 就 消失 了 。 这 里 可 以 省 去 动态 分 般 利 释放 缓冲 器 的 麻烦 ， 也 
可 以 提高 效率 。 吕 是 将 这 样 一 个 数据 结构 留 在 队列 中 是 很 危险 的 ， 一 定 划 保证 在 这 个 数据 结构 还 有 效 
时 将 其 从 队列 中 去 除 。 

最 后 ， 期 望 中 的 到 点 时 间 expire 与 当前 时 间 jiffies 之 莽 为 剩 下 的 尚未 睡 够 的 时 间 。 这 剩 下 的 尚未 
睡 够 的 时 间 是 以 时 钟 中 断 的 次 数 为 尺度 的 ， 所 以 在 sys. nanosheep( ) 中 又 将 其 换算 回 timespec 数据 结构 
中 的 秒 和 筷 微 秒 ， 然 后 返 问 给 用 户 人 空间。 当然， 只 有 企 进程 因 信 号 而 被 唤醒 时 才 有 有 可 能 还 未 睡 够 。 否 
则 ， 睡 过 了 头 的 可 能 倒是 有 的 。 这 一 方面 是 因为 在 特殊 的 情况 下 也 许 会 把 好 儿 次 时 钟 中 断 合并 在 “起 
进行 对 jiffies 的 处 理 ， 所 以 一 次 坏 向 前 推进 好 几 步 。 另 一 方 而 即使 按时 将 进程 唤醒 也 不 能 保证 该 进程 
马上 就 会 被 调度 运行 。 

系统 调用 sys nanosheep( )Jf4F schedule timeout( ) 的 惟 “HA”. 内核 中 述 提 供 了 一 个 函数 
interruptile sleep on timeout( )， 供 各 种 设备 驱动 程序 在 内 核 中 使 用 ， 将 米 在 设备 此 动 一 章 中 读者 会 
到 它 的 使 用 。 此 外 ， 企 内 核 中 也 串 以 直接 调用 schedule timeout( ). 





与 sys nanosheep( ) 相 比 ， 同 样 也 是 系统 调 上 州 的 sys. pause( ) 的 代码 就 很 简单 了 了 上， 其 代码 在 
arch/i386/kernel/sys 1386.c 中 : 


250 ^ asmlinkage int sys pause(void) 


251 { 

252 current—>state = TASK_INTERRUPT IBLE; 
253 schedule( ); 

254 return ~ERESTARTNOHAND: 
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255 } 


显然 ， 当 前 进程 通过 sys_pause( ) 入 睡 以 后 ， 只 有 在 接收 到 信号 时 才 会 被 唤醒 。 


49 内 核 中 的 互 斥 操作 


内 核 中 的 很 多 操作 在 进行 的 过 程 中 部 不 容许 受到 打扰 ， 最 典型 的 例子 就 是 队 刻 操 作 。 如 果 两 个 进 
程 都 要 将 一 个 数据 结构 链 入 到 问 一 个 队列 的 尾部 ， 旧 是 在 第 一 个 进程 完成 了 一 半 的 时 候 发 生 了 调度 ， 
让 第 二 个 进程 插 了 进 米 ， 结 果 很 可 能 就 乱 了 。 类 似 的 干扰 也 有 可 能 米 电 某 个 中 断 服务 程序 或 bph 函数 。 
在 多 处 理 器 SMP 结构 的 系统 中 ， 这 种 干扰 还 有 可 能 来 自 为 个 处 理 咒 。 

Kit, RT :个 进程 主动 调用 schedule( ) 让 出 CPU 的 情况 (显然 不 会 发 咎 在 不 容许 受到 打扰 的 过 
程 中 途 ) 之 外 ， 只 有 在 从 系统 空间 返回 到 用 户 空间 的 前 夕 才 有 可 能 发 生 调 度 。 这 样 的 安排 使 得 上 述 两 
个 进程 问 的 干扰 实际 上 不 会 发 生 在 内 核 中 。 这 一 点 在 “进程 的 调度 与 切换 ”一 时 中 已 经 讨论 过 了 。 所 
以 ， 上 述 两 个 进程 在 内 核 小 互相 十 扰 的 情况 实际 上 只 会 发 生 在 多 处 理 器 的 系统 中 ， 在 单 处 理 器 的 系统 
中 是 不 会 发 生 的 。 但是， 在 另 一 种 情况 上下， 则 仍 有 可 能 发 生 进 程 间 的 干扰 。 系 统 中 有 些 资源 是 共享 的 ， 
但 是 在 其 体 使 用 期 间 印 需要 独占 ， 而 且 对 这 些 资 源 的 访问 可 能 会 受阻 揣 需 要 睡眠 等 待 。 进 程 全 访问 此 
类 资源 的 时 供 就 可 能 受到 其 他 进程 的 十 扰 。 至 于 来 自 中 断 服 务 程序 《 包 括 bh ERO 的 十 扰 ， 则 总 起 有 
可 能 的 。 并 及， 在 多 处 理 器 系统 中 ， 不 但 要 防止 来 自 同 “处理 器 上 的 中 断 服 务 程序 的 干扰 ， 还 要 防止 
来 自 其 他 处 理 器 的 中 断 服务 程序 的 干扰 。 

在 “多 处 理 器 SMP 系统 结构 ”一 章 !， 我 们 将 讨论 有 关 多 处 理 器 结构 的 种 种 问题 。 但 是 ， 如 上 所 
述 ， 如 果 不 加 防止 ， 单 处 理 内 系统 中 在 一 定 条 件 下 也 会 发 和 进程 间 的 互相 下 扰 。 另 一 方面 ， 这 种 措施 
也 被 借用 在 系统 调用 vfork( ) 中 ， 用 作 父 进程 与 子 进 程 之 间 对 丁 共 享 虚 存 空间 的 互 斥 保护 手段 。 

进程 间 对 共享 资源 的 互 斥 访问 ， 或 者 说 对 进程 间 十 扰 的 防范 ， 是 通过 “信和 号 量 ”(semaphore) 这 种 
机 制 来 实现 的 。 内 核 中 为 此 提供 了 down( ) 和 up( ) 典 个 函数 ， 分 别 对 应 于 操作 系统 理论 中 的 P 和 V 汕 
种 操作 。 侍 十 信号 量 ， 则 是 一 种 数据 结构 类 型 semaphore. 

先 看 数据 结构 ，struct semaphore 是 在 include/asm-i386/semaphore.h 中 定义 的 : 


44 struct semaphore { 

45 atomic t count; 

46 int sleepers; 

47 wail queue head t wait; 
48 #if WAITQUEUE. DEBUG 

49 long __ magic; 

50 Hondil 

51 ie 


计数 器 count 所 计 的 就 是 “信号 量 ” PAB TS R”, CARRERA VEU URGE. RAF LER HE 
系统 理论 的 读者 不 妨 把 这 个 数据 结构 想像 成 一 个 院 了 的 大 门 ， 而 count 表 示 -… 共 有 几 张 门 紫 。 当 个 进 
程 根 要 进入 这 个 院子 的 围墙 果 面 十 些 什 么 时 ， 先 要 在 人 门口 领取 门票 。 所 以 count 的 数值 即 表示 还 有 几 
个 进程 可 以 进门 。 在 典 起 的 情况 下 ， 一 共 就 上 只有: 张 票 ， 所 以 具有 一 个 进程 可 以 进去 。 
“ER KEIO BSS, WRITE CB ART, RRA ATION “RE” AE 
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眠 、 等 候 。 这 个 休息 室 就 是 这 里 的 队列 wait， 而 计数 器 sleepers 则 表示 有 几 个 进程 正在 等 候 。 进 入 了 院 
子 的 进程 ， 完 成 了 它 要 做 的 事情 以 后 ， 还 症 从 同一 个 大 门 出 来 ， 并 将 门票 交还 。 如 果 在 交还 门票 之 前 ， 
门票 的 数量 己 经 是 0， 那 就 可 能 有 进程 止 在 休 以 室 中 等 候 ， 所 以 述 此 向 这 些 止 在 等 候 的 进程 打 个 招 峡 ， 
说 “现在 有 门票 了 ”， 或 者 说 ， 将 这 些 进程 唤醒 ， 让 它们 去 竞争 那 张 门票 。 可 见 ， 原 理 其 实 很 简单 。 下 
面 通过 -- 段 实例 ， 看 看 这 段 过 程 具 体 是 怎么 实现 的 。 这 有 段 实例 取 自 系统 调用 umount( )， 我 们 在 这 里 并 
不 关心 怎样 拆 伸 《umount) 一 个 已 经 安装 的 文件 系统 ， 而 是 关心 怎样 把 一 部 分 关键 性 的 操作 保护 起 来 。 
下 面 的 代码 取 自 文件 super.c: 


44 /* 

45 * We use a semaphore to synchronize all mount/umount 

46 * activity - imagine the mess if we have a race between 

47 * unmounting a filesystem and re-mounting it (or something 
48 * else). 

49 */ 


50 static DECLARE MUTEX(mount sem); 


1117 asmlinkage long sys umount(char * name, int flags) 


1118 { 

1144 down (&mount sem) ; 

1145 retval = do_umount (nd. mt, 0, flags): 
1146 up(&mount sem); 

1152 return retval; 

1153 } 


XX LE Ae EHE. do_umount( ) 保 护 起 来 , 因为 在 同 “时 间 里 整个 系统 中 只 允许 有 :个 进程 在 安装 
或 拆卸 文件 系统 ， 而 安装 或 拆 伸 文件 系统 的 过 程 义 是 可 能 〈 实 际 上 是 必定 ) 受阻 ， 因 而 中 途 会 发 生 调 
度 的 。 为 达到 这 个 目的 ， 首 先 在 第 SO 行 建立 起 一 个 独门 的 “院子 ”或 者 说 “信号 量 ”mount_sem， 并 
且 把 要 加 以 保护 的 操作 放 在 进门 (down) 和 出 门 (up) 两 个 操作 之 间 。 要 进入 这 个 “院子 ”时 必须 要 先 执行 
down( ) 以 得 到 一 张 “门票 ”， 而 当 完 成 了 操作 从 里 面 出 来 时 则 装 执 行 up( ) 以 归还 门票 并 唤 龄 可 能 止 在 
等 待 的 其 他 进程 。 操 作 系 统 理论 里 把 这 段 需 要 独家 关 起 门 来 干 的 所 作 称 为 “临界 区 ”(critical section). 
顺便 说 “下 ， 把 critical section 翻 详 成 “临界 区 ”似乎 有 点 学 究 气 ，critical 其 实 就 是 “非常 重 费 ， 摘 个 
好 的 话 后 昌 可 能 很 严重 ”的 意 妃 。 

fi X DECLAR_MUTEX( ) 的 定义 在 include/asm-i386/semaphore.h H: 


53 #if WAITQUEUE DEBUG 
94 # define | SEM DEBUG INIT(name) \ 


55 , (in) &(name). | magic 
56 Helse 

57 # define __ SEM DEBUG INIT (name) 
58 Hendif 

59 


60 #define _ SEMAPHORE TNITIALIZER(name, count) V 
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61 { ATOMIC INIT(count), 0, _ WAIT QUEUE HEAD INTTTALTZER((name). wait) \ 


62 .. SEM DEBUG INIT(name) } 

63 

64 define | MUTEX INTTTALIZER(name) \ 

65 __ SEMAPHORE. INITTALTZER (name, 1) 

66 

67 define . DECLARE SEMAPHORE GENERIC (name, count) \ 

68 struct semaphore name = SEMAPHORE INITIALIZER (name, count) 
69 


70 #define DECLARE MUTEX (name) | DECLARE SEMAPHORT GENERTC (name, 1) 
7i define DECLARE MUTEX LOCKED (name) _ DECLARE SEMAPTIORE GENERIC (name, 0) 


E Æ X ATOMIC INIT( ) 和 | WAIT QUEUE HEAD INITIALIZER ) 分 别人 在 
include/asm-i386/atomic.h 和 include/linux/wait.h F, 读者 可 以 自行 参阅 。 总 之 , 经 过 gec 的 预 处 理 以 后 ， 
前 面 的 第 50 行 就 变 成 类 似 丁 这 样 的 语句: 

static struct semaphore — mount sem 2 {{(1)} ,0,*:]) 

thai, Xüxt DECLARE MUTEXO ) 建 立 的 信号 量 只 有 13K DIU, MARNA AREEN DE 
入 临界 区 。 另 .种 通过 DECLARE MUTEX LOCKEDORESE BS: S ER) SRI ISH A, ET 
某 个 进程 通过 up( ) 操 作 送 来 IRA fie ERA PERI fEVEROIEACKT | RA ELE TE PROCLI fork( ) 
一 节 中 看 到 过 此 种 信号 量 的 运用。 两 种 信号 量 各 有 各 的 用 处 , 而 MUTEX 和 MUTEX LOCKED 下 反映 
了 它们 各 自 的 用 途 。 此 外 ， 信 号 量 既 吕 以 作为 全 局 量 存 在 ， 也 可 以 作为 其 个 函数 的 局 部 是 存在 。 

对 于 信号 量 的 操作 只 有 down ) 和 up AP, AES inline 因数， 都 是 在 
include/asm-i386/semaphore.h 中 定义 的 。 先 看 down(): 











109 /* 

110 * This is ugly, but we want the default case to fall through. 
Lil * ^ down failed" is a special asm handler that calls the C 
112 * routine that actually waits. See arch/i386/kernel/semaphore. c 
113 */ 

114 static inline void down(struct semaphore * sem) 

115 { 

116 Hif WATTQUEUE DEBUG 

117 CHECK MAGIC(sem > magic); 

118 Hendif 

119 

120 asm volatile ( 

121 ^8 atomic down operation\n\t” 

122 LOCK "decl %0\n\t” /* —-sem->count */ 

123 "js 2f\n” 

124 “1 s\n" 

125 " section . text. lock, \“ax\”\n” 

126 ”2:\tceall __ down failed\n\t” 

127 ” jmp lb\n” 

128 ^. previous” 

129 :^ m^ (sem-^count) 
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130 :^c^ (sem) 
131 :^memory^); 
132 ] 


XX BEBO TL ds FUEGO HR UV, GAT IAEA UICE E SRN AS; AARE sem 与 
寄存 器 ECX 结合 .由 于 count Æ semaphore 数据 结构 中 的 第 一 个 成 分 ,所 以 指向 该 数据 结构 的 指针 sem 
即 为 指向 sem->count 的 指针 ， 从 而 第 122 行 的 decl 指令 所 递减 的 实际 上 是 sem->count。 减 了 以 后 的 结 
AG ORT 0， 或 者 说 如 果 成 功 地 拿 到 了 一 此 门票 ， 那 么 就 在 标号 “1” 处 结束 上。 注意 这 里 在 指 
令 decl RTA TATA LOCK, 衣 示 人 在 执 行 这 条 指令 时 此 把 总 线 锁 住 , 以 防 可 能 来 白 同 一 系统 中 其 他 CPU 
I TAE. 

ein 以 后 的 结果 为 负数 ， 那 就 表示 拿 不 到 门票 ， 就 转 到 标号 “2” 处 调用 __down_failed( ). 3E 

， 进 程 企 __down_failed( ) 中 会 进入 胜 眠 ， 一 让 要 到 被 唤 本 并 成 功 地 拿 到 门 紫 才 会 从 陡 里 返回 ， 然 
号 “1” 而 结束 down( ) 操 作 ， 即 进入 了 临界 区 。 
PRL _ down_failed( ) 以 及 有 关 的 代码 都 在 arch/i386/kemel/semaphore.c 中 : 


[down( ) > | down, failed( )] 


171 /* 

172 * The semaphore operations have a special calling sequence that 

173 * allow us to do a simpler in line version of them. These routines 
174 * need to convert that sequence back into the C sequence when 

175 * there is contention on the semaphore. 

176 * 

177 * %ecx contains the semaphore pointer on entry. Save the C-clobbered 
178 * registers (%eax, %cdx and %ecx) except %eax when used as a return 
179 * value.. 

180 */ 

181 asm( 


182 ” align 4\n” 
183 ^.globl | down failed\n” 
184 " down failed: WnMVt^ 


185 “pushl %eax\n\t” 
186 "pushl %edx\n\1.” 
187 "pushl %ecx\n\t” 
188 “call | down\n\t” 
189 “pop] %eex\n\t” 
190 "popl %edx\n\t” 
191 "popl %eax\n\t” 
192 “ret” 

193 ;93 


中 然 ， 这 里 的 口 的 只 在 十 调用 __down( )。 代 码 的 作者 在 这 个 文件 ‘(semaphore.c) 的 开头 处 加 了 
段 注释 ， 或 可 帮助 读者 更 好 地 理解 ， 


20 /* 
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21 * Semaphores are implemented using a two-way counter: 

22 * The “count” variable is decremented for each process 

23 * that tries to aquire the semaphore, while the "sleoping^ 
24 * variable is a count of such aquires. 

25 * 

26 * Notably, the inline "up( )" and "down( )" functions can 
27 * efficiently test if they need to do any extra work (up 
28 * needs to do something only if count was negative before 
29 * the increment operation. 

30 * 

31 * "sleeping/ and the contention routine ordering is 

32 * protected by the semaphore spinlock. 

33 * 

34 * Note that these functions are only called when there is 
35 * contention on the lock, and as such all this is the 

36 * “non-critical” part of the whole semaphore business. The 
37 * critical part is the inline stuff in <asm/semaphore. h> 
38 * where we want to avoid any extra jumps and calls 

39 */ 


再 看 __down( ) 的 代码 : 


[down( } > __down_fail( ) ». . down( )] 


58 void | down(struct semaphore * sem) 

59 | 

60 struct task struct *tsk = current; 

61 DECLARE WAITQUEUE(wait, tsk); 

62 tsk-^state = TASK UNINTERRUPTIBLE; 

63 add wait _queue_exclusive(&sem->wait, &wait); 

64 

65 spin lack irq(&semaphore_lock) ; 

66 sem->sleepers++; 

67 for (;;) d 

68 int sleepers = sem-?sleepers; 

69 

70 /* 

71 * Add “everybody else” into it. They aren't 
72 * playing, because we own the spinlock. 

13 */ 

74 if (latomic add negative(sleepers - 1, &sem—>count)) 
75 sem >sleepers = 0; 

76 break; 

77 } 

78 sem- sleepers = l; /* us - see -l above */ 
79 spin unlock irq(&semaphore lock); 

80 

81 schedule( ); 
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82 tsk->state = TASK UNINTERRUPTIBLE; 
83 spin lock irq(&semaphore lock); 

84 ] 

85 spin unlock irg(&semaphore lock); 

86 remove wait queue(&sem-^wait, &wait): 
87 tsk-»state - TASK RUNNING; 

88 wake up(&sem-^wait); 

89  ] 


有 关 等 待 队列 中 各 元 素 的 数据 结构 wait queue, t 以 及 宏 定 义 DECLARE, WAITQUEUR( ), 读 者 已 在 
前 一 人 中 看 到 过 , 此 处 不 再 班 述 。 fy add_wait_queue_exclusive ) 则 把 代表 当前 进程 的 答 待 队 全 元 素 wait 
链 入 到 由 队列 头 sem-»wait 代表 的 等 待 队列 的 尾部 。 当 CPU 执行 到 达 for; GEA, sem-»sleepers 表 





不 到 “门票 "， 进 不 了 临界 区 才 到 了 __down( ) 趾 ， 但 是 由 于 在 这 里 的 spin. lock, irq ) 之 前 并 没有 加 锁 ， 
说 不 定 已 经 有 其 个 进程 (当然 是 在 男 一 个 处 球 器 上 ) 在 此 期 间 已 经 执行 了 -次 up( ) 操 作 ， 央 而 这 个 时 
候 实际 上 已 经 有 “门票 ”了 。 如 果 不 再 作 “次 检查 ， 浊 就 会 无 谓 地 进入 睡眠 而 等 待 已 经 存在 的 “ 门 桌 内 
更 糟 的 是 ， 可 能 上 青 也 没有 进程 会 来 唤醒 儿 了 。 亡 以， 在 for( ) 往 环 中 通过 atomic_add_negative( ) 所 作 的 
检查 是 很 关键 的 。 而 冉 ， 它 所 作 的 还 木 仅仅 是 检 杏 ， 它 将 (sleepers—1) 加 到 sem->count 上 去 ， 使 得 
它 的 值 不 会 小 十 一 1。 举 例 来 说 ， 如 此 在 当前 进程 执行 down( ) 之 前 sem->count 为 6， 并 下 从 滥 时 候 以 
来 并 无 进程 在 此 信和 号 量 上 执行 pO, MWA sleepers 一 1) 为 0， 而 sem->count 为 一 1， 相 加 的 结果 仍 超 
一 1， 此 时 atomic add negative( WKIMFES, 表示 当前 进香 仍 需 等 待 。 MH 65 行 之 前 已 经 有 个 进程 在 
此 信号 量 上 执行 了 up( ) 操 作 ， 堵 人 么 sleepers—1 £57) 0, (H sem->count 变 成 了 0， 相 加 的 结果 为 0 而 不 
是 负数 ， 此 时 atomic, add. negative( ) 返 国 替 ， 表 示 当 前 进程 不 需 此 等 待 了 上 ， 可 以 进入 临界 区 了 ， 就 好 像 
本 次 操作 在 down( ) 里 面 将 sem-»count 从 1 RT 0 -- 样 。 当 sem-»count 的 值 为 正 数 或 0 时 表示 还 有 
多 少 资 源 ， 或 者 可 以 理解 为 偿 剩 下 几 张 “门票 ” 而 sem->count 为 负 的 时 候 则 上 表明 己 经 没有 资源 并 二 有 
进程 正在 等 待 ， 却 并 不 需要 表明 到 底 有 几 个 进程 止 企 等 待 。 这 样 ， 在 up( ) 操 作 中 可 以 用 一 条 指令 将 
sem->count 加 1， 然 后 根据 结果 是 否 为 0 JE A d ERE SS BO. 

如 果 当 前 进程 发 现 不 再 需 比 等待 了 ， 它 就 通过 这 里 的 break 语 多 跳出 for 循环 ， 并 在 返回 之 前 唤 肯 
等 待 队列 中 的 其 他 进程 。 不 过 , 如 果 有 其 他 进程 止 在 等 待 的话 , 被 唤醒 之 后 多 半 通 不 过 第 74 行 的 测试 ， 
这 是 因为 那 时 候 sem->sleepers 已 经 设 成 了 0 CWB 75 行 )， 所 以 (sleepers 一 1) 为 一 1， 忆 经 是 个 负数 ; 
RRIF ABET sem-»count 山 经 变 成 1， 否 则 atomic, add. negative( ) 必 然 会 返回 非 0。 这 :点 等 一 下 我 们 还 要 
讨论 。 

当 atomic_add_negative( JJKIFI4E O 时 ， 当 前 进程 就 真 的 要 进入 睡眠 状态 等 待 了 ， 所 以 在 第 81 行 调 
用 schedule( )。 由 于 入 睡 的 状态 为 TASK_UNINTERRUPTIBLE， 所 以 不 会 因 接 收 到 信和 号 而 被 歇 醒 。 同 
时 ， 由 于 标志 位 TASK EXCLUSIVE 为 1， 所 以 只 有 排 在 队 询 中 的 第 一 个 进程 才 会 被 唤醒 。 还 要 指出 
的 是 ， 当 睡眠 中 的 进程 被 唤醒 出 从 schedule( ) 中 返回 ， 并 站 到 循 坏 体 的 前 部 时 ， 由 于 sem->slcepers 在 
78 行 被 设 成 1, 所 以 此 时 (sleepers 一 1) 必然 为 0, 所 以 能 否 进入 临界 区 的 条 件 皮 决 于 当时 的 sem-»count 
是 否 为 负数 〈 一 1)。 人 在 典型 的 情况 下 ， 被 up( ) 拘 作 所 吹 醒 的 进程 会 磁 上 sem->count 为 0， 从 而 能 跳出 
for( ) 循 丈 从 __down( ) 返 串 而 进入 临界 区 。 在 从 __down( ) 返 加 之 前 它 述 要 和 再 从 队列 中 唤醒 :个 进程 ,而 
那个 进 和 在 狐 往 往 划 继续 等 待 了 。 

从 代 介 中 可 以 看 出 ， 当 有 多 个 进程 在 等 待 进入 个 临界 区 时 ， 当 前 进 称 赂 有 些 优 势 ， 然后 就 是 “ 先 
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来 先进 *”， 调 进程 的 优先 级 别 并 没有 起 作用 。 在 有 实时 要 求 的 系统 中 这 术 必 不 是 个 缺 队 将 来 的 版 本 
中 也 许 会 考虑 这 个 问题 。 

还 有 个 问题 也 与 优先 级 和 临界 区 相 联 系 ， 称 为 “优先 级 倒转 ”。 试 息 这 么 种 情景 一 个 优先 线 很 
高 的 进程 在 菜 一 临界 区 门 外 等 待 ， 而 正在 临界 区 里 面 的 进程 偏偏 优先 级 很 低 ， 而 有 一 旦 因 操 作 受 阻 进 
入 睡眠 ， 然 后 被 唤醒 时 便 一时 得 不 勾 机 会 运行 ,于 是 便 “ 急 惊 风 过 上. 了 慢 郎 中 ”。 在 这 样 的 情况 下 ， 优 
先 线 高 的 进程 办 临界 区 内 的 进程 优先 级 太 低 而 受 了 连累 。 解 决 的 方法 是 ， 当 有 有 优先 级 高 的 进程 在 临 罩 
区 外 等 待 的 时 候 ， 就 暂时 把 它 的 高 优先 级 “ 借 ” 给 临界 区 内 的 进程 ， 提 高 其 竞争 力 。 日 前 在 Linux 内 
核 中 尚 林 实 现 此 种 机 制 ， 这 也 是 一 个 可 以 改进 的 地 方 。 不 过 ， 问 题 也 并 不 像 想 像 中 那么 严重 ， 因 为 内 
核 中 需要 在 临界 区 内 进行 的 操作 一 般 都 是 很 短促 的 ， 不 全 十 受阻 ， 反 之 ， 必 须 在 临界 区 内 进行 、 而 义 
有 可 能 中 途 受 阻 市 需要 睡眠 的 操作 ， 则 ”- 般 不 宜 由 优先 级 很 商 的 进程 米 进 行 。 

于 来 看 up( ) 就 比较 简单 了 ， 这 也 是 在 semaphore.h 中 : 


182 /* 

183 * Note! This is subtle. We jump to wake people up only if 
184 * the semaphore was negative (-- somebody was waiting on it). 
185 * The default case (no contention) will result in NO 
186 * jumps for both down( ) and up( ). 

187 */ 

188 static inline void up(struct semaphore * sem) 

188 f 

190 #if WATTQUEUE DEBUG 

191 CHECK MAGIC(sem-? magic); 

192 endi f 

193 __asm__ volatile ( 

194 “# atomic up operation\n\t” 

195 LOCK "incl %0\n\1” /* ++sem->count */ 

196 "jle 2f n" 

197 “1:\n” 

198 ” section .text. lock, \“ax\”\n” 

199 “2:Ntcall — up_wakeup\n\t” 

200 ” imp lb\n” 

201 ” previous” 

202 :^—-m^ (sem->count) 

203 :”c” (sem) 

204 ;"memory^); 

205  ] 


显然 ， 与 down ) 的 代码 是 相似 的 ， 不 同 之 处 仅 在 十 这 是 递增 ， 而 不 是 递减 sem-»count, JP E dc 
增 以 后 结果 为 0 或 负数 时 就 调用 _up_wakeup( )， 籽 也 是 在 semaphore.c P: 
[up()> __up_wakeup( )] 
219 asm( 


220 "align 4\n” 
221 ".globl | up wakeupWn^ 
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222 ^ . up wakeup: \n\t” 


223 "pushl %eax\n\t” 
224 “pushl %edx\n\t” 
225 “pushl %eex\n\t.” 
226 “call __up\n\t” 
227 "popl %ecx\n\t” 
228 "popl %edx\n\t” 
229 "popl %eax\n\t” 
230 “ret” 
231 ) ; 
- 同样，__up() 的 代码 也 在 semaphore.c 中 : 


lup( ) > ___up_wakeup() >__up( )] 


41 /* 

42 * Logic: 

43 x only on a boundary condition do we need to care. When wc go 
44 * from a negative count to a non-negative, we wake people up. 
45 * 一 When we go from a non-negative count to a negative do we 

46 * (a) synchronize with the "sleeper^ count and (b) make sure 

47 * that we're on the wakeup list before we synchronize so that 
48 * we cannot lose wakeup events. | 

49 */ 

50 

51 void | up(struct semaphore *sem) 

52 d 

53 wake up(&sem-^wait); 

54 |] 


这 里 的 wake up( ) 和 “ 些 有 关 的 宏 定 义 都 是 在 sched.h 中 定义 的 : 


555  ftdefine wake_up (x) __wake_up({x), \ 

TASK_UNINTERRUPTIBLE | TASK INTERRUPTIBLE, WQ_FLAG EXCLUSIVE) 
556 "define wake up all(x) wake up((x), V 

TASK UNINTERRUPTIBLE | TASK INTERRUPTTBLE, 0) 
557 define wake up sync(x) | wake up syne((x), V 

TASK UNINTERRUPTIBLE | TASK INTERRLPTIBLE, WQ FLAG EXCLUSTVE) 
558 #define wake up interruptible(x) \ 

. Wake up(G), TASK INTERRUPTTRLE, WQ FLAG. EXCLUSIVE) 
559 Sdefine wake up interruptible all(x) \ 
__wake_up((x), TASK_INTERRUPTIBLE, 0) 
560 Sdefine wake up interruptible sync(x) V 
...Wake up sync((x), TASK INTERRUPTIBLE, WQ FLAG EXCLUSTVE) 


V] | wake up( ) 则 在 sched.c P. ix RT LAA BK eh BGK CIR RIS A BÀ 9] LP PCIE EE 
程 。 介 是， 如 果 一 个 被 唤醒 进程 的 TASK. EXCLUSIVE 标志 为 1 SAR 8 4 n DA i eh dC AR ERR 
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(sched.c). 


{up( ) > __up_wakeup( ) > __up() > wake up( ) > __ wake up( )] 


766 
767 
768 
769 


void __wake_up (wait queue head t *q, unsigned int mode, unsigned int wq mode) 
{ 


__wake_up_common(q, mode, wq mode, 0); 


) 


[up( ) > __up_wakeup( ) > __up( ) > wake up( ) »... wake up() > __ wake up common( )] 


692 
693 
694 
695 
696 
697 
698 
699 
700 
701 
702 
703 
704 
705 
706 
707 
708 
709 
710 
711 
712 
713 
714 
715 
716 
717 
718 
719 
720 
721 
722 
723 
724 
725 
726 
727 
728 


static inline void | wake up common (wait queue head t *q, unsigned int mode, 
unsigned int wq mode, const int sync) 
{ 
struct list head *tmp, *head; 
struct task struct *p, *best exclusive; 
unsigned long flags; 
int best cpu, irq; 


if (1g) 
goto out; 


best cpu = smp processor id( ); 

irq = in interrupt( ) ; 

best exclusive = NULL; 

wq write lock irqsave(&q-^lock, flags); 


Hif WAITQUEUE DEBUG 
CHECK MAGIC WQHEAD (q) ; 
Hendif 


head = &q->task_ list; 
Hif WAITQUEUE DEBUG 
if (thead->next || !head— prev) 
WQ BUG( ) ; 
#endif 
tmp = head->next; 
while (tmp != head) { 
unsigned int state; 
wait queue t *curr = list entry(tmp, wait queue t, task list); 


tmp = tmp->next; 


#if WAITQUEUE DEBUG 
CHECK MAGIC (curr-> magic); 
Hendif 


p = curr->task; 
state = p->state; 
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729 if (state & mode) ( 
730 #if WAITQUEUE DEBUG 
731 curr->__waker = (long)  builtin return address(0); 
732 #endif 
733 /* 
734 * If waking up from an interrupt context then 
735 * prefer processes which are affine to this 
736 * CPU. 
737 */ 
738 if (irq & (curr->flags & wq mode & WQ FLAG EXCLUSIVE)) | 
739 if (!best_exclusive) 
740 best exclusive = p; 
741 if (p-^processor == best cpu) { 
142 best exclusive = p; 
743 break: 
744 } 
745 | else { 
146 if (sync) 
741 wake, up process. synchronous (p) ; 
748 else 
749 wake up process (p); 
750 if (curr->flags & wq mode & WQ FLAG EXCLUSIVE) 
151 break; 
752 } 
753 } 
754 } 
755 if (best_exclusive) { 
756 if (sync) 
757 wake up process synchronous (best_exclusive) ; 
758 else 
159 wake up, process(best exclusive); 
760 } 
761 wq write unlock_irqrestore(&q->lock, flags); 
762 out: 
763 return; 
764 } 
可 以 看 出 ， 当 一 个 进程 止 在 等 待 进入 一 个 临界 区 时 ， 它 所 等 待 的 是 独占 资源 (人 在 使 用 期 间 需 费 独 


点 的 资源 〉 的 释放 。 和 出 进入 了 个 临界 区 的 进程 则 占用 了 -项 独占 资源 。 如 果 :个 进程 进入 了 一 个 临 
界 区 A， 而 又 企图 进入 另外 一 个 临界 区 B 的 话 ， 老 就 可 能 会 因为 进入 不 了 那个 临界 区 ， 也 就 是 得 不 到 
所 需 的 资源 ， 而 只 好 在 B 的 队列 中 等 待 。 那 么 ， 所 等 待 的 资源 又 在 谁 的 手 里 呢 ? WR OA AAT 
资源 的 进程 恰好 也 正在 A 的 队列 中 等 待 ， 那 就 发 生 了 所 谓 的 “ 死 锁 ” 因为 此 时 遇 个 进程 都 无 法 向 前 推 
进而 到 达 可 以 释放 资源 的 那 一 步 。 显 然 ， 对 共享 资源 《在 使 用 期 间 也 人 允许 共享 的 资源 ) 的 使 用 是 不 会 
导致 死 锁 的 。 在 Linux 系统 中 ， 多 数 的 资源 部 是 可 共享 的 ， 而 独占 资源 的 使 用 则 置 于 临界 区 中 。 只 要 
保 让 不 在 一 个 临界 区 中 企图 进入 另 一 个 临 内 区 ， 那 就 不 会 发 生死 锁 ， 而 这 也 是 防止 死 锁 的 最 简单 的 办 
法 。 进 一 步 ， 即 使 在 个 临界 区 中 企图 进入 另 ， 个 临界 区 ， 但 是 如 果 为 所 有 的 临界 区 排 好 -个 次 序 ， 
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所 有 的 进程 在 进入 临界 区 时 部 遵守 相同 的 次 序 《〈 例 如 ， 只 能 先进 A 后 进 B， 而 不 允许 先进 B 后 进 A)， 
则 也 不 会 发 竺 上 述 因 循环 等 待 而 引起 的 处 锁 。 在 日 前 的 内 核 中 尚 无 防止 和 化 解 死 锁 的 措施 ， 也 没有 防 
止 进程 在 一 个 临界 区 中 不 按 次 序 进入 另 一 个 临界 区 的 措施 。 所 以 ， 这 踢 龙 将 来 可 加 以 改进 的 一 个 方 而 。 
在 内 核 中 ， 需 要 “ 互 斥 ” 的 不 仅仅 是 进程 与 进程 之 问 ,干扰 也 可 能 发 牛 寺 进 程 与 中 断 服务 程序 (或 
bh AO 之 间 。 辐 时 ,“ 信 号 量 ” 也 并 非 防 止 进 程 间 ， 特 别 症 在 不 同 处 理 器 上 这 行 的 进程 之 问世 相干 扰 
的 惟 - 手段 。 例 如 ， 关 中 断 无 疑 是 保证 同一 处 理 器 中 进程 与 中 断 服 务 程序 间 豆 斥 的 一 种 于 段 ， 但 是 它 
不 能 防 直 来自 另 一 处 理 器 上 的 中 断 服 务 程 序 或 进程 的 干扰 。 
另 :种 有 效 的 手段 就 是 加 锁 。 读 者 在 前 而 down ) 的 代 僻 中 看 到 的 spin_lock_irq( ) 和 
spin. unlock irq( ) 就 是 其 中 之 一 。 特 别 是 在 多 处 埋 器 SMP 结构 的 系统 中 ， 由 软件 实现 的 各 种 锁 尤 其 起 
着 无 可 替代 的 作用 。 文 件 include/linux/spinlock.h 中 定义 了 一 些 加 锁 操 作 : 


6 /水 

7 * These are the generic versions of the spinlocks and read-write 

8 * locks.. 

9 */ 

10 define spin lock irqsave(lock, flags) do { local_irq_save (flags) ;\ 

spin lock(lock); | while (0) 

1i Hdefine spin lock irq(lock) do { local irq disable( );^ 
spin_lock (lock); } while (0) 

12 #define spin lock bh (lock) do { local bh disable( };\ 
spin lock(lock); } while (0) 

13 


14 define read lock irqsave(lock, flags) do ( local irq save(flags);V 
read lock(lock); ) while (0) 


15 Hdefine read lock irq(lock) do ( local irg disable( );\ 
read lock(lock); } while (0) 
16 define read lock bh(lock) do { local bh disable( );^ 


read lock(lock); } while (0) 
17 
18 üdefine write lock irasave(lock, flags) do { local irq save (flags) ;\ 
write lock(lock); } while (0) 


19 Sdefine write_lock_irq(lock) do ( local irq disable( );\ 
write lock(lock); } while (0) 
20 define write lock bh(lock) do { local bh disable( );\ 


write lock(lock); ) while (0) 
2] 
22 define spin unlock irqrestore(lock, llags) do { spin_unlock (Lock) ;\ 
local irq restore(flags); } while (0) 


23 Hdefine spin unlock irq(lock) do | spin unlock (lock) ;* 
local irg enable( ); ] while (0) 
24 #define spin unlock bh(lock) do { spin unlock (lock) ;N 


local bh enable( ); } while (0) 
25 
26 fdefine read unlock irqrestore(lock, flags) do ( read_unlock (lock) ;\ 
local ira restore(flags); } while (0) 
27 &define read unlock irq (lock) do | read unlock (lock) ;^ 
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local irq enable( ); ) while (0) 
28 define read unlock bh(lock) do { read_unlock (lock) ; \ 
local_bh_enable( ); } while (0) 


29 
30 #define write unlock irgrestore(lock, flags) do { write unlock (lock) ;\ 
local irq restore(flags): } while (0) 


31 #define write unlock irq(lock) do { write unlock (lock) ;\ 
local_irq enable( ); ) while (0) 

32 "define write unlock bh(lock) do { write_unlock (lock) ;\ 
local bh enable( ). } while (0) 


首先 来 看 看 癌 一 组 加 锁 操 作 之 问 的 不 同 。 例 如 ，spin_lock_irqsave( ) 与 spin lock irq( ) 之 间 的 区 别 
仪 在 十 前 者 调用 local_irq_save( ) 而 后 者 调用 local_irq_disable( )。 相 应 的 解锁 操作 spin unlock irqsave( ) 
与 spin unlock irq( ) 之 间 的 区 别 也 就 因此 而 不 同 ， 前 者 调用 local irq restore( ) T d B H 
local_irq_enable( ). 

理 来 看 看 不 同 组 的 加 锁 操 作 有 什么 不 同 。 例 如 ，spin_lock_irq( ) 和 read. lock, irq( ) 之 问 的 区 唱 仅 在 
于 及 省 调用 spin_lock( ) 测 后 者 调用 read_lock( ). 

每 一 个 抬 作 都 包含 了 鸯 部 分 。 一 部 分 是 操作 名 以 local FAW, 其 作用 是 关闭 或 开启 本 处 理 器 上 的 
中 断 响 应 。 另 “部 分 是 操作 名 以 _lock 结尾 的 ， 其 作用 是 防止 来 自 其 他 处 理 器 的 和 干扰。 我 们 先 来 看 处 理 
开 中 新 /关中 断 的 操作 ， 这 者 是 在 include/asm-i386/system.h 中 定义 的 : 


304 #define local irq save(x) . asm volatile | (^pushfl ; popl %0 :\ 
cli^:"-g^ (x): /* no input */ :”memory”) 

305 8define local irq restore(x) | restore flags (x) 

306 ^ &define local irq disable( )  cli( ) 

307 fdefine local irq enable( ) _ sti() 


MIEL, local irq. save( ) local, irq. disable( )8& x cli 指令 来 关闭 中 断 ， 但 是 前 者 先 把 当前 的 处 惠 
器 状态 标志 寄存 器 的 内 容 保存 起 来 ， 内 为 其 中 的 IF 标志 就 反映 当前 的 中 断 是 并 着 还 是 关 着 (指令 cli 
就 是 把 IF 标志 位 清 0)， 以 便 在 去 锁 时 加 以 恢复 。 由 于 状态 标志 寄存 器 并 非 通用 寄存 器 ， 所 以 要 用 push 
Al pop 指令 经 过 堆栈 将 其 内 容 保存 到 参数 x 中 。 相 应 地 ，local_irq_restore( ) 与 local_irq_enable() 的 区 别 
BEHE. 

HRE spin. lock( )， 其 定义 在 spinlock.h r£: 


78 static inline void spin lock(spinlock t *lock) 


19 { 

80 #if SPINLOCK DEBUG 

81 __ label here; 

82 here: 

83 if (lock-^magic !- SPINLOCK MAGIC) { 
84 printk(^eip: %p\n”, &&here); 

85 BUG ( ) ; 

86 } 

87 Hendif 

88 ..asm | _ volatile. ( 


: 409 . 


Linux AUR EE RECAP C END 


89 spin lock string 
90 ;"-m^ (lock-»lock) : : "memory^); 
91  ] 


参数 lock 的 类 型 为 spinlock_t， 定 义 于 include/asm-i386/spinlock.h: 


17 /* 

18 * Your basic SMP spinlocks, allowing only a single CPU anywhere 
19 */ 

20 

21 typedef struct { 

22 volatile unsigned int lock; 

23 #if SPINLOCK_DEBUG 

24 unsigned magic; 

25 Bendif 


26 ) spinlock t; 


如 果 不 考 虑 调试 ， 这 实际 上 就 是 一 个 无 符号 整数 ， 但 是 这 样 有 利于 防止 ge 在 编 诺 过程 加 以 有 害 
的 “优化 ” 代码 中 引用 的 spin. lock string 又 是 一 个 宏 定义 : 


50 #define spin lock string \ 


51 "\nt:\t” \ 

52 “lock ; decb %0\n\t” V 

53 “js 2f\n” \ 

54 ” section . text. lock, \“axN\ An \ 
55 ^2:Nt^ X 

56 “cmpb $0, %0\n\t” \ 

57 "“repinop\n\t” \ 

58 “jle 2b\n\t” \ 

59 “jmp lb\n” \ 

60 “previous” 


这 里 的 %0 与 参数 lock-»lock 相 结合 。 这 申 的 指令 decb 将 操作 数 ， 即 lock->lock J& 1, TAZ b N 
表示 操作 数 为 8 位 。 这 条 指令 带 有 前 缕 “lock”， 表 示 在 执行 时 要 将 总 线 锁 住 ， 不 让 其 他 处 理 器 访问 ， 
以 此 来 保 让 该 条 指令 执行 的 “原子 性 ”。 减 1 以 后 ， 要 是 结果 非 负 《符号 位 为 0) 则 加 锁 成 功 ， 所 以 就 
返回 了 。 如 果 发 现 减 1 以 后 的 结果 成 了 负数 ， 那 就 表示 已 经 有 其 他 把 作 先 加 了 锁 ， 因 此 被 锁 仁 了 门 外 ， 
这 时 就 转移 到 标号 “2” 处 循环 测试 ， 等 待 加 锁 者 去 锁 后 将 lock->lock 设置 成 大 于 0， 然 后 又 试 着 加 锁 。 

从 代码 中 可 以 看 出 ， 如 果 lock->lock 的 值 原来 就 已 经 是 0 或 负数 ， 则 处 理 器 不 断 地 循环 测试 它 的 
值 ， 直 至 其 变 成 大 于 0 为 止 ， 所 以 才 有 spin_lock 这 个 名 字 。 所 谓 spin Bie “WERE” WR. NS 
不 断 地 这 么 连 轴 转 ， 当 然 是 在 做 无 用 功 。 那 么 为 什么 不 像 在 对 信号 量 的 down ) 操 作 那 样 进入 睡眠 ， 把 
CPU 让 给 其 他 进程 来 做 些 有 用 功 了 昵 ? 这 是 因为 想 要 加 锁 的 这 段 程序 未 必 是 在 一 个 进程 的 上 下 文中 调用 
的 ， 它 可 能 调用 自 一 段 中 断 服务 程序 或 者 bh 函数 ， 根 本 就 不 是 可 调度 的 。 这 也 说 明 ， 加 锁 的 时 间 不 能 
太 长 ， 否 则 就 可 能 太 浪费 了 。 

至 于 spin unlock( ) 的 代码 那 就 很 箭 单 了 : 


- 410 . 


第 4 章 进程 与 进程 调度 


93 static inline void spin unlock (spinlock t *lock) 
94 { 

95 #if SPINLOCK DEBUG 

96 if (lock->magic != SPINLOCK MAGIC) 

97 BUG( ) ; 

98 if (!spin is locked(lock)) 

99 BUG( ) ; 

100 #endif 

101 __asm__ volatile ( 

102 spin unlock string 

103 :"-m" (lock-^lock) : : "memory^); 
104 } 


laJ#¥, spin unlock string 也 是 个 宏 定 义 : 


62 /* 

63 * This works. Despite all the confusion. 
64 */ 

65 #define spin_unlock_string \ 

66 "movb $1, %0” 


代码 中 的 指令 movb 将 lock->lock 设置 成 1， 如 此 而 已 。 这 条 指令 不 带 有 前 缀 “lock”， 央 为 指令 
movb 的 操作 本 身 就 是 原 了 性 的 。 相 比 之 下 ， 前 面 的 指令 decb 因为 涉及 “ 读 一 改 一 写 ” 周 期 ， 所 以 从 
总 线 角 度 看 不 是 原子 性 的 。 

读者 也 许 会 问 ， 既 然 被 锁 在 门 外 的 处 理 器 只 是 在 做 无 用 功 ， 那 为 何不 干脆 就 把 总 线 锁 了 ， 一 直到 
要 做 的 事情 完成 以 后 才 开 放 呢 ? 这 还 是 不 同 的， 正在 连 轴 转 做 于 用 功 的 处 理 器 仍 能 响应 中 断 。 而 如 果 
干脆 把 总 线 锁 了 那 就 连 中 断 也 不 能 响应 了 。 再 说 ， 系 统 中 也 还 可 能 有 其 他 处 理 器 ， 只 要 不 想 进 入 同 -- 
段 代码 或 受 同 一 把 锁 保 护 的 代码 ， 就 可 以 继续 运行 。 

再 来 看 read_lock( ) write lock( )， 其 实现 也 是 大 同 小 异 ， 我 们 把 这 些 代码 〈 也 在 spinlock.h 中 ) 
留 给 读者 自己 阅读 : 


135 /*k 

136 * On x86, we implement read-write locks as a 32-bit counter 
137 * with the high bit (sign) being the "contended" bit 

138 * 

139 * The inline assembly is non-obvious. Think about it. 

140 * 

141 * Changed to use the same technique as rw semaphores. See 
142 * semaphore.h for details. -ben 

143 */ 


144 /* the spinlock helpers are in arch/i386/kernel/semaphore.S */ 
145 
146 static inline void read lock(rwlock t *rw) 


147 { 
148 #if SPINLOCK DEBUG 
149 if (rw->magic != RWLOCK MAGIC) 
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151 
152 
153 
154 
155 
156 
157 
158 
159 
160 
161 
162 
163 
164 


165 
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BUG( ); 
#endif 


. build read lock(rw, ”__read_lock_failed”) ; 


) 


static inline void write lock(rwlock t *rw) 
{ 
#if SPINLOCK DEBUG 
if (rw->magic != RWLOCK MAGIC) 
BUG( ) ; 
#endif 


— build write lock(rw, " write lock failed"); 


} 


Hdefine read unlock(rw) asm volatile("lock ; inel %0” \ 


Sem" (qw) Mock) : : “memory” ) 


define write unlock(rw) asm volatile( lock ; \ 


addl $^" RW LOCK BIAS STR”, 40" :^-m" ((rw)— lock) : 


代码 中 引用 的 一 些 宏 操 作 和 宏 定义 为 : 


20 
21 
22 
23 
24 
25 
26 
21 
28 
29 
30 
3l 
32 
33 
34 
35 
36 
37 
38 
39 
40 
4] 
42 
43 
44 
45 


define RW LOCK BIAS 0x01000000 
#define RW LOCK BIAS STR ^0x01000000^ 


H#define | build read lock ptr(rw, helper) WV 


asm volatile (LOCK “subl $1, (%0)\n\t” \ 
"js 2f\n" \ 
“len X 
" section . text. lock, \“ax\"\n” \ 
^2:Ntcall " helper “\n\t” \ 
” imp Lb\n” \ 
” previous” X 
::"a” (rw) : “memory”) 


Hdefine | build read lock const(rw, helper) 
asm volatile(LOCK "subl $1,%0\n\t” \ 
“js 2f\n” X 
AIMO AX 
" section .text. lock, \“ax\"\n” \ 
“2:\tpushl %%eax\n\t” \ 
"leal %0, %%eax\n\t” \ 
"call ^ helper ”\n\t” \ 
"popl %%eax\n\t” \ 
“jmp lb\n” \ 
".previous" V 
:” =m” (Ck(volatile int *)rw) 
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^" ^H 
: : “memory”) 
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: “memory”) 
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46  #define __ build read_lock(rw, helper) do { \ 


47 if ( builtin constant p(rw)) V 

48 . .build read lock const(rw, helper); V 
49 else \ 

50 __build_read lock ptr(rw, helper); \ 
51 } while (0) 

52 

53 #define __ build write lock ptr(rw, helper) V 

54 asm volatile (LOCK “subl $” RW LOCK BIAS STR ^, (%0)\n\t” \ 

55 “jnz 2f\n” \ 

56 ANH. N 

57 ^. section . text. lock, \"ax\"\n” \ 

58 “2:\teall ” helper “\n\t” \ 

59 “jmp lb\n” \ 

60 ” previous” V 

61 :i"a" (rw) : “memory”) 

62 

63 #define __build_write lock const(rw, helper) \ 

64 asm volatile (LOCK “sub] $” RW LOCK BIAS STR ^, (%0)\n\t” \ 

65 “jnz 2f\n” \ 

66 “1:Nn \ 

67 ^. section . text. lock, \“ax\"\n” \ 

68 “2:\tpushl %%eax\n\t” \ 

69 © "leal %0, %%eax\n\t” \ 

70 “call ” helper “\n\t” \ 

Ti "popl %%eax\n\t” \ 

72 “jmp lb\n” \ 

73 ” previous” V 

74: :"-m^ (*(volatile int *)rw) : : “memory”) 

75 

76 Sdefine . build write lock (rw, helper) do { \ 

77 if ( builtin constant p(rw)) \ 

78 . build write lock const (rw, helper): V 
79 else \ 

80 . build write lock ptr (rw, helper); \ 
81 } while (0) 


Va Hj. build read lock( ) 4, build write lock( ) 时 的 第 二 个 参数 者 是 函数 指针 ， 分 别 为 
__read_lock_failed fil read lock failed (wl, 152 行 和 161 行 )， 其 代码 如 下 ; 


426 #if defined(CONFIG_SMP) 

427 asm( 

428 ji 

429 .align 4 

430 .globi | write lock failed 

431 . write lock failed: 

132 ^ LOCK "addl $” RW LOCK DIAS STR ^, (%eax) 
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433 l: cmpl $” RW LOCK BIAS STR ^, (%eax) 


434 jne 1b 

435 

436 ” LOCK “subl $” RW LOCK BIAS STR ^, (%eax) 
437 jnz | write lock failed 

438 ret 

439 

440 


441 .align 4 
442 .globi | read lock failed 


443 _ read lock failed: 
444 lock ; incl (%eax) 
445 1: cmpl $1, Geax) 
446 js lb 

447 

448 lock ; decl (%eax) 
449 js . read lock failed 
450 ret 

451 a 

452 ie 

453 #endif 


值得 指出 的 是 ,如 果 CPU 进入 了 一 段 加 锁 的 代码 A 以 后 又 企图 进入 另 一 段 加 锁 的 代码 B， 那 就 有 
可 能 在 那里 被 关 在 门 外 ， 而 如 果 已 经 在 B 中 的 处 理 器 恰好 义 因 企图 进入 A 而 也 被 关 在 了 门 外 ， 因 此 两 
个 处 理 器 都 陷入 了 连 轴 转 ， 那 就 形成 了 死 锁 。 这 跟 存 信号 量 上 通过 down ) 操 作 稚 套 地 进入 了 临界 区 时 
可 能 会 形成 的 死 锁 是 一 致 的 。 防 止 此 种 死 锁 的 手段 主要 有 : 

(1) 不 允许 在 进入 加 锁 的 代码 以 后 再 进入 其 他 加 锁 的 代 人 码 ， 这 是 最 简单 的 。 

Q) 如 果 人 允许 这 样 做 的 话 ， 就 要 为 所 有 加 锁 的 代码 段 建立 一 个 统一 的 次 序 ， 例 如 必须 是 先进 入 A 

后 进入 B。 

目前 的 Linux 内 核 中 尚未 采取 措施 米 防 止 这 种 死 锁 ， 这 也 有 待 十 将 来 进一步 的 改进 。 不 过 ， 并 非 
每 个 程序 员 都 需要 编写 在 内 核 中 运行 的 程序 ， 负 责 开 发 内 核 程序 《如 设备 驱动 ) 的 程序 员 通 常 总 是 比 
较 有 经 验 、 水 平 比较 高 的 人 ， 他 们 自 会 注意 这 个 问题 。 另 一 方面 ，Linux 系统 中 的 多 数 资源 都 是 可 共享 
的 ， 需 要 放 在 临界 区 中 或 者 加 锁 的 代码 是 很 少 、 很 短 的 。 所 以 ， 在 实际 使 用 中 死 锁 并 不 是 一 个 很 现实 
的 问题 。 

还 有 ， 痢 界 区 和 加 锁 在 概念 上 是 类 似 的 ， 但 对 系统 影响 的 程度 却 不 同 ， 所 以 在 使 用 时 要 加 以 区 分 。 
如 果 不 问 青红皂白 ， 动 不 动 就 加 锁 ， 那 就 好 像 为 了 抓 小 偷 而 全 城 戒 产 一 样 ， 属 于 “ 防 犯 过 当 ” 了 。 
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5] 概述 


阁 昌 问 构 成 一 个 “操作 系统 ”的 最 重要 的 部 件 是 什么 ， 那 就 英 过 于 进程 管理 和 文件 系统 了 。 事 实 
上 ， 有 些 操作 系统 《如 一 些 “ 租 入 式 ” 系 统 ) uff e: TEXAS My HERP RA CB 
MSDOS) 则 有 义 件 系统 而 没有 进程 管理 。 可 是 ， 旧 古音 部 没有 ， 那 就 称 不 上 “操作 系统 ”了 。 在 水 
节 的 前 几 章 中 已 经 讲述 了 与 Linux 的 进程 管理 有 关 的 内 容 ， 从 现在 并 始 ， 让 我 们 把 注意 力 转向 它 的 文 
件 系统 。 
“文件 系统 ”这 个 问 的 含义 比较 模糊 。 首 先 ， 其 中 “文件 ”的 含义 就 有 狭义 与 广义 之 分 。 狭 义 地 
说 ,“ 文 件 ” 是 指 “ 磁 盘 义 件 ”， 进 而 可 以 是 有 组 织 有 次 序 地 存储 于 任何 介质 (包括 内 存 )》 中 的 -组 信 
kh. 广义 地 说 ， 则 Unix 从 “开始 时 就 把 外 部 设备 都 当成 “文件 ” 从 这 个 意义 上 讲 ， 凡 是 可 以 产生 或 
消耗 信息 的 都 是 文件 。 以 在 网 络 环境 中 用 来 收发 报 文 的 “ 插 门 ”机 制 来 说 ， 尼 就 并 不 代表 存储 着 的 信 
县， 但 是 插口 的 发 送 端 “ 消 耗 ” 信 和 总， 而 接收 端 则 “ 产 出 ”信息 ， 所 以 把 插口 看 成 文件 是 合乎 逻辑 的 。 
可 是 ， 即 使 抛 开 “文件 ”这 个 词 的 模糊 性 不 说 ,“ 文 件 系统 ”这 个 问 又 进步 有 几 种 不 同 的 含义 ， 要 根 
据 上 下 文才 能 加 以 区 分 : 
(D 指 种 特定 的 文件 格式 。 例 如 ， 我 们 说 Linux 的 文件 系统 是 Ext2, MSDOS 的 文件 系统 是 
FAT16， 而 Windows NT 的 义 件 系统 起 NTFS 或 FAT32， 就 是 指 这 个 意思 。 

D 指 按 特 定格 式 进 行 了 “格式 化 ”的 “ 块 存 储 介质 。 当 我 们 说 “安装 ”或 “ 拆 趣 ”-- 个 文件 系 
统 时 ， 指 的 就 是 这 个 意思 。 

(3) ” 指 操 作 系 统 中 (通常 在 内 核 收 用 来 管理 文件 系统 以 及 对 文件 进行 操作 的 机 制 及 其 实现 ， 这 
就 是 本 章 的 主要 话题 。 

Linux 最 初 采用 的 是 minix 的 文件 系统 ， 但 是 minix 只 是 一 种 实验 性 (用 十 教学 ) 的 操作 系统 ， 其 
文件 系统 的 大 小 仅 限 于 64M 字 节 ， 文 件 名 长 度 限 于 14 个 字符 。 所 以 ， 经 过 一 段 时 间 的 改进 和 发 展 ， 
特别 是 吸取 了 多 年 来 对 传统 Unix 文件 系统 的 各 种 改进 所 中 积 起 的 经 验 ， 最 后 形成 了 现在 的 Ext2 文件 
系统 。 这 个 文件 系统 可 以 说 就 是 “Linux 文件 系统 ”。 

BR Linux 本 身 的 文件 系统 Ext2 外 ， 设 计 人 员 很 早 就 注意 到 了 如 何 使 Linux 支持 其 他 各 种 不 同文 件 
系统 的 问题 。 要 实现 这 个 目的 ， 就 要 将 对 各 种 不 同文 件 系统 的 操作 和 管理 纳入 到 … 个 统 --- 的 框架 中 。 
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让 内 核 中 的 文件 系统 界面 成 为 “条 文件 系统 “总 线 ”, 使 得 用 户 程序 串 以 通过 同一 个 文件 系统 操作 内面 ， 
也 就 是 同一 组 系统 调 几 ， 对 各 种 不 同 的 文件 系统 《以 及 文件 ) 进行 操作 。 这 样 ， 就 可 以 对 几 户 程序 隐 
去 各 种 不 同文 件 系统 的 实现 细节 ， 为 用 户 程序 提供 一 个 统一 的 、 抽 象 的 、 虚 拟 的 文件 系统 内 面 ， 这 就 
是 所 谓 “ 虚 拟 文 件 系统 ”VEFS (Virtual Filesystem Switch)。 这 个 抽象 的 办 而 主要 由 “组 标准 的 、 抽 象 的 
文件 操作 构成 ， 以 系统 调用 的 形式 提供 十 用户 程序 ， 如 read( ). write( ). Iseek( ) 等 等 。 这 样 ， 用 户 程 
序 就 可 以 把 所 有 的 文件 都 看 作 一 致 的、 抽象 的 “VFS 文件 ”， 遂 过 这 些 系统 调用 对 文件 进行 操作 ， 出 无 
需 关 心 上 只 体 的 文件 属 寺 什么 文件 系统 以 及 具体 文件 系统 的 设计 和 实现 。 例 如 ， 在 Linux 操作 系统 中 ， 
可 以 将 DOS 格式 的 磁 货 或 分 区 ( 即 文件 系统 ) “安装 ”到 系统 中 ， 然 后 用 户 程序 就 可 以 按 完全 相同 的 
方式 访问 这 些 文件 ， 就 好 像 它 们 也 是 Ext2 格式 的 文件 一 样 。 

如 果 把 内 核 比拟 为 PC 机 中 的 “ 母 板 ” H VFS EOLA "SHR" bf T “SH”, MARS A 
RISC RRA RR ROKR”. 不同 的 接口 卡 上 有 不 同 的 电子 线路 ， 但 是 它们 与 插 异 的 连接 有 几 条 
线 、 每 条 线 十 什么 用 则 是 有 明确 定义 的 。 同 样 ， 不 同 的 文件 系统 通过 不 同 的 程序 来 实现 其 各 种 功能 ， 
但 是 与 VFS 之 问 的 界面 则 是 有 明确 定义 的 。 这 个 界面 的 主体 就 是 一 个 file operations 数据 结构 ， 其 定 
义 在 include/linux/fs.h FP: 


768 /* 

769 * NOTE: 

770 * read, write, poll, fsync, readv, writev can be called 

771 * without the big kernel lock held in all filesystems. 

772 */ 

773 struct file operations { 

774 struct module *owner; 

775 loff t (kllseek) (struct file *, loff t, int); 

776 ssize t (read) (struct file *, char *, size t, loff t *); 

777 ssize t (write) (struct file *, const char *, size t, loff t *); 

778 int (kreaddir) (struct file *, void *, filldir t); 

779 unsigned int (*poll) (struct file *, struct poll table struct *); 

780 int (kioctl) (struct inode *, struct [ile *, unsigned int, unsigned long); 
781 int (#mmap) (struct file *, struct vm area struct *); 

182 int (open) (struct inode *, struct file *); 

783 int (#flush) (struct file *); 

784 int Ckrelease) (struct inode *, struct file *); 

785 int (fsync) (struct file *, struct dentry *, int datasync); 

786 int Ckfasync) (int, struct file *, int); 

781 int (*lock) (struct file *, int, struct file lock *); 

788 ssize t (*readv) (struct file *, const struct iovec *, unsigned long, loff t *); 
789 ssize_t (ewritev) (struct file *, const struct iovec *, unsigned long, loff t *X); 
790  ]; 


每 种 文件 系统 者 有 自己 的 fle_operations RGRAM, SPINAL REST, Abi E 

个 函数 跳 转 表 ， 例 如 read 吴 指 向 具体 文件 系统 川 来 实现 读 义 件 操 作 的 入 口 消 数 。 如 果 具 体 的 文件 系 
d EERGERAME, file, operations 结构 中 的 相应 函数 指针 就 是 NULL。 我 们 不 在 这 里 介绍 这 个 结构 
中 各 种 指针 的 用 途 ， 以 后 读者 将 会 看 到 其 中 主要 的 … 些 操作 的 典型 代码 。 

每 个 进程 通过 “ 打 并 文件 ”(open( )) 与 其 体 的 文件 建立 起 连接 ， 或 者 说 建立 起 一 个 读 写 的 “上 下 
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X". 这 种 连接 以 一 个 file 数据 结构 作为 代表 ,结构 中 有 个 file_operations 结 爸 指针 fop. 将 file 结构 中 
的 指针 op 设置 成 指向 某 个 具体 的 file operations 结构 ， 就 指定 了 这 个 文件 所 属 的 文件 系统 ， 并 二 与 
具体 文件 系统 所 提供 的 一 组 函数 捍 上 了 钩 ， 就 好 像 把 具体 的 “接口 本 ” MART "EU p. BEDA 
后 会 看 到 有 关 的 详情 。 

Linux 内 核 中 对 VES 与 具体 文件 系统 的 关系 划分 可 以 用 图 5.1 表示 。 












用 户 空间 用 户 程序 (进程) 
文件 系统 操作 的 系统 调用 界 
esha toy leks aa ata int Uae ted arg ae te te a i], $E read( ). write( ). 
open( ). close( ) 等 等 
系统 空间 


函数 sys_read( ). sys, write( )、 
sys open( ) 等 等 


道 过 file 结构 中 的 f_op 指 
针 实 现 的 "文件 系统 总 线 ” 


图 5. 1 WS 与 具体 文件 系统 的 关系 示意 图 


进程 与 文件 的 连接 ， 即 “已 打 井 文件 ” 是 进程 的 -一 项 “财产 ”， 归 其 体 的 进程 所 有 。 代 表 着 这 种 
ERM file 结构 必然 与 代表 着 进程 的 task. struct 数据 结构 存在 着 联系 。 在 “进程 与 进程 调度 ”… 章 中 我 
们 看 过 人 这 个 数据 结构 的 定义 ， 伺 是 那 时 候 忽 赂 了 与 文件 系统 有 关 的 内 容 。 现 人 在 拒 task. struct 结 移 中 与 
此 有 关 的 几 行 得 列 出 如 下 Cinclude/linux/sched.h): 


277 struct task struct [ 

315 /* filesystem information */ 
376 struct fs struct *fs; 
371 /* open file information */ 
378 struct files struct *files: 


397 ie 


这 下 有 了 两 个 指针 fs 和 files， 一 个 指向 fs struct 数据 结构 ， 是 关于 文件 系统 的 信息 ; 另 一 个 指向 
files struct 数据 结构 , 是 关于 已 打 和 井 文 件 的 信息 。 先 看 fs_struct 结构 , 它 的 定义 在 include/linux/fs. struct.h 
ift : 


5 struct fs struct í 
atomic t count; 
7 rwlock_t lock; 


C 
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8 int umask; 

9 struct dentry * root, * pwd, * altroot; 

10 struct vfsmount * rootmnt, * pwdmnt, * altrootmnt; 
11 i 


结构 小 有 六 个 指针 。 前 三 个 是 dentry 结构 指针 ， 就 是 root、pwd 以 及 altroot。 这 些 指针 各 自 指向 代 
表 着 -个 “目录 项 ”的 dentry 数据 结构 ， 里 侧记 录 着 文件 的 各 项 属性 ， 如 文件 名 、 访 问 权 限 等 等 。 其 
中 pwd 则 指向 进程 当前 所 在 的 日 录 :， 而 root 所 指向 的 dentry AEA RREA EER ARAK” MAE 
当 用 户 登 录 进 入 系统 时 所 “看 介 ” 的 根 日 了 水 ;全 于 atro 则 为 用 户 设 置 的 “替换 根 日 录 ”， 我 们 以 后 还 
会 讲 到 。 实 际 运行 时 这 二 个 目录 不 一 定 都 在 同一 个 文件 系统 中 ， 例 如 进程 的 根 日 及 通常 是 安装 于 “ 太 
节点 上 的 Ext2 文件 系统 中 ， 而 当前 工作 县 录 则 可 能 安装 于 /dosc 的 一 个 DOS 文件 系统 中 。 在 文件 系统 
的 操作 中 这 些 安装 点 起 着 重要 的 作用 而 常常 此 用 到 ， 所 以 后 三 个 指针 就 各 自 指向 代表 着 这 些 “ 安 装 ” 
的 vfsmount 数据 结构 。 注 意 ， fs. struct 结构 中 的 信息 都 是 与 文件 系统 和 进程 有 关 的 ， 带 有 全 局 性 的 (对 
具体 的 进程 而 言 )， 而 与 具体 的 忆 打 开 文 件 没 有 什么 关系 。 例 如 进程 的 根 日 录 在 Ext2 文件 系统 中 ， 当 
前 工作 日 录 在 DOS 文件 系统 中 ， 而 个 具体 的 已 打开 文件 却 可 能 是 设备 文件 。 

与 具体 已 打开 文件 有 关 的 信息 在 file 结构 中 ,而 files_struct 结构 的 主体 就 是 “个 file 结构 数组 。 每 
打开 一 个 文件 以 后 ， 进 程 就 通过 个 “打开 文件 号 ”fid 来 访问 这 个 文件 , 而 fid 实际 上 就 是 相应 file fi 
构 在 数组 中 的 下 标 。 如 前 所 述 , 每 个 file 结构 中 有 个 指针 f_op, 指向 该 文件 所 属 文件 系统 的 多 e_operations 
数据 结构 。 同 时 ，file 结构 中 还 有 个 指针 fdentry， 指 向 该 文件 的 dentry 数据 结构 。 那 么 ， 为 什么 不 二 
脆 把 文件 的 dentry 结构 放 在 file 结构 里 面 , 而 只 是 让 file 结构 通过 指针 来 指向 它 昵 ?这 是 因为 个 文件 
只 有 个 dentry 数据 结构 ， 而 可 能 有 多 个 进程 打开 它 ， 其 至 同一 个 进程 也 可 能 多 次 打开 它 而 建立 起 多 
MEH EPI. AE, 每 种 文件 系统 只 有 一 个 fle_operations 数据 结构 , "BEA E BUT POE CIE 
更 不 专属 十 某 个 特定 的 上 下 义 。 

每 个 文件 除 有 一 个 “目录 项 ” 即 dentry 数据 结构 以 外 ， 还 有 个 “索引 节点 ” 即 inode 数据 结构 ， 
里 面 记 录 着 文件 在 存储 介质 于 的 位 置 与 分 布 等 信息 。 同 时 ，dentry 结构 中 有 个 inode 结构 指针 d_inode 
指向 相应 的 inode 结构 。 读 者 也 许 要 问 ， 既然 个 文件 的 dentry 结构 和 inode 结构 都 在 从 不 同 的 角度 描 
述 这 个 文件 各 方面 的 属性 ， 水 为 什么 不 “ 合 一 为 一 ” 而 要 “ 分 为 二 ” 呢 ? 其实，dentry 结构 与 inode 
结构 所 描述 的 日 慰 是 不 辐 的 ， 因 为 一 个 文件 可 能 有 好几 个 文件 名 ， 而 通过 不 同 的 文件 名 访问 同一 个 文 
件 时 的 权限 也 可 能 个 同 。 所 以 ，dentry 结构 所 代表 的 是 旬 钳 意义 上 的 文件 ， 记 录 的 是 其 逻辑 上 的 属性 .。 
而 inode 结构 所 代表 的 是 物理 意义 上 的 文件 , 记录 的 是 其 物理 上 的 属性 ; 它们 之 间 的 关系 是 多 对 一 的 天 
系 。 

前 面 我 们 说 虚拟 文件 系统 VES. 与 共 体 的 文件 系统 之 间 的 界面 的 “主体 ”是 file operations 数据 结 
构 ， 是 因为 除 此 之 外 还 有 一 些 其 他 的 数据 结构 。 其 中 主要 的 还 有 与 日 录 项 相 联 系 的 dentry_operations 
数据 结构 和 与 索引 节点 相 联系 的 inode_operations 数据 结构 。 这 两 个 数据 结构 中 的 内 容 也 都 是 … 些 函数 
指针 ， 但 是 这 些 函数 大 多 只 是 在 打开 文件 的 过 程 中 使 用 ， 或 者 仅 在 文件 操作 的 “底层 ” 使 用 《如 分 配 
空间 ), 所 以 不 像 file_operations 结构 中 那些 吸 数 那么 党 用, 或 者 不 那么 有 “知名 度 "。 以 dentry_operations 
为 例 ， 其 定义 在 include/linux/dcache.h !!!: 


79 struct dentry operations | 
80 int (*d revalidate) (struct dentry *, int); 
81 int (kd hash) (struct dentry *, struct qstr *); 
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82 int (*d compare) (struct dentry *, struct qstr *, struct qstr *); 
83 int (*d delete) (struct dentry *); 

84 void (*d release) (struct dentry *); 

85 void (*d iput) (struct dentry *, struct inode *); 

86 }; 


这 里 d. delete 是 指向 有 具体 文件 系统 的 “删除 文件 ”操作 的 入 口 函 数 ，d_release 则 用 于 “关闭 文件 ” 
操作 。 还 有 个 函数 指针 d compare 很 有 意思 ， 忆 用 于 文件 名 的 比 对 。 读 者 可 能 感到 奇怪 ， 文 件 名 的 比 
对 就 是 字符 串 的 比 对 ， 这 难道 也 因 文 件 系 统 而 异 ? 其 实 不 足 为 奇 ， 想 …- 想 ， 有 的 文件 系统 中 文件 名 的 
长 度 限 于 8 个 字符 ， 有 的 则 可 以 有 255 个 字符 ， 有 的 文件 系统 容许 在 文件 名 里 有 空格 ， 有 的 则 不 容许 ; 
有 的 支持 汉字 ， 有 的 则 不 支持 。 所 以 ， 文 件 名 的 比 对 确实 因 文 件 系统 而 异 。 

总 之 ， 具 体 文件 系统 与 虚拟 文件 系统 VES 间 的 界面 是 一 组 数据 结构 ， 包 括 file operations 、 
dentry_operations、inode_operations， 还 有 其 他 《此 处 暂 从 略 )。 原 则 上 每 种 文件 系统 都 必须 在 内 核 中 提 
供 这 些 数 据 结构 ， 后 面 我 们 还 此 深入 讨论 。 

虽然 我 们 尚未 深入 地 讲述 文件 系统 的 内 部 结构 和 操作 , 读者 可 以 从 图 5.2 看 到 文件 系统 内 部 结构 的 
基本 情况 。 我 们 姑且 称 之 为 “文件 系统 逻辑 结构 图 ”% 以 后 读者 将 需要 反复 地 回 过 来 看 这 由 结构 示意 图 。 
至 于 这 幅 图 中 各 个 数据 结构 的 分 配 与 设置 ， 也 就 是 这 幅 图 的 构筑， 则 会 在 “打开 文件 ”一 节 中 负 述 。 


dentry 







d_inode |p 进程 (用 户 ) 根 日 录 的 inode 







fs_struct 
2580 EL RC inode 


task struct 


dentry. operations node opcrations 


5.2 Linux 文件 系统 逻辑 结构 图 


那么 ，Linux 到 底 支 持 哪 。 些 具体 的 文件 系统 呢 ? 数据 结构 inode 中 有 一 个 成 分 u， 是 一 个 union. 
根据 具体 文件 系统 的 不 同 ， 可 以 将 这 个 union 解释 成 不 同 的 数据 结构 。 例 如 ， 当 inode 所 代表 的 文件 是 
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LI (socket) 时 ，u 就 用 作 socket 数据 结构 ， 当 inode 所 代表 的 文件 属于 Ext2 文件 系统 时 ，u xt 


f£ Ext2 文件 系统 的 详细 描述 结构 ext2_inode_info。 所 以 , 看 一 下 对 这 个 union 的 定义 就 可 以 看 出 Linux 
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支持 多 少 种 文件 系统 ， 这 个 定义 是 inode 数据 结构 定义 的 部分， 在 文件 include/linux/fs.h 中 ， 

union { 
struct minix inode info minix i; 
struct ext2 inode info ext2 i; 
struct hpfs inode info hpfs i; 
struct ntfs inode info ntfs i; 
“struct msdos inode info msdos_i; 
struct umsdos inode info umsdos i; 
struct iso inode info isofs i; 
struct nfs inode info nfs i; 
struct sysv inode info sysv i; 
struct affs inode info affs i; 
struct ufs inode info ufs i; 
struct efs inode info efs 1; 
struct romfs inode info romfs i; 
struct. shmem inode info shmem i; 
struct coda inode info coda i; 
struct smb inode info smbfs i; 
struct hfs inode info hfs i; 
struct adfs inode info adfs i; 
struct qnx4 inode info qnx4 i; 
struct bfs inode info bfs i; 
struct udf inode info udf i; 
struct ncp inode info ncpfs i; 
struct proc inode info proc i; 
siruct socket socket i; 
struct usbdev inode info usbdev i; 
void *generic ip; 

pu; 


其 中 有 些 成 分 是 不 言 自 明 的 ， 如 ext2, msdos 等 ， 但 是 多 数 部 需要 点 简短 的 说 明 : 

hpfs 一 一 IBM 为 PC 开发 的 OS/2 操作 系统 所 采用 的 文件 系统 。 这 种 格式 只 用 十 硬 稚 ， 而 OS/2 
所 出 的 软盘 则 与 msdos 相同 。 

ntfs 一 一 Windows NT 的 文件 系统 。 

umsdos 一 一 -种 特殊 的 “文件 系统 ” 用 msdos 文件 系统 来 模拟 Ext2 文件 系统 。 其 好 处 是 可 以 
在 磁盘 | 的 DOS 分 区 中 直接 运行 Linux， 而 不 需 归 先 重 新 划 区 并 格式 化 。 坏 处 当然 也 不 
少 , 首先 是 降低 了 这 行 的 速度 , 而 且 这 样 来 就 对 DOS 文件 系统 的 病毒 失去 了 “免疫 力 ”。 

isofs 一 一 用 于 CDROM OLD. 

nfs —— “24 StF Aa” NFS. 

sysv 一 一 Unix 系统 V 的 文件 系统 SSFS 。 

affs 一 一 BSD 对 SSFS 作 了 很 大 的 改进 ， 改 进 后 的 文件 系统 称 为 “快速 文件 系统 ”FFS。 由 才 当 
时 Amiga 公司 在 其 操作 系统 AmigaOS 中 采用 了 这 种 文件 系统 ， 所 以 称 为 affs。 
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ufs 一 一 这 是 FFS 的 另 一 种 实现 ， 广 泛 适 用 于 BSD 的 各 种 版 本 以 及 各 种 Unix 变种 (如 sunos: 
solaris. FreeBSD. NetBSD. OpenBSD 以 及 Nextstep 等 等 ) 版 本 , 内 而 实际 上 成 为 了 “Unix 
File System”， 所 以 称 为 ufs。 

efs Silicon Graphics 的 IRIX 文件 系统 。 

romfs 一 一 “只 读 ” 文 件 系 统 , 顾名思义 , 这 种 文件 系统 可 以 建立 在 只 读 介质 上 , 如 EPROM. PROM 
等 。 还 有 -个 特点 是 这 种 文件 系统 的 实现 在 内 核 中 所 占 的 “地 机” 很 小 。 例 如 ，msdos 
文件 系统 在 内 核 中 约 占 30K Fi, nfs 文件 系统 约 占 57K 字 节 ， 而 romfs 只 占 一 个 页 面 。 
所 以 ，romfs 常常 比较 适合 于 一 些 “ 赂 入 ” 式 系统 。 

coda 一 一 也 是 - -种 网 络 文件 系统 ， 是 对 nfs 的 一 种 改进 。 

smbfs 一 一 即 samba， 使 Win 95, Win NT 等 系统 可 以 通过 网 络 访问 Linux 文件 系统 。 

hfs 一 一 Apple Macintosh 的 文件 系统 。 

adfs 一 一 Acom 公司 开发 了 -种 基本 ARM 处 理 器 的 RISC PC， 其 操作 系统 称 为 RISCOS， 而 文 
件 系 统 即 为 “Acorn Disk Filing System”. 











qnx4 QNX 是 个 操作 系统 ， 常 用 十 “ 恢 入 式 ” 系 统 ， 其 文件 系统 为 QNXFS. 

bfs H F SCO Unix Ware 的 V 一 种 文件 系统 

udf 一 一 “Universal Disk File” 最 新 的 “通用 文件 系统 ” WAF DVD 和 可 写 光 枚 ， 也 可 用 于 硬 
Ht. 

ncpfs —— Novell NetWare 文件 系统 。 


proc 一 一 上 月 水 /proc FERRI, PC HEISE ZR ZEE SB AE UR VGL A HR Rb 
“通过 串 行 总 线 ”USB 的 驱动 程序 。 





usbdev 


这 个 union 的 定义 只 是 大 致 地 反映 了 Linux 内 核 且 前 所 支持 的 各 种 文件 系统 ， 因 为 这 是 以 inode 4 
构 中 这 一 部 分 空间 的 不 同 用 法 和 解释 为 基础 的 。 如 果 两 种 文件 系统 对 这 个 union 的 解释 相同 ， 那 就 不 
能 从 这 个 定 MP be HET. 

举例 来 说 ， 早 期 Linux OT ACRUGE T a ALR ext〈 还 有 -个 文件 系统 叫 Xiafs )， 后 来 才 
AL EY Ext2( 表示 ext 第 2 版 ), 现在 的 Linux 内 核 也 还 支持 这 个 文件 系统 (读者 可 以 用 命令 “man mount” 
或 “man fs” 察 看 )， 但 是 由 十 它 在 inode 结构 中 对 u 的 解释 与 Ext2 相同 ， 这 里 就 看 不 出 来 了 。 男 一 方 
pi, 虽然 原则 上 每 个 文件 系统 都 有 其 自身 的 函数 踪 转 下， 即 file operations 数据 结构 ， 但 是 Et 
8H file operations 结构 都 代表 着 -一 个 不 同 的 文件 系统 就 不 确切 了 。 读 者 以 后 让 第 6 章 的 “管道 ”一 节 
中 可 以 看 人 到， 就 在 Ext2 文件 系统 的 框架 路 ， 光 是 用 作 管道 的 文件 就 根据 读 、 写 权限 的 不 同 Laon 
问 的 file operations 结构 。 

IGA, Æ Linux 系统 中 外 部 设备 是 视 间 文件 的 ， 所 以 从 概念 上 讲 每 种 不 同 的 外 部 设备 就 相当 于 一 
种 不 同 的 文件 系统 。 品 是， 在 这 个 union HEM PAIS T usbdev 作为 一 种 独立 的 文件 系统 ， 那 么 
“ 抉 设备 ”又 怎样 ? “字符 设备 ”又 怎样 ? “网 络 设 备 ” 又 怎样 ? 为 什么 这 里 都 没有 呢 ? 原因 就 在 十 
这 些 设 备 都 不 要 求 将 inode 结构 中 的 这 个 union 作 不 同 的 解释 。 同 样 的 道理 ， 对 “特殊 文件 ” 这 时 只 
列 出 了 proc 与 socket， 但 是 用 来 实现 “命名 管道 ”的 男 ~…- 种 特 妹 文件 FIFO 就 没有 在 这 里 单独 地 列 出 。 

所 以 ，inode 结构 中 的 这 个 union 反映 了 各 种 文件 系统 在 部 分 数据 结构 上 的 不 同 ， 而 file operations 
结构 则 反应 了 它们 人 在 算法 〈 操 作 ) 上 的 不 同 。 

当 一 个 文件 系统 代表 着 磁盘 〈 或 其 他 介质 ) 上 按 特 定格 式 组 织 的 文件 时 ， 对 每 个 文件 的 操作 最 终 
都 要 转化 为 对 某 一 部 分 磁盘 介质 的 操作 ， 所 以 从 层次 的 观点 来 看 ， 存 “文件 系统 ”以 下 还 有 一 层 “ 设 
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AI”. 可是， 既然 设备 (实际 上 是 设备 驱动 ) 也 是 视 作文 件 的 ， 那 么 作为 与 文件“ 平 级 ”的 磁盘 设 
备 “ 文 件 ” 与 作为 文件 系统 “底层 ”的 磁盘 “设备 ”又 有 什么 区 别 昵 ?这 实际 上 反映 了 对 磁盘 介质 上 
的 数据 的 两 种 不 同 观点 ， 一 种 是 把 它 看 成 有 结构 、 有 组 织 的 数据 ， 而 另 一 种 则 把 心 看 成 线性 空间 的 数 
据 。 下 列 示意 图 (图 5.3) 表 示 了 不 同文 件 的 这 种 层次 结构 。 
应 用 屋 









一 一 一 一 一 fs operations 结构 界面 -一 一 一 一 一 一 - 
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5.3 Linux 文 件 系 统 的 层次 结构 
图 中 有 三 种 不 同类 型 的 文件 。 


511 磁盘 文件 


磁盘 文件 也 许 应 该 称 为 “存储 文件 ” 这 就 是 狭义 的 、 本 来 意义 上 的 “文件 >， 通常 以 伐 盘 为 存储 
介质 ， 但 也 可 能 采用 其 他 介质 。 例 如 ，romfs 就 是 采用 EPROM 之 类 的 介质 ， 而 RAMDISK 则 在 内 存 中 
模拟 磁盘 介质 。 所 谓 “ 文 件 ” 就 是 按 一 定 的 组 织 形 式 存 储 在 介质 上 的 信息 ， 所 以 一 个 “文件 ”其 实 包 
含 了 两 方面 的 信息 ， 一 -是 存储 的 数据 本 身 ， 还 有 -部 分 就 是 有 关 该 文件 的 组 织 和 管理 的 信 以 。 对 于 磁 
盘 文 件 来 说 ， 这 两 种 信息 必定 全 都 存储 在 “文件 系统 ”中 ， 也 就 是 磁盘 上 。 其 中 与 组 织 和 管理 有 关 的 
信息 主要 存储 在 文件 的 “索引 站 点 ”和 “目录 项 ”中 。 磁 益 上 的 索引 节点 与 前 述 〈 存 人 在于 内 存 中 ) 的 
inode 数据 结构 相似 ， 但 有 所 不 同 ， 可 以 看 成 是 inode 结构 的 简化 了 的 版 本 。 不 过 ， 磁 盘 上 的 索引 节点 
不 像 inode 结构 那样 会 因 汤 电 而 “挥发 "也 不 占用 内 存 空间 。 每 个 文件 都 有 一 个 并 且 只 有 一 个 索引 节 
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点 。 即 使 文件 中 暂时 没有 数据 ， 其 索引 节点 总 是 存在 的 。 这 类 文件 是 本 章 的 重点 ， 不 过 我 们 在 本 书 中 
将 只 关心 Ext2 文件 系统 。 磁盘 LIN AA EH dentry 结构 简单 ， 存 在 于 所 谓 “ 上 日 录 节点 ”中 。 
目录 节点 实际 上 是 一 种 特殊 形式 和 用 途 的 文件 。 


512 设备 文件 


设备 文件 同样 包含 有 几 于 组 织 和 管理 的 信息 ， 同 样 有 存储 介质 上 的 索引 节点 和 月 录 项 ， 但 是 却 不 
一 定 有 存储 着 的 数据 。 根 据 设 备 类 型 和 性 质 的 不 同 ， 它 可 以 是 用 于 存储 / 读 出 的 (如 磁盘 )， 也 可 以 是 
用 十 接收 /发 送 的 (如 网 络 卡 )， 还 可 以 是 供 采 集 / 控 制 的 (如 … 些 机 电 设 备 )， 甚 至 可 以 是 数 种 类 型 的 结 
合 。 实 际 上 ， 不 管 什么 设备 ， 在 操作 的 过 程 中 总 要 伴随 着 ` 定 程度 的 数据 采集 和 控制 ， 通 常 邦 通 过 设 
备 接口 上 的 一 个 “控制 /状态 寄存 器 ”进行 ， 具 体 可 参看 本 书 下 册 “ 设 备 驱动 ”一 章 。 


5.1.3 ”特殊 文件 


特殊 文件 在 内 存 中 也 有 inode 数据 结构 和 dentry 数据 结构 ， 但 是 不 一 定 在 存储 介质 上 有 索引 节点 
AAR. SAP SCE BMA AE: 特殊 文件 一 般 部 与 外 部 设备 无 关 ， 所 涉及 的 介质 通常 就 是 内 
FAR CPU 本 身 。 当 从 一 特殊 文件 “ 读 ” 时 ， 所 读 出 的 数据 者 是 由 系统 内 部 按 一 定 的 规则 临时 生成 出 
米 的 ， 或 者 从 内 存 中 收集 、 加 工 出 来 的 ， 反 之 亦 然 。 从 这 个 意义 上 说 ， 文 件 “dev/null” 就 是 一 个 特殊 
文件 ， 凡是 写 入 这 个 文件 的 数据 全 部 部 被 天 佐 了 , 根本 就 与 外 部 设备 无 关 。 所 以 这 个 文件 虽然 在 “/dev” 
和 日 录 下 ,实质 上 却 是 一 个 特殊 文件 。 读 者 在 “进程 间 通信 ”- - 章 中 将 会 看 到 用 来 实现 “管道 ”的 文件 ， 
特别 是 “命名 管道 ”的 FIFO X ft. A Unix 域 的 socket， 也 都 属于 特殊 文件 。 在 本 章 中 我 们 还 要 介 
绍 吃 “种 重要 的 特殊 文件 ， 那 就 是 在 “/proc” 目 录 下 的 一 系列 文件 。 

三 种 不 同类 型 的 文件 有 一 个 共同 点 ， 那 就 是 它们 都 有 一 些 关 于 组 织 和 管理 的 信息 。 因 此 ， 每 个 文 
件 都 有 “个 inode. Prif inode， 也 就 是 “索引 节点 ”( 或 称 “i 节点 ”) 的 意思 。 要 “访问 ”~ 个 文件 时 ， 
一 定 要 道 过 它 的 索引 才能 知道 这 个 文件 是 什么 类 型 的 文件 (例如 ， 是 合 设 备 文件 )、 是 怎样 组 织 的 、 文 件 
中 存储 着 多 少数 据 、 这 些 数 据 在 什么 地 方 以 及 其 下 层 的 豫 动 程序 在 哪儿 等 必要 的 信息 。 数 据 结 构 inode 
的 定义 在 文件 include/linux/fs.h 中 给 出 ,我 们 把 它 列 在 这 里 ,但 是 坝 在 还 不 是 有 系统 地 解释 结构 中 各 个 
成 分 的 时 候 ， 读 考 以 后 还 得 反复 辕 过 来 看 它 的 定义 。 最 后 ， 读 者 自己 就 能 作出 这 种 解释 了 。 此 处 我 们 
只 对 结构 中 的 某 些 成 分 作 - 些 介绍 。 先 看 inode 的 定义 (include/linux/fs.h): 


387 struct inode { 


388 struct list head i hash; 
389 struct list head i list; 
390 struct list head ij dentry; 
391 

392 struct list head i dirty buffers; 
393 

394 unsigned long i ino; 
395 atomic t i1 count; 
396 kdev t i dev; 
397 umode t i mode; 
398 nlink t i nlink; 
399 uid t i uid; 
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400 gid_t i gid; 

401 kdev_t i_rdev; 

402 loff_t i_size; 

403 time 1 i atime; 

404 time t i mtime; 

405 time t i ctime; 

406 unsigned long i blksize; 

407 unsigned long i blocks; 

408 unsigned long i version; 

409 struct semaphore i sem; 

410 struct semaphore i_zombie; 

All struct inode operations *i op; 

412 struct file operations *i fop;/* former — i op-»default file ops */ 
413 struct super block *i sb; 

414 wait queue head t i wait; 

415 struct file lock *i flock; 

416 struct address space *i mapping; 

417 struct address space i data; 

418 struct dquot *i dquot [MAXQUOTAS] ; 
419 struct pipe inode info *i pipe; 

420 struct block device *i bdev; 

421 

422 unsigned long i dnotify mask; /* Directory notify events */ 
423 struct dnoiify struct *i dnotify; /* for directory notifications */ 
424 

425 unsigned long i state; 

426 

427 unsigned int i flags; 

428 unsigned char i sock; 

429 

430 atomic t i writecount; 

431 unsigned int i attr flags; 

432 u32 i generation; 

433 union 1 

434 struct minix inode info minix 1; 

435 struct ex12 inode info ext2_ i; 

460 bu 

46] H}; 


RiT inode 都 有 一 个 “i 节点 号 ” i_ino， 在 同一 文件 系统 中 每 个 i 节点 号 都 是 尾 一 的 ， 内 核 中 有 时 
候 会 根据 斌 节点 号 的 杂 凌 值 寻找 其 inode 结构 。 同 时 ， 每 个 文件 部 有 个 “文件 主 ”， 最 初 是 创建 了 这 个 


所 以 又 有 个 组 号 gid。 因 此 , 在 inode 结构 路 就 相应 地 有 i uid 和 i_gid 册 个 成 分 ,以 指明 文件 主 的 身分 。 
值得 注意 的 是 ，inode 结构 中 有 两 个 设备 号， 其 i_dev 和 i_rdev。 首 先 ， 除 特殊 文件 外 ， 一 个 索引 
节点 总 得 存储 在 其 个 设备 上 ， 这 就 是 idev。 其 次 ， 如 果 索 引 节点 所 代 到 的 并 不 是 常规 文件 ， 而 症 某 个 
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设备 ， 那 就 还 要 有 个 设备 号 ， 那 就 是 rdev。 设 备 号 实际 上 由 两 部 分 构成 ， 即 “ 主 设备 号 ”与 “次 设 
备 号 ”。 主 设备 号 表示 设备 的 种 类 ， 例 如 磁盘 就 分 成 软盘 、IDE WEA. SCS] 硬盘 等 等 。 次 设备 号 则 表 
泵 系统 内 配备 的 同一 种 设备 小 的 其 个 只 体 设 备 。 

每 当 :个 文件 受到 访问 时 , 系统 都 此 在 这 个 文件 的 inode 中 留 下 时 间 印 记 , inode 结构 中 的 i_atime、 
i mtime 和 i_ctime 分 别 为 最 后 一 次 访问 该 文件 的 时 间 、 修 改 该 文件 的 时 间 以 及 最 初创 建 该 文件 的 时 间 。 

对 于 其 有 数据 部 分 的 文件 《磁盘 文件 或 “普通 文件 ”来 说 ，i_size 就 是 其 数据 部 分 当前 的 大 小 。 
伞 于 数据 所 在 的 位 置 ， 则 根据 文件 系统 的 不 同 而 记 尿 在 inode 中 的 union 里 面 。 

就 像 人 可 以 有 别名 一 样 ， 文 件 也 可 以 有 多 个 文件 名 ， 也 就 是 说 可 以 将 一 个 已 经 创建 的 文件 “连接 ” 
Cink) 旬 另 一 个 文件 名 。 这 个 “别名 ”与 原来 的 文件 名 可 以 在 同 个 日 录 中 ,也 可 以 在 不 同 的 目 冰 中 ， 
但 是 这 些 不 同 的 月 并 项 都 指 同 同一 个 inode。 与 此 相应 ， 存 inode 结构 中 有 个 计数 器 i_link， 用 来 记 住 
这 个 文件 有 多 少 个 这 样 的 连接 。 同 时 ， 还 有 个 队列 头 记 dentry， 用 来 构成 -个 dentry 结构 的 队列 ， 治 着 
这 个 队列 就 可 以 找到 与 这 个 文件 由 联系 的 所 有 dentry 结构 。 

除了 相对 静态 的 信息 以 外 ，inode 结构 中 还 有 些 成 分 用 十 表示 一 - 些 动 态 的 信息 。 例如， i count 就 是 
inode 结构 的 共识 计数 ， 这 个 数值 在 系统 运行 的 过 程 中 是 常常 在 变化 的 。 又 如 ，inode 结构 可 以 通过 它 
的 几 个 list, head 结构 动态 地 链 入 到 内 存 中 的 若 十 队列 中 ， 这 种 关系 显然 也 是 在 动态 地 变化 的 。 

215^. inode 结构 中 union 里 面 的 信息 也 有 很 多 是 动态 的 。 好 然 ，inode 结构 中 相对 静态 的 一 些 信息 
是 需要 保存 在 “不 挥发 性 ”介质 如 磁盘 上 的 。 这 一 点 对 具有 数据 部 分 的 磁盘 文件 思 不 待 言 ， 就 是 对 十 
个 具有 数据 部 分 的 设备 文件 和 特殊 文件 也 是 必需 的 (只 有 少数 特殊 文件 例外 ,如 无 名 管道 文件 )。 所 以 ， 
在 前 向 的 文件 系统 层次 图 (图 5.3) 中 ,实际 |: 从 VES IUE ET ZF ILE :条 连 线 ， 表 示 VES 
层 为 管理 的 日 的 在 伺 捞 上 保存 和 恢复 inode 结构 (以 及 其 他 一 些 数 据 结构 ,如 dentry) 所 瑚 的 -… 些 信息 。 
以 后 读者 还 会 看 到 ， 磁 柑 的 格式 化 也 考虑 到 了 这 个 问题 。 以 Ext2 BAB, BEA EM okt OO 
证 此 分 成 两 部 分 ， 一 部 分 用 于 索引 弛 点 ， 一 部 分 用 于 文件 的 数据 。 给 定 一 个 索 下 节点 号 ， 就 可 以 通过 
磁 保 的 设备 驱动 程序 将 其 所 在 的 记录 块 读 入 内 存 中 。 

IMA, BERN REE inode 结 爸 中 的 部 分 信息 保存 在 磁盘 上 的 “索引 节点 ”路 ， 这 些 节 点 又 是 什么 样 
AWA? 这 此 看 具体 的 文件 系统 而 定 。 束 Linux 本 身 的 文件 系统 Ext2 而 言 , 那 就 是 ext2_inode 数据 结构 ， 
这 是 在 include/linux/exO, fs.h PR MAM, Mew AR be PES inode 结构 的 异同 。 


214 /* 

215 * Structure of an inode on the disk 

216 */ 

217 struct ext2_inode { 

218 __ul6 i mode; /* File mode */ 

219 . ul6 i uid; /* Low 16 bits of Owner Uid */ 
220 . u32 i size; /* Size in bytes */ 

221 __us2 i atime; /* Access time x*/ 

222 __u32 i ctime; /* Creation time */ 

223 | u32 i mtime; /* Modification time */ 

224 u32 i dtime; /* Deletion Time */ 

225 ul6 i gid; /* Low 16 bits of Group Id */ 
226 . ul6 i links count; /* Links count */ 

221 ..u32 i blocks;  /* Blocks count */ 

228 . u32 i flags; /* File flags */ 
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229 
230 
231 
232 
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234 
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254 
255 
256 
207 
298 
259 
260 
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269 
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/* File version (for NFS) */ 


number */ 
size */ 


/* these 2 fields 
/* were reserved2[0] */ 


number */ 
size */ 


number */ 
size */ 


*/ 


union { 
struct | 
..u32 l i reservedl; 
] linuxi; 
struct | 
__u32 h i translator; 
) hurdl; 
struct { 
. uà2 m i reservedl; 
} masixl; 
} osdl; /* OS dependent 1 */ 
. u32 i block[EXT2 N BLOCKS];/* Pointers to blocks */ 
__us2 i generation; 
. u32 i file acl; /x File ACL */ 
__u32 i dir acl; /* Directory ACL */ 
| u32 i faddr; /* Fragment address */ 
union { 
struct { 
.. us li frag;  /* Fragment 
_u8 li fsize; /* Fragment 
..ul16 i padl; 
| ul6 l i uid high; 
. ul6 1 i gid high; 
u32 li reserved2; 
} linux2; 
struct { 
| .u8 hi frag;  /* Fragment 
.u8 hi fsize; /* Fragment 
.  ul6 h i mode high; 
ul6 h i uid high; 
ul6 hi gid high; 
. uà2 h i author; 
} hurd2; 
struct { 
. u8 mi frag;  /* Fragment 
..u8 mi fsize; /* Fragment 
. ul6 m padl; 
u32 m i reserved2[2]; 
) masix2; 
} osd2; /* OS dependent 2 */ 


E 
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分 ， 而 只 是 指出 : 除 Linux 9h, FSF 还 打算 在 它 的 其 他 两 个 操作 系统 中 也 采用 Ext2 文件 系统 ， 但 是 在 


统 而 作 不 同 的 解释 。 
虽然 在 inode 结构 《以 及 ext2_inode 结构 ) 中 包含 了 关于 文件 的 组 织 和 管理 的 信息 ， 但 是 还 有 一 项 
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关键 性 的 信息 ， 即 文件 名 ， 却 并 不 在 其 内 。 显 然 ， 我 们 需要 一 种 机 制 ， 使 得 恨 据 一 个 文件 的 文件 名 就 
可 以 在 磁盘 上 找到 该 文件 的 索引 节点 ， 从 而 在 内 存 中 建立 起 代表 该 文件 的 inode 结构 。 这 种 机 制 就 是 文 
件 系统 的 目录 树 。 这 株 倒 立 的 “ 树 ” 从 系统 的 “ 根 节点 ” 即 “/” 开 始 向 下 伸展 ， 除 最 底层 的 “时 ” 
节点 为 “文件 ”以 外 ， 其 他 的 中 间 节 点 都 是 “目录 ”。 其 实 ， 目 录 也 是 一 种 文件 ， 是 一 种 特殊 的 磁盘 文 
件 。 这 种 文件 的 “文件 名 ”就 是 目录 名 ， 也 有 索引 节点 ， 并 且 有 数据 部 分 。 所 不 同 的 是 ， 其 数据 部 分 
的 内 容 只 包括 “目录 项 *。 对 Ext2 文件 系统 来 说 ， 这 种 “目录 项 ”就 是 ext2_dir_entry， 后 来 改 成 了 
ext2_dir_entry_2 数据 结构 《〈 介 你 持 兼 容 )， 它 也 是 在 ext2, fs.h 中 定义 的 : 


474 #define EXTZ NAME LEN 255 


483 /* 

484 * The new version of the directory entry. Since EXT2 structures are 
485 * stored in intel byte order, and the name len field could never be 
486 * bigger than 255 chars, it's safe to reclaim the extra byte for the 
487 * file type field. 

488 */ 

489 struct ext2 dir entry 2 { 

490 . ud2 inode; /* Inode number */ 

491 __ul6 rec len; /* Directory entry length */ 

492 . u8 name len; /* Name length */ 

493 __u8 file type; 

494 char name[EXT2 NAME LEN]; /* File name */ 

495 h}; 


文件 名 《不 包括 路 径 部 分 ) 的 最 大 长 度 为 255 个 字符 。 老 版 本 的 ext2, dir entry 结构 中 name len 
为 无 符号 短 整 数 ， 而 在 新 版 本 的 ext2_dir_entry_2 中 则 改 为 8 位 的 无 符号 字符 ， 肝 出 一 六 用 作文 件 类 型 
fild_type。 目 前 ， 已 经 定义 的 文件 类 型 为 ; 


497 /* 

498 x Ext2 directory file types. Only the low 3 bits are used. The 
499 * other bits are reserved for now. 
500 */ 

501 "define EXT2 FT UNKNOWN 0 
502 Sdefine EXT2 FT REG FILE 1 
503 Hdefine EXT2 FT DIR 2 
504 #define EXT2 FT CHRDEV 3 
505 Hdefine EXT2 FT BLKDEV 4 
506 #define EXT2 FT FIFO 5 
507 define EXT2 FT SOCK 6 
508 "define EXT2 FT. SYMLINK 7 
509 

510 #define EXT2 FT MAX 8 


这 里 的 EXT2_FT_CHRDEV 和 EXT2, FT. BLKDEV 分 别 表示 字符 设备 文件 和 块 设备 文件 。 我们 在 
前 面 提 到 过 的 “jproc” 下 的 特殊 文件 并 不 单独 成 为 -类 ， 而 是 作为 常规 文件 ， 即 EXT2 FT REG FILE 
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出 现在 目录 项 中 。 至 于 最 后 怎样 与 真 止 的 常规 文件 相 区 分 ， 则 读者 在 读 完 本 章 以 后 自 会 明 口 。 

注意 ext2_dir_entry_2 结构 中 有 个 字段 rec_len, 说 明 这 个 数据 结构 的 长 度 并 个 是 固定 的 。 由 于 节点 
名 的 长 度 相 差 可 以 很 大 ， 固 定 按 最 大 长 度 255 分 配 空 间 会 造成 浪费 ， 所 以 将 这 个 数据 结构 的 长 度 设计 
成 可 变 的 。 当 然 ， 在 这 样 的 数据 结构 中 其 可 变 部 分 (这 时 是 name) 必须 放 在 最 后 。 

磁盘 上 的 ext2_inode 数据 结构 在 内 存 中 的 对 应 物 为 inode 结构 ,但 二 者 有 很 大 个 同 ; 同样 ， 目 水 项 
ext2 dir entry 2 在 内 存 中 的 对 应 物 是 dentry 结构 ， 但 是 这 二 者 也 有 很 大 不同。 数据 结构 dentry 是 在 
include/linux/dcache.h 中 定义 的 : 


57 8define DNAME INLINE LEN 16 


58 
59 struct dentry į 
60 int d count; 
61 unsigned int d flags; 
62 struct inode *d_inode; 

/* Where the name belongs to - NULL is negative */ 
63 struct dentry * d parent;  /* parent directory */ 
64 struct list head d vfsmnt; 
65 struct list head d hash; /* lookup hash list */ 
66 struct list head d lru; /* d count = 0 LRU list */ 
67 struct list head d child; /* child of parent list */ 
68 struct list head d subdirs; /* our children */ 
69 struct list head d alias; /* inode alias list */ 
70 struct qstr d name; 
71 unsigned long d time; /* used by d revalidate */ 
12 struct dentry operations  *d op; 
73 struct super block * d sb; /* The root of the dentry tree */ 
74 unsigned long d reftime; /* last time referenced */ 
75 void * d fsdata; /* fs-specific data */ 
76 unsigned char d iname[DNAME INLINE LEN]; /* small names */ 
BHO K 


很 明显 ，dentry 48% PAYA NU EX AT BB EGER s EAS AS T LOC fF d o. rs RE SEEN 
exÜ2, dir entry 2 有 很 大 的 不 同 ， 相 比 之 下 几乎 足 而 日 全 非 。 以 后 我 们 将 结合 代码 解释 其 主要 成 分 的 用 
途 。 其 实 ，dentry 与 ext2_dir_entry_2 之 间 以 及 inode 与 ext2_inode 之 间 的 这 种 显著 不 同 并 不 奇怪 ， 内 
为 dentry 和 inode 直属 村 VFS 层 的 数据 结构 ， 需 要 适用 于 各 种 不 同 的 文件 系统 ， 而 ext2_dir_entry 2 和 
ext2 inode 则 总 专门 针对 Ext2 文件 系统 而 设计 的 ， 所 以 前 者 除 包 仿 了 许多 动态 信息 以 外 ， 还 是 对 后 者 
i PRAT Fe. IEDR ta A INR. 

说 到 这 里 ， 读 者 可 能 会 产生 个 疑问 : 要 沪 问 -个 文件 就 得 先 访 问 Hox A EER AE A 
目录 中 找到 该 文件 的 目 冰 项 ， 进 而 找到 其 i 节点 ; 可 是 目 有 水 本 身 也 是 文件 ， 它 本 喘 的 丹 录 项 又 在 另 一 
个 目 江 项 中 ， 这 “来 不 是 成 了 “ 先 有 鸡 还 是 先 有 重 ” 的 问题 ， 或 首 说 递归 了 吗 ? 这 个 圈子 的 出 口 在 哪 
JLE? 我 们 不 妨 换 一 个 方式 来 间 这 个 问题 ， 滥 就 是 : ATR CTA OR, CARH HRI” AE 
其 他 日 录 中 ， 而 可 以 在 一 个 固定 的 位 置 上 或 者 通过 一 个 固定 的 算法 找到 ， 并 且 从 这 个 日 录 出 发 可 以 找 
到 系统 中 的 任何 一 个 文件 ?答案 是 肯定 的 ， 这 个 日 录 就 是 系统 的 根 目 录 “/”， 或 者 说 “ 根 设 备 ” 上 的 
根 目录 。 每 一 个 “文件 系统 ” 旭 每 一 个 格式 化 成 某 种 文件 系统 的 存储 设备 上 孝 有 一 个 根 日 录 ， 癌 时 又 
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都 有 一 个 “超级 块 ”(super block)， 根 上 月 录 的 位 置 以 及 文件 系统 的 其 他 一 些 参 数 就 记录 在 超级 块 中 。 超 
级 块 在 设备 上 的 逻辑 位 置 部 是 固定 的 , 例如 ,在 磁盘 二 总 是 在 第 二 个 逻辑 块 ( 第 一 个 逻辑 块 为 引导 块 )， 
所 以 不 需要 再 从 其 他 什么 地 方 去 “查找 ”。 同 时， 对 于 -个 特定 的 文件 系统 ,超级 块 的 格式 也 是 国定 的 ， 
系统 人 在 初 始 化 时 要 将 一 个 存储 设备 通常 就 是 从 中 引导 出 操作 系统 的 那个 设备 ) 作为 整个 系统 的 “ 根 
设备 ”， 包 的 根 目录 就 成 为 整个 文件 系统 的 “总 根 ”， 就 是 “/”。 更 确切 地 说 ， 就 是 把 根 设备 的 根 目录 
“安装 ”在 文件 系统 的 总 根 “/” 节 点 上 。 有 了 根 设 备 以 后 ， 还 可 以 进而 把 其 他 存储 设备 也 安装 到 文件 
系统 中 空闲 的 目录 节点 上 。 所 谓 “ 安 装 ” 就 是 从 一 个 存储 设备 上 谈 入 超级 块 ， 在 内 存 中 建立 起 一 个 
super block 结构 。 再 进而 将 此 设备 上 的 根 百 录 与 文件 系统 中 已 经 存在 的 个 空白 日 录 挂 上 钩 。 系 统 初 
始 化 时 整个 文件 系统 只 有 一 个 空白 目录 “/”， 所 以 根 设备 的 根 目 录 就 安装 在 这 个 节点 上 。 这 样 ， 从 根 
目录 “/” 开 始 ， 根 据 给 定 的 “全 路径 名 ”就 可 以 找到 文件 系统 中 的 任何 一 个 文件 ， 而 不 论 这 个 文件 是 
在 哪 一 个 存储 设备 上 ， 只 要 文件 所 在 的 存储 设备 已 经 安装 就 行 了 。 

但 是 ， 每 次 都 要 提供 一 个 全 路 径 名 ， 并 月 每 次 都 要 从 根 日 录 “/” 开 始 查找 ， 既 不 方便 也 是 一 种 浪 
费 。 所 以 系统 也 提供 了 从 “当前 目录 ”开始 查找 的 手段 。 登 一 个 进程 在 每 一 时 刻 都 有 :个 “当前 工作 
日 录 pwd”, 用 户 可 以 改变 这 个 日 录 ,， 但 是 永远 都 有 这 人 么 个 目录 存在 。 这 样 ， 就 可 以 只 提供 SM pwd 
开始 的 “相对 路 径 名 ”来 查找 一 个 文件 。 这 就 是 前 面 看 到 过 的 fs, struct. 数据 结构 中 为 什么 要 有 个 指针 
pwd 的 原因 。 这 个 指针 总 是 指向 本 进程 的 “当前 工作 目录 ”的 dentry 结构 ， 出 进程 的 task. struct 结构 
中 的 指针 fs 则 总 是 指向 -个 有 效 的 fs struct 结构 。 每 当 一 个 进程 通过 chdir ) 系 统 调 用 进入 一 个 目录 ， 
或 者 在 login 进入 用 户 的 原始 目录 C Home Directory”) 时 ， 内 核 就 使 该 进程 的 pwd 指针 指向 这 个 目录 
在 内 存 中 的 dentry 结构 。 相 对 路 径 名 还 可 以 用 “. ./” 开 头 ， 表 未 先 疝 上 找到 当前 目录 的 父 月 录 ， 再 
从 那里 开始 查找 。 相 应 地 ， 在 dentry 结构 中 也 有 个 指针 d_parent， 指 向 其 父 日 录 的 dentry 结构 。 

如 前 所 述 ，fs_struct 结构 中 还 有 -个 指针 root， 指 向 本 进程 的 根 目 录 “/” 的 dentry 结构 。 前 面 讲 
过 ,“/” 表 示 整 个 文件 系统 的 总 根 ， 可 这 只 是 就 一 般 而 言 ， 或 者 是 对 早期 的 Unix 系统 而 音 。 事 实 上 ， 
特权 用 户 可 以 通过 一 个 系统 调用 chroot( ) 将 另 一 个 日 录 设 置 成 本 进程 的 根 目 录 。 从 此 以 后 ,这 个 进程 以 
及 由 这 个 进程 所 fork( ) 的 子 进程 就 把 这 个 日 录 当 成 了 文件 系统 的 根 ， 遇 到 文件 的 全 路 径 名 时 就 从 这 个 
日 录 而 不 十 从 真正 的 文件 系统 总 根 开 始 查 找 。 例 如 ， 要 是 这 个 进程 执行 一 个 系统 调用 chdir 7), BRA 
转 人 到 这 个 “现在 ”的 根 日 录 调 不 是 真正 的 根 目录 。 这 种 特 吻 的 设计 也 是 从 实践 需求 引起 的 ， 最 初 是 为 
I Hk FTP， 特 别 是 匿名 FTP 的 一 个 安全 性 问题 。FTP 的 服务 进程 CARTE "SPI" daemon) 是 特权 
用 户 进程 。 当 一 个 远程 的 用 户 与 FTP 服务 进程 建立 起 连接 以 后 ， 就 可 以 在 远 地 发 出 诸如 “cd /”“get 
/etc/passwd” 之 类 的 命令 。 显 然 ， 这 给 系统 的 安全 人 性 造成 了 一 个 潜在 的 缺 员 ， 现 在 有 了 进程 自己 的 “ 根 
日 录 ” 以 及 系统 调用 chroot( ) iEn] Aik FTP 服务 进程 把 另 … 日 录 当 成 它 的 根 上 月 录 ， 从 而 当 远 程 用 户 
HK “get /etc/passwd” 时 就 会 得 到 “文件 找 个 到 ”之 类 的 出 错 信 息 ， 从 疝 保证 了 passwd 口令 文件 的 
安全 性 。 

向 且 ，fs_struct 结构 中 还 有 一 个 指针 altroot, 指向 本 进程 的 “替换 根 日 录 ”。 当 进 程 执 行 - 个 系统 
调用 chdirt, WRE A AHR AS, BHEE altroot 不 为 0， 就 会 转 入 其 替换 根 月 录 ， 人 在 则 才 转 入 
其 视 在 根 利 录 。 这 样 就 可 以 视 上 基体 的 情况 而 在 两 个 “ 根 朋 录 ” 中 切换 ， 让 用 户 在 不 同 的 情况 下 “看 到 ” 
不 同 的 根 目录 。 

对 于 普通 文件 ， 文 件 系统 层 最 终 要 通过 磁 枢 或 其 他 存储 设备 的 驱动 程序 从 存储 介质 上 读 或 写 。 就 
Ext2 文件 系统 而 言 ， 从 磁盘 文件 的 角度 来 看 ， 对 存储 介质 的 访问 可 以 涉及 到 岂 种 不 同 的 日 标 ， 那 就 是 ; 

(D 文件 中 的 数据 ， 包 括 昌 录 的 内 容 ， 即 目录 项 ext2_dir_entry_2 数据 结构 。 

(2) 文件 的 组 织 与 管理 作息， 即 索引 节点 ext2_inode 数据 结构 。 
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G) 磁盘 的 超级 块 。 如 果 物 型 的 磁 上 伪 被 划分 成 若干 分 区 ， 那 就 包括 每 个 “过 辑 磁盘 ”的 超级 据 。 

(4) 引导 块 。 

每 个 按 Ext2 格式 经 过 格式 化 的 磁盘 (或 逻辑 盘 ) 存 储 介质 都 相应 地 被 划分 成 至 少 4 个 部 分 (图 5.4)。 
其 中 引导 块 水 远 是 介质 上 的 第 一 个 记录 块 ， 超 级 块 永远 是 介质 上 的 第 二 个 记录 块 ， 其 他 两 部 分 的 大 小 
则 取决 于 磁盘 大 小 等 参数 ， 这 些 参数 都 存储 在 超级 块 中 。 





数据 部 分 ， 大 小 取决 于 格式 化 参数 和 磁盘 大 小 
索引 节点 部 分 ， 大 小 取决 二 格式 化 参数 
超级 块 





5.4 磁盘 (逻辑 盘 ) 划分 示意 图 


有 的 文件 系统 并 浇 有 索引 节点 这 么 一 种 数据 结构 ， 甚 至 没有 这 人 么 一 种 概念 。 但 是 既然 构成 一 个 文 
件 系统 就 必然 存在 着 某 种 索引 机 制 ， 从 这 种 机 制 中 跳 可 以 抽象 出 〈 或 变换 成 ) super. block 结构 和 inode 
结构 中 的 公共 信息 。 同 时 ，super_block 结构 也 和 inode 结构 一 样 包含 着 一 个 union， 对 这 一 部 分 信息 要 
根据 具体 的 文件 系统 而 加 以 不 同 的 解释 和 使 用 。 

从 筑 檬 驱动 程序 的 角度 来 看 ， 则 整个 介质 只 是 一 个 由 若 十 记录 块 组 成 的 一 维 阵列 《记录 块 数组 ) 
而 已 ， 所 以 这 种 设备 称 为 “ 块 设备 ”。 当 文件 系统 层 要 从 伐 盘 上 读 出 一 个 索引 节点 时 ， 要 根据 索引 节点 
号 和 超级 块 中 提供 的 信息 ， 计 算出 这 个 索引 节点 在 磁盘 上 的 哪 一 个 记录 块 以 及 在 此 记录 块 中 的 相对 位 
移 。 然 后 ， 道 过 磁盘 驱动 程序 读 入 这 个 记录 块 后 再 根据 索引 节点 在 记录 块 中 的 相对 位 移 找到 这 个 节点 。 
如 前 所 述 ， 磁 盘 上 的 “ 根 目 录 ” 是 特殊 的 ， 其 索引 节点 号 保存 在 该 磁盘 的 超级 块 中 。 从 磁盘 读 一 个 特 
定 文件 的 内 容 〈 数 据 ) 则 要 稍为 麻烦 一 点 。 先 要 读 入 该 文件 的 索引 节点 ， 然 后 根据 索引 节点 中 提供 的 
信息 将 数据 在 文件 中 的 位 移 换 算 成 磁盘 上 的 记录 块 号 ， 再 通过 磁盘 驱动 程序 从 磁盘 上 读 入 。 

相 比 之 下 ， 作 为 “设备 文件 ”的 磁盘 则 不 存在 〈 或 看 不 见 》 这样 的 逻辑 划分 ， 而 只 是 将 磁盘 看 成 
一 个 巨大 的 线性 存储 空间 〈 字 节 数 组 )。 当 从 作为 设备 文件 的 磁盘 读 出 时 ， 只 要 将 数据 在 此 文件 中 的 位 
移 换算 成 磁盘 上 的 记录 块 号 ， 就 可 以 通过 磁盘 驱动 程序 读 入 了 。 不 过 ， 在 此 之 前 也 要 先 找到 代表 者 这 
个 设备 文件 的 目 洒 项 和 索引 节点 ， 才 能 把 字符 串 形式 的 设备 文件 名 转换 成 驱动 程序 所 需要 的 设备 号 。 

在 前 面 我 们 曾 把 具体 的 文件 系统 比喻 作 “ 接 口 卡 ”， 而 把 虚拟 文件 系统 VES Loup — dede. A 
Jt. file 结构 中 的 指针 f£ op BA WATER PAT Mia. FALE dentry、inode 等 结构 中 都 有 着 类 似 
的 触 点 。 所 以 ， 如 果 把 整个 具体 文件 系统 比喻 成 “接口 卡 ”的 话 ， 滥 么 这 种 接听 上 的 “ 插 模 ”分 成 好 
NME. m fie 结构 只 是 其 中 最 主要 的 一 段 。 有 关 的 数据 结构 有 : 

(1) FRED., Ell file operations 数据 结构 :file 结 构 中 的 指针 f_op 指 加 具体 的 名 e_operations 
结构 , 这 是 read( )、wirte( ) 等 文件 操作 的 跳 转 表 .。 一 种 文件 系统 并 不 只 限于 一 个 file operations 
结构 ， 如 Ext2 就 有 两 个 这 样 的 数据 结构 ， 分 别 用 于 普通 文件 和 目录 文件 。 

(2) 日 录 项 操作 跳 转 表 ， 即 dentry operations 数据 结构 : dentry 结构 中 的 指针 d op 指向 具体 的 
dentry_operations 数据 结构 ， 这 是 内 核 路 hash( )、compare( ) 等 内 部 操作 的 跳 转 表 。 如 果 d op 
为 0 则 表示 按 Linux BRAM CH Ext2) 方式 办 。 注 意 ， 这 里 说 的 是 日 菜 项 ， 而 不 是 目录 , 日 
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(3) 索引 节点 操作 跳 转 表 ， 即 inode_operations 数据 结构 : inode 结构 中 的 指针 i op 指向 具体 的 
inode operations 数据 结构 ， 这 是 mkdir( ). mknod( ) 等 文件 操作 以 及 lockup( ). permission( ) 
等 内 部 函数 的 跳 转 表 。 同 样 ， 一 种 文件 系统 也 并 不 只 限于 一 -个 file operations 结构 。 

(4) ERREI, RI super operations 数据 结构 ，super_block 结构 中 的 指针 s op 指向 具体 
的 super operations 数据 结构 ， 这 是 read inode( ). write inode( )、delete_inode( ) 等 内 部 操作 
的 跳 转 表 。 

(5 ”超级 块 本 身 也 因 文 件 系 统 而 异 。 


由 此 可 见 ，file 结构 、dentry 结构 、inode 结构 、super_block 结 椅 以 及 关于 超级 块 位 置 的 约定 都 属 
T VFS E. 

此 外 ，inode 结构 中 还 有 “个 指针 i_fop， 也 指向 县 体 的 file operations 数据 结构 ， 实 际 上 file 结构 
中 的 指针 f op 只 是 inode 结构 中 这 个 指针 的 一 个 副本 ， 在 打开 文件 的 时 候 从 目标 文件 的 inode 结构 中 
复制 到 file 结构 中 。 

最 后 还 要 指出 ， 虽 然 每 个 文件 都 有 目 采 项 和 索引 节点 在 磁盘 上 ， 但 是 只 有 在 需要 时 才 在 内 存 中 为 
之 建立 起 相应 的 dentry 和 inode 数据 结构 。 


5.0. 从 路 径 名 到 目标 节点 


本 节 先 介绍 几 个 明 数 的 代码 ， 主 要 是 两 个 函数 ， 即 path. init( ) 和 path_walk( ) 以 及 它们 下 面 的 一 些 
低层 函数 。 日 的 在 于 帮助 读者 加 深 对 文件 系统 内 部 结构 的 理解 ， 同 时 也 为 以 后 的 代码 阅读 做 些 准 备 ， 
因为 以 这 两 个 函数 为 入 口 的 操作 比较 大 ， 并 且 很 重要 ， 人 在 本 章 后 面 儿 节 中 常常 村 用 到 。 这 两 个 函数 通 
常 都 是 连 在 一 起 调用 的 ， 二 者 合 在 一 起 就 可 以 根据 给 定 的 文件 路 径 名 在 内 存 中 找到 或 建立 代表 着 目标 
文件 或 目录 的 dentry 结构 和 inode 结构 。 在 老 一 些 的 版 本 中 ， 这 一 部 分 功能 一 直 是 通过 一 个 叫 namei( ) 

《后 来 加 了 一个 叫 Inamei( )》 的 函数 完成 的 ， 现 在 则 有 了 新 的 实现 。 与 namei( ) 和 Inamei( ) 相 对 应 ， 现 
在 有 一 个 函数 _user_walk( ) 将 path, init( ) 和 path_walk( )“ 包 装 ” 在 -- 起 。 不 过 ， 内 核 代 码 中 直接 调用 
这 两 个 函数 的 地 方 也 有 不 少 。 本 节 涉 及 的 代码 基本 上 都 在 文件 fs/namei.c 中 。 

先 看 “外 包装 ” BD user walk( ): 


778 /* 

779 * namei( ) 

780 * 

781 * is used by most simple commands to get the inode of a specified name. 
782 * Open, link etc use their own routines, but this is enough for things 
783 * like 'chmod' etc. 

784 * 

785 * namei exists in two versions: namei/lnamei. The only difference is 
786 * that namei follows links, while Inamei does not 

787 * SMP-safe 

788 */ 

789 int __user_walk(const char *name, unsigned flags, struct nameidata *nd) 
790 { 
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791 char *tmp; 

192 int err; 

193 

794 tmp = getname (name); 

795 err = PTR ERR(tmp); 

796 if (TS ERR(tmp)) | 

797 err = 0; 

798 if (path init(tmp, flags, nd)) 
799 err = path walk(tmp, nd); 
800 putname (tmp) ; 

801 ) 

802 return err; 

803 ] 


其 中 调用 参数 name 指向 在 用 广 空间 中 的 路 径 名 ;flags 的 内 容 则 是 些 标 志 位 ， 定 义 才 文 件 


include/linux/fs.h: 


1128 /* 

1129 * The bitmask for a lookup event: 

1130 * - follow links at the end 

1131 * -— require a directory 

1132 * - ending slashes ok even for nonexistent files 
1133 * - internal "there are more path compnents” flag 
1134 */ 

1135 #define LOOKUP FOLLOW (1) 


1136  #define LOOKUP DIRECTORY (2) 
1137 . &define LOOKUP CONTINUE (4) 
1138  #define LOOKUP POSITIVE (8) 
1139 . #def'ine LOOKUP PARENT (16) 
1140 . &define LOOKUP NOALT (32) 





这 些 标志 位 都 是 对 怎样 寻找 目标 的 指示 。 例 如 ，LOOKUP_DIRECTORY 表示 要 寻找 的 日 标 必须 是 
个 目录 ; 而 LOOKUP. FOLLOW 表示 如 果 找 到 的 目标 只 是 “符号 连接 ”到 其 他 文件 或 日 录 的 个 目录 
项 ， 则 要 顺 着 连接 链 一 直 找 到 终点 。 所 请“ 连接 ”是 指 一 个 “节点 ”(《 目 录 项 或 文件 ) 直接 指向 另 … 个 
车 点 ， 成 为 男 一 个 季 点 的 代表 。 注 意 ,“ 符 号 连接 ”与 普通 连接 不 同 ， 普 通 的 连接 只 能 建立 在 同一 个 存 
储 设备 上 上， 而 “符号 连接 ” 品 以 是 跨 设 备 的 ;内 核 提 供 了 两 个 不 同 的 系统 调用 link( ) 和 symlink) 2) 
别 用 于 普通 连接 和 “符号 连接 ”的 建立 。 由 于 “符号 连接 ”可 以 是 跨 设 备 的 ， 所 以 其 终点 有 可 能 “ 乱 
空 ” 鲁 普 通 连 接 的 终点 则 必定 是 沙 实 的 。 当 路 径路 包含 着 “符号 连接 ”时 ， 对 于 是 否 继续 顺 者 连接 链 
往 下 搜索 ， 则 男 有 一 些 附 加 规定 ， 对 此 ， 代 但 的 作者 在 注释 中 加 了 说 明 (fs/namei.c): 


87 /* [Feb-Apr 2000 AV] Complete rewrite. Rules for symlinks: 

88 * inside the path - always follow. 

89 * in the last component in creation/removal/renaming - never follow. 
90 * if LOOKUP FOLLOW passed - follow. 

9] * if the pathname has trailing slashes - follow. 

92 * otherwise - don't follow. 
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93 * (applied in that order). 
94 * 


M ed 


100 水 / 


注释 中 谈 到 ， 如 果 在 一 个 路 径 名 内 部 的 某 个 中 间 节 点 是 符号 连接 ， 滥 就 总 是 归 跟 随 (follow); 077: 
创建 /删除 /改名 操作 中 如 果 路 径 名 的 最 后 一 个 节点 是 符号 连接 则 不 要 跟随 〈 读 者 不 妨 想 想 为 什么 ? )。 

至 于 其 他 一 些 标志 位 的 用 途 ， 在 阅读 代码 的 过 程 中 自 会 碰 到 。 此 处 要 提醒 读者 注意 : 并 非 所 有 标 
志 位 对 所 有 文件 系统 都 有 意义 。 

最 后 一 个 参数 nd 是 个 结构 指针 ， 数 据 结 构 nameidata 的 定义 也 在 fs.h H: 


613 struct nameidata | 

614 struct dentry *dentry; 
615 struct vfsmount *mnt; 
616 struct qstr last; 

617 unsigned int flags; 
618 int last type; 

619 E 


这 种 数据 结构 是 临时 性 的 ， 只 用 来 返回 搜索 的 结果 。 成 功 返 回 时 ， 其 中 的 指针 dentry 指 六 所 找到 
的 dentry 结构 ， 而 在 该 dentry 结构 中 则 有 指针 指向 相应 的 inode 结构 。 指 针 mnt MHR -A vfsmount 
数据 结构 ， 它 记录 着 所 属 文 件 系统 的 安装 信息 ， 例 如 文件 系统 的 安装 点 、 文 件 系 统 的 根 节 点 等 等 。 

回 到 _user_walk( )， 先 通过 getname( ) 在 系统 空间 中 分 配 一 个 负面， 并 从 几 户 空间 把 文件 名 复制 
到 这 个 页 面 中 。 由 十 分 配 的 是 一 个 页 面 ， 所 以 整个 路 径 名 可 以 长 达 AK 字 节 。 同 时 ， 因 为 这 块 空间 是 动 
态 分 配 的 ,所 以 在 使 用 完 以 后 要 通过 putname( ) 将 其 释放 。 代 码 中 用 到 的 PTR_ERR All IS. ERR 都 是 inline 
ARG WE fsh 中: 


1105 /* 

1106 * Kernel pointers have redundant information, so we can use a 
1107 * scheme where we can return either an error code or a dentry 
1108 * pointer with the same return value. 

1109 * 

1110 * This should be a per-architecture thing, to allow different 
1111 * error and pointer decisions 

1112 */ 

1113 static inline void *ERR PTR(long error) 

1114 { 

1115 return (void *) error; 

1116 } 

1117 

1118 static inline long PTR ERR(const void *ptr) 

1119 { 

1120 return (long) ptr; 

121  ] 

1122 
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1123 static inline long IS ERR(const void *ptr) 


1124 ( 
1125 return (unsigned long)ptr > (unsigned long)-1000L; 
1126 } 


这 样 ， 剩 下 的 就 是 紧 挨 在 一 起 的 path_init( ) 和 path_walk( ) 两 个 另 数 了 。 先 在 fs/namei.c 文件 中 看 
path, init( ) 的 代码 : 


690 /* SMP-safe */ 


691 int path_init (const char *name, unsigned int flags, struct nameidata *nd) 
692 { 

693 nd->last_type = LAST ROOT; /* if there are only slashes... */ 
694 nd->flags = flags; 

695 if (*name==’ / ) 

696 return walk init root (name, nd); 

697 read lock (&current—>fs— lock) ; 

698 nd-^mnt = mntget (current—>fs—>pwdmnt) ; 

699 nd dentry = dget (current—>fs—>pwd) ; 

700 read unlock (&current—>fs-—>lock) ; 

701 return 1; 

702 } 


首先 将 nameidata 结构 中 的 last type. 字段 设置 成 LAST_ROOT。 这 个 字段 可 能 有 的 值 定义 十 fsh 


T: 

1141 /* 

1142 * Type of the last component on LOOKUP PARENT 
1143 */ 


1144 enum [LAST NORM, LAST ROOT, LAST DOT, LAST DOTDOT, LAST BIND|; 


在 搜索 的 过 程 中 ， 这 个 字段 的 值 会 随 路 径 名 的 当前 搜索 结果 而 变 。 例 如 ， 如 果 成 功 地 找到 了 目标 
文件 , 那么 这 个 字段 的 值 就 变 成 了 LAST_NORM; 而 如 果 最 后 停留 在 一 个 “. ”上 , 则 变 成 LAST_DOT。 

下 面 就 取决 于 路 径 名 是 否 以 “/” 开 头 了 。 

我 们 先 看 相对 路 径 名 ， 即 不 以 “/” 开 头 时 的 情况 。 以 前 讲 过 ， 进 程 的 task struct. 结构 中 有 个 指针 
fs 指向 一 个 fs struct 结构 。 在 fs struct 结构 中 有 个 指针 pwd 指向 进程 的 “当前 工作 目录 ”的 dentry Zi 
构 。 相 对 路 径 是 从 当前 工作 目录 开始 的 , 所 以 将 nameidata 结构 中 的 指针 dentry 也 设置 成 指向 这 个 当前 
工作 目录 的 dentry 结构 ， 表 未 在 虚拟 的 绝对 路 和 谷中 这 个 节点 以 及 所 有 在 此 之 前 的 节点 都 已 经 解决 了 。 
同时 ， 这 个 其 体 的 dentry 结构 现在 多 了 -个 “用 户 ”， 所 以 要 调用 dget( ) 递 增 其 共享 计数 。 除 此 以 外 ， 
fs sturct 结构 中 还 有 个 指针 pwdmnt 指向 一 个 vfsmount 结构 。 每 当 将 一 个 存储 设备 (或 称 “ 文 件 系 统 ”) 
安装 到 现 有 文件 系统 中 的 某 个 节点 《空白 目录 ) 时 ， 内 核 就 要 为 之 建立 起 一 个 vfsmount 结构 ， 这 个 结 
构 中 既 包 含 着 有 关 该 设备 (或 者 说 “ 子 系统 ”) 的 信息 ， 也 包含 了 有 关 安 装点 的 信息 。 系 统 中 的 每 个 文 
件 系统 ， 包括 根 设备 上 的 文件 系统 ， 都 要 经 过 安装 ， 所 以 fs_sturct 结构 中 的 指针 pwdmnt 总 是 指向 一 个 
vfsmount 结构 。 详 情 可 参阅 后 面 “ 文 件 系 统 的 安装 与 拆卸 ”一 节 。 相 应 地 ， 在 nameidata 结构 中 也 有 个 
指针 mnt， 要 把 它 设置 成 指向 同一 个 vfsmount 结构 。 这 样 ， 对 路 径 搜 索 的 准备 工作 ， 即 对 nameidata 
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结构 的 初始 化 就 完成 了 。 
可 是 ， 如 果 路 径 名 是 以 “/” 开 头 的 绝对 路 径 ， 那 就 要 通过 walk init root( ) 从 根 节点 开始 查找 


(fs/namei.c): 
[path init( ) » walk init root( )] 


671 /* SMP-safe */ 





672 static inline int 

673 walk init root(const char *name, struct nameidata *md) 
6:24 f 

675 read lock(&current-^fs-»lock); 

676 if (current fs—altroot && !(nd— flags & LOOKUP NOALT)) { 
677 nd->mnt = mntget (current—>fs—>altrootmnt) ; 

678 nd->dentry = dget (current >fs >altroot);: 

679 read unlock (&current—>fs->lock) ; 

680 if €( emul lookup dentry (name, nd) ) 

681 return 0; 

682 read_lock (&current—>fs->lock) ; 

683 } 

684 nd->mnt = mntget (current->fs—>rootmnt) ; 

685 nd->dentry = dget (current->fs—root) ; 

686 read_unlock (&current->fs—>lock) ; 

687 return l; 

688 } 


如 果 当 前 进程 并 未 通过 choo ) 系 统 调用 设置 自己 的 “替换 ” 根 目录 ， 则 代码 中 if 语句 里 的 
current-»fs-»altroot 为 0, 所 以 把 nameidata 中 的 两 个 指针 分 别 设置 成 指向 当前 进程 的 根 目 录 的 dentry 结 
构 及 其 所 在 设备 的 vfsmount 结构 。 反 之 , 如 果 已 经 设置 了 “替换 ” 根 目录 , 那 就 要 看 当初 调用 path. init() 
时 参数 flags 中 的 标志 位 LOOKUP. NOALT 是 否 为 1 了。 通 常 这 个 标志 位 为 0, 所 以 如 果 已 经 设置 了 “ 替 
换 ” 根 目录 就 会 通过 ^ emul lookup. dentry( ) 将 nameidata 结构 中 的 指针 设置 成 指向 “替换 ” 根 日 录 。 

这 “替换 ” 根 日 录 到 底 是 怎么 回 事 呢 ? WOR, CAH Unix 变种 〈 如 solaris 等 ) 中 ， 可 以 在 文件 系 
SH GHEE “fuse” PIR) 创建 一 棵 子 树 ， 例 如 “AusrwaltrooVyhome/user1/… ”。 然 后 ， 当 用 户 调用 
chroot( ) 设 置 其 自己 的 根 上 且 录 时 ， 系 统 会 月 动 将 该 进程 的 fs. struct 结构 中 的 altroot 和 altrootmnt 两 个 指 
针 设 置 成 给 定 路 径 名 在 前 述 子 树 中 的 对 应 节点 ， 那 个 对 应 节点 就 成 了 “替换 ” 根 目 录 。 不 过 在 1386 处 
理 器 上 的 linux 目前 并 不 支持 这 种 功能 ， 所 以 这 里 if ADP AY current->fs->altroot 总 是 NULL， 因 而 不 
起 作用 。 

从 path_init( ) 成 功 返 回 时 ，nameidata 结构 中 的 指针 dentry 指 和 门路 径 搜 索 的 起 点 ， 接 着 就 是 通过 
path_walk( ) 硕 着 路 径 名 的 指引 进行 搜索 了 。 这 个 函数 比较 大 ， 所 以 我 们 逐 段 地 往 下 看 (fs/namei.c): 


414 /* 

415 * Name resolution. 

416 * 

A17 * This is the basic name resolution function, turning a pathname 
418 * into the final dentry. 

419 * 
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420 * We expect 'base' to be positive and a directory 
421 */ 

422 int path walk(const char * namo, struct nameidala *nd) 
423 { 

424 struct dentry **dentry; 

425 struct inode *inode; 

426 int err; 

427 unsigned int lookup flags = nd->flags; 

428 

429 while (*name--' /') 

430 name++， 

431 if (!*name) 

432 goto return base; 

433 

434 inode = nd->dentry—>d_inode; 

435 if (current->link count) 

436 lookup flags = LOOKUP FOLLOW; 

437 


如 果 路 径 名 是 以 “/” 开 头 的 ， 就 把 它 跳 过 去 ， 因 为 在 这 种 情况 下 nameidata 结构 中 的 指引 dentry 
山 经 指向 本 进程 的 根 日 菜 了 。 注 意 ， 多 个 连续 的 “/” 与 一 个 “1” 字符 是 等 价 的 。 如 果 路 径 名 中 仅仅 全 
有 “/” 字 符 的 话 ， 那 么 其 日 标 就 是 根 目 标 ， 所 以 任务 已 经 完成 ， 可 以 返回 了 。 人 不然 ， 就 继续 搜索 。 

进程 的 task, struct 结构 中 有 个 计数 器 link_count。 存 搜索 过 程 中 有 可 能 碰 色 一 个 节点 〈 目 录 项 ) 只 
是 指向 妇 一个 节点 的 连接 ， 此 时 就 用 这 个 计数 器 来 对 链 的 长 度 进 行 计数 ， 这 样 ， 妆 链 的 长 度 达到 某 一 
个 值 时 就 可 以 终止 搜索 而 失败 返回 ， 以 防 陷 入 循环 。 另 一 方面 ， 当 顺 着 “符号 连接 ”进入 另 一 个 设备 
上 的 文件 系统 时 ， 有 可 能 会 递归 地 调用 path_walk( )。 所 以 ， 进 入 path_walk( ) 后 ， 如 果 发 现 这 个 计数 值 
非 0， 那 就 上 示 正在 顺 痢 “ 符 号 连接 ” 递归 调用 path walk( ) 往 前 搜索 的 过 程 中 ， 此 时 不 管 怎样 部 把 
LOOKUP FOLLOW 标志 位 设 成 1。 这 里 偿 要 指出 ， 作 为 path wak ) 起 点 的 节点 必定 是 - SOR, 7 
定 有 相应 的 索引 节点 在 在， 所 以 指针 inode 一 定 是 有 效 的 ， 而 不 可 能 是 空 指针 。 

接 下 去 是 一 个 对 路 径 中 的 节点 所 作 的 for 循 坏 ， 由 于 循环 体 较 大 ， 我 们 也 只 好 分 段 来 看 。 


[path walk( )] 


438 /* At this point we know we have a real path component. */ 
439 for(;;) ( 

440 unsigned long hash; 

441 struct qstr this; 

442 unsigned int c; 

443 

444 err = permission(inode, MAY EXEC); 
445 dentry - ERR PTR(err); 

446 if (err) 

447 break; 

448 

449 this.name - name; 

450 c = *(const unsigned char *)name; 
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451 

452 hash = init name hash( ); 

453 do { 

454 namet+t; 

455 hash = partial name_hash(c, hash); 
456 c = *(const unsigned char *)name; 
451 } while (c && (c != '/7)); 

458 this. len = name - (const char *) this. name; 
459 this. hash = end name hash (hash) : 

460 

461 /* remove trailing slashes? */ 

462 if (te) 

463 goto last_component: 

464 while (#++name == '/'); 

465 if (!*name) 

466 goto last_with slashes; 

467 


首先 检查 当前 进程 对 当前 节点 的 访问 权限 。 两 数 permission ) 的 代码 与 作用 请 参阅 “访问 权限 与 文 
件 安全 性 ”一 节 。 这 里 所 检查 的 是 对 路 径 中 各 层 月 录 《〈 而 不 是 日 标 文件 ) 的 访问 权限 。 注 意 ， 对 于 中 
间 节 点 所 需 的 权限 为 “执行 ” 权 ， 即 MAY_EXEC。 如 果 权 限 不 符 ， 则 permission 返回 一 个 出 错 代码 ， 
从 而 通过 break HUARD, BRAKT - 

循环 体 中 的 局 部 量 this 是 个 gstr 数据 结构 ， 用 来 存放 路 径 名 中 当前 节点 的 杂凑 值 以 及 节点 名 的 长 
度 ， 这 个 数据 结构 的 定义 在 include/linux/dcache.h P: 


20 /* 

21 * “quick string” -- eases parameter passing, but more importantly 
22 * saves “metadata” about the string (ie length and the hash) 

23 */ 

24 struct gstr { 

25 const unsigned char * name; 

26 unsigned int len; 

27 unsigned int hash; 

28}; 


回 到 代 但 中 的 第 453—457 17, LITE AREAS T SAY, ATH 
体 的 杂 诸 函数， 我 们 就 不 关心 了 。 

路 径 名 中 的 节点 是 以 “/” 字 符 分 隔 的 ， 所 以 紧 随 当前 节点 名 的 字符 只 有 两 种 可 能 ; 

(D 是 “\0”， 就 是 说 当前 节点 已 经 是 路 径 名 中 的 最 后 一 节 ， 所 以 转 入 last component. 

(2) A^ "I" 字符 ， 这 里 又 有 两 种 可 能 ， 第 -- 种 情况 是 当前 节点 实际 上 已 是 路 径 名 中 的 最 后 一 个 
节点 ， 只 不 过 在 此 后 面 又 多 添 了 若干 个 “/” 字 符 。 这 种 情况 常常 发 生 在 用 户 界 面 上 | ， 特 别 是 
在 shell 的 命令 行 中 ， 例 如 “ls /usr/include/”, 这 是 允许 的 。 但 是 当然 最 后 的 节点 必须 是 个 目 
录 ， 所 以 此 时 转 到 last_with_slashes。 第 二 种 情况 就 是 当前 节点 为 中 间 节 点 《包括 起 始 节 点 )， 
所 以 “/” 字 符 (或 者 接连 若干 个 “/” 字 符 ) 后 面 还 有 其 他 字符 。 这 种 情况 下 就 将 其 跳 过 ， 
继续 往 下 执行 。 





:437 . 


Linux 内 核 源 代码 情景 分 析 《上册 )》 


现在 ， 要 回 过 头 来 看 当前 节点 了 。 记 住 ， 这 个 节点 一 定 是 中 间 节 点 或 起 始 节 点 (否则 就 转 到 
last component 去 了 )， 这 种 节点 … 定 是 个 目录 。 对 于 代表 着 文件 的 节点 名 来 说 ， 以 “.” 开 头 表示 这 是 
个 隐藏 的 文件 ， 而 对 于 代表 着 日 录 的 节点 名 则 只 有 在 两 种 情况 下 才 是 允许 的 。 一 种 是 节点 名 为 “.”， 
表示 当前 目录 ， 即 不 改变 日 录 。 另 一 种 就 是 “.. ”， 表 示 当 前 目录 的 父 月 录 。 

继续 往 下 看 : 


[path_walk( )] 


468 /* 

469 * ^." and ".." are special - "..^ especially so because it has 
4TO * to be able to know about the current root directory and 
471 * parent relationships. 

472 */ 

473 if (this. name[0] ==’.’) switch (this. len) { 

474 default: 

475 break; 

416 case 2: 

477 if (this. name[1] !=’.’) 

478 break; 

479 follow_dotdot (nd) ; 

480 inode = nd->dentry->d_inode; 

481 /* fallthrough */ 

482 case 1: 

483 continue; 

484 } 


就 是 说 ， 如 果 当 前 节点 名 的 第 一 个 字符 是 “.” 则 节点 名 的 长 度 只 能 是 1 或 者 2， 并 且 当 长 度 为 ? 
时 第 二 个 字符 也 必须 是 “.” 否则 搜索 就 失败 了 〈 见 475 行 和 478 行 的 break E). 

如 果 当 前 节点 名 真 的 是 “. .”， 那 就 要 往 上 跑 色 当前 已 经 到 达 的 节点 nd->dentry 的 父 目 录 去 。 这 是 
出 follow_dotdot( ) 完 成 的 : 


[path_walk( ) > follow, dotdot( )] 


380 static inline void follow dotdot (struct nameidata *nd) 


381 { 

382 while(1) { 

383 struct vfsmount *parent; 

384 struct dentry *dentry; 

385 read_lock (&current—>fs—>lock) ; 

386 if (nd->dentry == current—fs->root && 
387 nd->mnt == current->fs—>rootmnt) (| 
388 read_unlock (&current->fs—>lock) ; 
389 break; 

390 } 

391 read unlock (&current->fs—> lock) ; 

392 spin_lock (&dcache_lock) : 
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393 if (nd->dentry != nd->mnt->mnt_root) { 
394 dentry = dget.(nd->dentry->d_parent) : 
395 spin_unlock (&deache_lock) ; 

396 dput (nd->dentry) ; 

397 nd->dentry = dentry; 

398 break; 

399 } 

400 parent-nd-?mnt-?mnt parent; 

401 if (parent == nd->mnt) { 

402 spin unlock(&dcache lock); 

403 break; 

404 } 

405 mntget (parent): 

406 dentry=dget (nd-»mnt-^mnt mountpoint); 
407 spin unlock(&dcache lock): 

408 dput (nd-»dentry) ; 

409 nd->dentry = dentry; 

410 mntput (nd->mnt) ; 

411 nd-^mnt = parent; 

412 } 

413 } 


但 是 这 里 又 要 分 三 种 情况 : 

第 一 种 情况 ， 已 到 达 节 点 nd->dentry 就 是 本 进程 的 根 节点 ， 这 时 不 能 髓 往 上 跑 了 ， 所 以 保持 
nd-»dentry 不 变 。 

第 二 种 和 情况， 已 到 达 节 点 nd->dentry 与 其 父 节点 在 同一 个 设备 上 。 在 这 种 情况 下 ， 妇 然 已 经 到 达 
的 这 个 节点 的 dentry 结构 已 经 建立 ， 则 其 父 节点 的 dentry 结构 也 必然 已 经 建立 企 内 存 中 ， 而 且 dentry 
结构 中 的 指针 d parent 就 指向 其 父 节点 ， 所 以 往 上 跑 雇 是 很 简单 的 事情 。 

最 后 一 种 情况 ， 己 到 达 节 点 nd->dentry 号 是 其 所 在 设备 上 的 根 节点 ， 往 上 跑 - . 层 就 要 跑 到 另 一 个 
设备 上 去 了 。 如 前 所 述 ， 当 将 一 个 存储 设备 “安装 ”到 另 - :个 设备 上 的 某 个 节点 时 ， 内 核 会 分 配 和 设 
置 一 个 vfsmount 结构 ， 通 过 这 个 结构 将 两 个 设备 以 及 两 个 节点 联结 起 来 〈《 详 见 “文件 系统 的 安装 与 拆 
和 卸 ”)。 所 以 ,每 个 已 经 安装 的 存储 设备 (包括 根 设备 ) 都 有 一 个 vfsmount 结 构 , 结构 中 有 个 指针 mnt_parent 
指 问 其 “ 父 设备 ” 但 起 根 设备 的 这 个 指针 则 指向 其 自己 ， 因 为 它 青 没有 “ 父 设备 ”了 ， 而 另 … 个 指针 
mnt_mountpoint， 则 指向 代表 着 安装 点 (一定 是 个 日 录 ) 的 dentry 结构 。 从 文件 系统 的 角度 来 看 ， 安 装 
点 与 所 安装 设备 的 根 目 东 赴 等 价 的 。 我 们 已 经 在 当前 设备 的 根 昌 录 中 ， 所 以 从 这 里 往 上 跑 一 层 就 是 要 
跑 到 安装 点 的 上 一 层 目 录 中 《而 不 是 安装 点 本 于)。 

先 检 坦 当 前 的 vfsmount 结构 是 否 代表 着 恨 设备 ， 如 果 是 的 话 ， 立 即 就 通过 399 行 的 break BS! 
X while(1 ) 循 环 。 这 样 ，nameidata 结构 中 的 dentry Al mnt 两 个 指针 就 维持 不 变 。 这 种 情况 相当 十 在 椒 
目录 中 打 入 命令 “cd .…” 或 者 “cdusr.././..” 等 等 ， 读 者 不 妨 实验 一 下 ， 看 看 结果 如 何 。 

有 反之 , 要 是 当前 设备 不 是 根 设备 ， 痢 就 把 nameidata 结构 中 的 帅 个 指针 分 别 设置 成 指向 上 层 设备 的 
vfsmount 结构 以 及 该 设备 上 的 安装 点 的 上 一 层 目录 Cdentry 结构 )， 然 后 岂 到 while(1) 循 环 的 开始 处 。 
一 般 来 说 ， 安 装点 不 会 是 个 设备 上 的 根 日 录 ， 所 以 这 一 次 循 坏 会 将 nameidata 结构 中 的 指针 dentry 
指向 安 净 点 的 父 目录 。 可 是 ， 刀 一 安装 点 真 的 就 是 上 一 层 设备 土 的 根 自 录 CR, DERK) wE? 
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那 也 不 要 紧 ， 只 不 过 是 再 循环 一 次 ， 再 往 Lec. 
回 旬 path_walk( ) 的 代码 中 ， 注 意 “case 2” 的 末尾 没有 break 语句 ， 所 以 会 沙 入 “case 1” 中 通过 
continue 诸多 同 到 for(::) 循 环 的 开头 ， 继 续 处 理 路 径 中 的 下 一 个 节点 名 。 
当然 ， 多 数 情况 下 节点 名 都 不 是 以 “.” 并 头 的 ， 就 是 说 多 数 情况 下 总 是 顺 着 路 径 名 逐 层 往 下 跑 ， 
而 不 是 往 上 跑 的 。 我 们 继续 往 下 看 对 “正常 ”节点 名 的 流程 : 


[path. walk( )] 


485 /* 

486 * See if the low-level filesystem might want 

487 * to use its own hash.. 

488 */ 

489 if (nd->dentry->d_op && nd dentry—d op-^d hash) { 
490 err = nd->dentry->d_op->d_hash(nd->dentry, &this); 
491 if (err < 0) 

492 break; 

493 } 

494 /* This does the actual lookups.. */ 

495 dentry = cached lookup(nd-»dentry, &this, LOOKUP. CONTINUE) ; 
496 if (!dentry) { 

497 dentry = real lookup(nd-^dentry, &this, LOOKUP CONTINUE); 
498 err = PTR ERR(dentry); 

499 if (1S ERR(dentry)) 

500 break; 

501 } 

502 /* Check mountpoints.. */ 

503 while (d mountpoint(dentry) && __ follow down(&nd->mnt, &dentry)) 
504 : 

505 

506 err - -ENOENT; 

507 inode = dentry->d_inode; 

508 if (!inode) 

509 goto out_dput; 

510 err = —ENOTDIR; 

511 if (!inode~>i_op) 

512 goto out dput; 

513 

514 if (inode-^i opO follow link) { 

515 err = do follow link(dentry, nd); 

516 dput (dentry) ; 

517 if (err) 

518 goto return err; 

519 err ~ -ENOENT; 

520 inode = nd->dentry—>d_inode; 

521 if (linode) 

522 break; 

523 err = -ENOTDIR; 
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524 if (linode-^i op) 

525 break; 

526 ) else { 

527 dput (nd-»dentry) ; 

528 nd->dentry ~ dentry; 
529 } 

530 err = -ENOTDIR; 

531 if (!inode-^i op~>lookup) 
532 break; 

533 continue; 

534 /* here ends the main loop */ 
535 


有 些 文件 系统 通过 dentry. operations 结构 中 的 指针 d. hash 提供 它 自己 专用 的 杂凑 函数 ， 所 以 在 这 
种 情况 下 〈 可 能 已 经 转 到 另 - 一 个 文件 系统 中 了 ) 就 通过 这 个 函数 再 计算 一 遍 当 前 节点 的 杂凑 值 ， 

至 此 ， 所 有 的 准备 工作 都 已 完成 ， 接 下 去 就 要 开始 搜索 了 。 

对 当前 节点 的 搜索 是 通过 cached_lookup( ) 和 real_lookup( ) 两 个 函数 进行 的 。 先 通过 cache. lookup( ) 
在 内 存 中 寻找 该 节点 业已 建立 的 dentry 结构 。 内 核 中 有 个 杂凑 表 dentry_hashtable， 是 一 个 list_head 指 
针 数组 ， 一 旦 在 内 存 中 建立 起 一 个 上 月 录 节 点 的 dentry 结构 ， 就 根据 其 节点 名 的 杂凑 值 挂 入 杂凑 表 中 的 
某 个 队列 ， 需 要 寻找 时 则 还 是 根据 杂凑 值 从 杂谈 表 着 手 。 当 路 径 名 中 的 某 个 节点 变 成 path_walk( ) 的 当 
前 节点 时 ， 位 于 其 “上 游 ” 的 所 有 节点 必定 都 已 经 有 dentry 结构 在 内 存 中 ， 而 当前 节点 本 身 及 其 “下 
游 ”的 节点 则 不 一 定 。 如 果 在 内 存 中 找 不 到 当前 节点 的 dentry 结构 ， 那 就 要 进 步 通 过 real_lookup( ) 
到 磁盘 上 道 过 其 所 在 的 日 录 寻 找 ， 找 到 后 在 内 存 中 为 其 建立 起 dentry 结构 并 将 之 挂 入 洒 凑 表 中 的 某 个 
队列 。 

内 核 中 还 有 一 个 队列 dentry_unused， 凡 是 已 经 没有 用 户 ， 即 共享 计数 为 0 的 dentry 结构 就 通过 结 
构 中 的 另 一 个 list_head 挂 入 这 个 队列 。 这 个 队列 是 ~ 个 LRU 队列 , 当 需 要 国 收 已 经 不 在 使 用 中 的 dentry 
结构 的 空间 时 ， 就 从 这 个 队列 中 找到 已 经 空闲 最 久 的 dentry 结构 ， 再 把 这 个 结构 从 杂凑 表 队 列 中 脱 链 
而 加 以 释放 .所 以 ，dentry_unused 是 为 缓冲 存储 而 设置 的 辅助 性 的 队列 。 不 过 ， 在 …' 些 特殊 的 情况 下 ， 
可 能 会 把 一 个 还 在 使 用 中 的 dentry 结构 从 杂凑 表 中 脱 链 ， 迫 使 以 后 要 访问 这 个 节点 的 进程 重新 根据 做 
MLAB ATMA dentry 结构 ， 而 已 经 脱 链 的 那个 数据 结构 则 由 最 后 调用 dput( ) 使 其 共享 计数 
变 成 0 的 进程 负责 将 其 释放 。 

事实 上 ，dentry 结构 中 有 6 个 list_head, Bl d_vfsmnt、d_hash、d_lm、d_child、d_subdirs 和 d. alias. 
注意 list head 既 可 以 用 来 作为 一 个 队列 的 头 部 ， 也 可 以 用 来 将 其 所 在 的 数据 结构 挂 入 到 某 个 队列 中 。 
其 中 d_vfsmnt 仅 在 该 dentry 结构 为 一 安装 点 时 才 使 用 ,一 个 dentry 结构 “经 建立 就 通过 其 d_hash 挂 入 
REK dentry_hashtable 中 的 某 个 队列 里 , 当 共 享 计 数 变 成 0 时 则 通过 d_lru 挂 入 LRU 队列 dentry_unused 
中 。 同 时 ，dentry 结构 通过 d. child 挂 入 在 其 父 节 点 (上 一 层 目录 ) 的 d_supdirs 队列 中 ， 同 时 又 通过 指 
t d. parent 指向 其 父 目 录 的 dentry 结构 。 而 它 和 白山 各 个 子 目 录 的 dentry 结构 则 在 它 本 身 的 d_subdirs BA 
列 中 。 

-个 有 效 的 detnry 结构 必定 有 一 个 相应 的 inode 结构 ， 这 是 因为 个 目录 项 要 么 就 代表 着 一 个 文 
件 , 要 么 就 代表 着 一 个 日 录 , 而 日 录 实 际 上 也 是 文件 .所 以 , 只 此 是 有 效 的 dentry 结构 , 则 其 指针 d_inode 
必定 指向 “个 inode 结构 。 可 是 ， 反 过 米 一 个 inode 却 可 能 对 应 着 不 止 一 个 dentry 结构 ， 也 就 是 说 ， 
个 文件 可 以 有 不 止 “个 文件 名 【或 路 径 名 )。 这 是 因为 一 个 已 经 建立 的 文件 可 以 被 连接 Clink) 到 其 他 
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文件 名 。 所 以 ， 在 inode 结构 中 有 个 队列 i_dentry， 凡 是 代表 着 这 个 文件 的 所 有 目录 项 都 通过 其 dentry 
结构 中 的 d alias 挂 入 相应 inode 结构 中 的 i dentry 队列 。 此 外 ，dentry 结构 中 还 有 指针 d_sb， 指 向 其 
所 在 设备 的 超级 块 的 super block 数据 结构 ， 以 及 指针 dop， 指 向 特定 文件 系统 〈 指 文件 格式 ) 的 
dentry operations 结构 。 也 许可 以 说 ，dentry 结构 是 文件 系统 的 核心 数据 结构 ， 也 是 文件 访问 和 为 文件 
访问 而 做 的 文件 路 径 搜 索 操作 的 枢纽 。 

下 面 是 一 个 简要 的 总 结 : 


每 个 dentry Zi FJ 38:33 DA FUSE d. hash 链 入 杂凑 表 dentry_hashtable 中 的 某 个 队列 里 。 

共享 计数 为 0 的 dentry 结构 都 通过 队列 头 d_lm $A LRU 队列 dentry_unused， 在 队列 中 等 待 
释放 或 者 “东山 再 起 ”。 

每 个 dentry 结构 都 通过 指针 d_inode 指向 一 个 inode 数据 结构 。 但 是 多 个 dentry 结构 可 以 指向 
同一 个 inode 数据 结构 。 

指向 同一 个 inode 数据 结构 的 dentry 结构 者 通过 队列 头 d. alias 链接 在 一 起 ， 都 在 该 inode 结 
构 的 i_dentry 队列 中 。 

每 个 dentry 结构 都 通过 指针 d. parent 指向 其 父 目 录 节 点 的 dentry 结构 ， 并 通过 队列 头 d_child 
跟 同 一 目录 中 的 其 他 节点 的 dentry 结构 链接 在 一 起 ， 都 在 父 目 录 节 点 的 d_subdirs 队列 中 。 
每 个 dentry 结构 都 通过 指针 d. sb 指向 一 个 super_block 数据 结构 。 

每 个 dentry 结构 都 通过 指针 d. op 指向 一 个 dentry_operations 数据 结构 。 

每 个 dentry 结构 都 有 个 队列 头 d_vfsmnt， 用 于 文件 系统 的 安装 ， 详 抑 “ 文 件 系统 的 安装 和 拆 
Hl”, 


接 下 去 我 们 看 cached_lookup( ) 的 代码 (namei.c) : 


[path_walk( ) > cashed_lookup( )] 


243 
244 
245 
246 
247 


248 
249 
250 
251 
202 


253 
254 
255 
256 
251 
258 


/* 
* Internal lookup( ) using the new generic dcache. 
* SMP-safe 
*/ 
static struct dentry * cached lookup (struct dentry * parent, 
struct qstr * name, int flags) 
{ 


struct dentry * dentry = d lookup(parent, name); 


if (dentry && dentry-^d op && dentry->d_op->d_revalidate) | 
if (!dentry-^d op d revalidate(dentry, flags) && 
!d invalidate(dentry)) | 
dput (dentry) ; 
dentry = NULL; 
} 
} 
return dentry; 


} 


这 里 主要 是 通过 d_lookup( )， 在 杂凑 表 趾 寻找， 其 代码 在 fs/dcache.c P: 
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[path walk( ) > cashed lookup( ) > d lookup( )] 


103 /六 

704 * d lookup - search for a dentry 

705 * @parent: parent dentry 

706 * @name: qstr of name we wish to find 

107 * 

708 * Searches the children of the parent dentry for the name in question. If 
709 * the dentry is found its reference count is incremented and the dentry 
710 * is returned. The caller must use d_put to free the entry when it has 
711 * finished using it. %NULL is returned on failure. 

712 */ 

713 


714 struct dentry * d lookup(struct dentry * parent, struct qstr * name) 
715 { 


716 unsigned int len = name—len; 

717 unsigned int hash = name->hash; 

718 const unsigned char *str = name-^namo; 

719 struct list head *head = d hash(parent, hash) ; 

720 struct list head *tmp; 

721 

722 spin lock(&dcache lock); 

123 imp = head—next; 

724 for (;;) { 

725 struct dentry * dentry = list_entry (tmp, struct dentry, d hash); 
726 if (tmp == head) 

727 break; 

728 tmp = tmp->next; 

729 if (dentry->d_name. hash != hash) 

730 continue; 

731 if (dentry->d_parent != parent) 

732 continue; 

733 if (parent—>d op && parent-^d op-^d compare) { 
134 if (parent-^»d op-^d compare(parent, &dentry-»d name, name)) 
135 continue; 

736 ) else { 

737 if (dentry->d_name. len != len) 

738 continue; 

739 if (memcmp(dentry->d_name. name, str, len)) 
740 continue; 

741 } 

742 . dget iocked(dentry) ; 

143 dentry-^d flags |= DCACHE REFERENCED; 

744 spin unlock(&dcache lock); 

145 return dentry; 

746 } 

747 spin_unlock (&dcache_lock) ; 

748 return NULL; 
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749  ] 
参数 parent 指向 上 一 层 节 点 的 dentry 结构 ， 而 name 指 间 刚才 在 path. walk 中 建立 的 qstr 结构 。 首 
先是 要 根据 节点 名 的 杂凑 值 从 杂凑 表 中 找到 相应 的 队列 指针 ， 本 来 ， 以 已 经 计算 好 的 杂 凌 值 作 为 下 标 
从 list head 指针 数组 dentry_hashtable 中 找到 相应 的 表 项 是 再 简单 不 过 的 ， 可 是 这 里 (719 行 ) 还 要 通过 
一 个 函数 d_hash( ) 来 做 这 件 事 ， 让 我 们 来 看 看 为 什么 : 


[path_walk( ) > cashed_lookup( ) > d lookup( ) > d hash( )] 


696 static inline struct list head * d hash(struct dentry * parent, 
unsigned long hash) 

697 | 

698 hash += (unsigned long) parent / L1 CACHE BYTES; 

699 hash = hash ^ (hash >> D HASHBITS) ^ (hash >> D HASHBITS*2) ; 

700 return dentry hashtable + (hash & D HASHMASK) ; 

701} 


WEH. FEAR D dV SE mess mh LI ET RAR, FESTA) dentry 结构 
的 地 址 也 结合 进 林 凑 值 中 。 这 无 疑 是 很 巧妙 的 做 法 。 试 想 一 下 学 校 的 计算 机 实验 室 ， 那 里 的 系统 可 能 
为 |: 百 个 学 后 分 六 在 /home 下 面 建 立 了 子 日 录 ， 而 每 个 学 生 的 子 日 录 下 可 能 部 有 子 日 杂 “project1”。 如 
果 光 是 对 节点 名 “project1” 杂 读 ， 则 势必 至 少 有 上 百 个 dentry 结构 都 挂 在 同 - “队列 中 而 党 要 线性 搜索 。 
即使 把 父 节点 名 也 一 起 杂 兰 偿 是 解决 不 了 问题 ， 因 为 每 个 学 竺 部 可 能 会 有 例如 “projectl/src”， 所 有 此 
类 路 径 中 的 “src” 节 点 又 会 在 同一 个 队 侯 中 ， 对 全 路 径 名 进行 杂 凌 当然 可 以 解决 河 题 ， 但 是 堵 样 代价 
MAB ST. 

找到 了 相应 的 队列 头 部 以 后 ，d_lookup( ) 中 的 for JF Ae fa BL. HE RAZA ARC AAS 
可 能 通过 其 dentry_operations 结构 提供 白 己 的 节点 名 比 对 函数 (比方 说 , 有 些 文件 系统 可 能 在 比 对 时 跳 
过 所 有 的 空 属 )， 没 有 的 诈 就 用 普通 的 memcmp( )。 

FJ!) cached_lookup( ) 的 代码 中 ， 具 体 的 文件 系统 可 能 通过 其 dentry_operations 结构 提供 一 个 对 找 
到 的 dentry 结构 进行 验证 《和 处 理 ) 的 函数 ， 如 果 验 证 失败 就 此 通过 d_invalidate( ) 将 这 个 数据 结构 从 
杂凑 队 人 多 中 脱 链 ， 这 种 安排 对 有 些 文件 系统 是 必 此 的 ， 例 如 在 “网 络 文件 系统 ”NEFS 中 ， 如 朵 … 个 远 
程 的 进程 是 其 惟 的 几 户 ， 又 有 很 长 时 间 没 有 访问 这 个 结构 了 ， 那 束 应 该 将 其 视 作 无 黎 ， 而 根据 磁盘 
上 的 父 日 录 内 容 来 重新 构造 。 具 体 的 函数 由 该 文件 系统 的 dentry_operations 结构 中 通过 函数 指针 
d_revalidate 提供 ， 最 后 则 根据 验证 的 结果 返回 -- 个 dentry 指针 或 出 错 代码 。 不 过 ， 有 的 文件 系统 根本 
就 不 提供 dentry_operations 数据 结构 ， 所 以 其 dentry 结构 中 的 d. op 是 0， 表示 按 Linux 默认 的 方式 处 
理 各 项 目下 项 操作 。 事 实 上，Ext2 就 不 提供 其 白山 的 dentry_operations 结构 ， 因 为 Linux SAI); AR 
是 Ext2。 进 一 步 ， 即 使 某 个 文件 系统 提供 了 日 己 的 dentry_operations 数据 结构 ， 也 并 不 一 定 提供 自己 
的 d revalidate 操作 。 所 以 ， 代 码 中 要 先 对 这 两 个 指针 加 以 检验 。 由 于 Ext2 并 不 提供 共 白 己 的 
dentry operations £5 EJ, RIRE CIT . 

ZJE, cached lookup() 就 完成 了 。 

如 果 所 需 的 dentry 结构 不 在 杂凑 表 队 列 中 或 者 已 经 无 效 ， 则 返回 NULL. BBE, tdi Zit 
real lookup ) 从 父 日 录 人 在 磁盘 上 上 的 内 容 中 找到 本 节点 的 月 录 项 , 再 根据 其 内 容 在 内 存 中 为 之 建立 起 个 
dentry 结构 《 见 path. walk( ) 的 497 行 )。 下 面 就 是 real. lookup( ) 的 代码 〈 见 namei.c) : 
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[path_walk( ) > real lookup( )] 


260 /* 

261 * This is called when everything else fails, and we actually have 

262 * to go to the low-level filesystem to find out what we should do.. 

263 * 

264 * We get the directory semaphore, and after getting that we also 

265 * make sure that nobody added the entry to the dcache in the meantime. . 

266 * SMP-safe 

267 */ 

268 static struct dentry * real lookup (struct dentry * parent, 
struct qstr * name, int flags) 

269 { 

270 struct dentry * result; 

271 struct inode *dir = parent—>d_inode; 

272 

273 down (&dir->i_sem) ; 

274 /* 

275 * First re-do the cached lookup just in case it was created 

276 * while we waited for the directory semaphore.. 

277 * 

278 * FIXME! This could use version numbering or similar to 

279 * avoid unnecessary cache lookups. 

280 */ 

281 result - d lookup(parent, name); 

282 if (Iresult) { 

283 struct dentry * dentry - d alloc(parent, name); 

284 result = ERR PTR(-ENOMEM) ; 

285 if (dentry) { 

286 lock kernel( ); 

287 result = diri op-^lookup(dir, dentry); 

288 unlock kernel( ); 

289 if (result) 

290 dput (dentry) ; 

291 else 

292 result = dentry; 

293 } 

294 up(&dir-^i sem); 

295 return result; 

296 } 

297 

298 /* 

299 * Uhhuh! Nasty case: the cache was re-populated while 

300 * we waited on the semaphore. Need to revalidate. 

301 */ 

302 up(&dir-^i sem); 

303 if (result-^»d op && result-^d op-^d revalidate) | 


304 if (!result~>d_op—>d_revalidate (result, flags) && 


445 . 


Linux 内 核 源 代码 情景 分 析 (“上册 》 


1d_invalidate (result)) { 


305 dput (result) ; 

306 result = ERR PTR(-ENOENT) ; 
307 } 

308 } 

309 return result; 

310 ] 


建立 dentry 结构 的 过 程 不 容许 受到 其 他 进程 的 和 干扰， 所 以 必须 通过 信和 号 量 放 在 临界 区 中 进行 。 但 
是 ,在 通过 down ) 进 入 临界 区 时 林 能 会 经 历 一 段 睡眠 等 待 的 时 间 ， 而 其 他 进 称 有 可 能 已 经 在 这 段 时间 
中 把 所 需 的 dentry 结构 建立 好 , 再 建立 个 就 重复 了 。 所 以 ,在 进入 临界 区 以 后 , 还 要 表 通 过 d. lookup) 
确认 一 下 所 需 的 dentry 结构 确实 不 在 杂凑 表 队 列 中 。 读 者 在 前 而 几 章 中 也 看 到 过 类 似 的 情况 ， 总 的 来 
说 ， 这 是 一 种 规范 性 的 处 理 方式 。 万 ， 真 的 发 生 了 这 种 情况 ， 那 就 根据 具体 文件 系统 的 要 求 而 《可 能 ) 
调用 一 个 函数 进行 -一 些 验 证 和 处 理 (与 cached_lookup( ) 中 相似 )。 当然, 发 生 这 种 情况 的 概率 是 很 低 的 ， 
在 多 数 情况 下 部 需要 建立 dentry 结构 。 

要 建立 起 -个 dentry 结构 ， 首 先 当然 要 为 之 分 配 空间 并 初始 化 , 这 是 由 283 行 的 d_alloc( ) 完 成 的 ， 
其 代码 在 deache.c H: 


[path_walk( ) > real lookup( ) > d_alloc( )] 


589 fk 

590 * d alloc - allocate a dcache entry 

591 * @parent: parent of entry to allocate 

592 * @name: qstr of the name 

593 * 

594 * Allocates a dentry. It returns %NULL if there is insufficient memory 
595 * available. On a success the dentry is returned. The name passed in is 
596 * copied and the copy passed in may be reused after this call. 

597 */ 

598 

599 struct dentry * d alloc(struct deniry * parent, const struct qstr *name) 
600 { 

601 char * str; 

602 struct dentry *dentry; 

603 

604 dentry = kmem cache alloc(dentry, cache, GFP. KERNEL) ; 

605 if (!dentry) 

606 return NULL; 

607 

608 if (name->len > DNAME INLINE LEN-1) { 

609 str = kmalloc(NAME ALLOC LEN(name-»len), GFP KERNEL); 

610 if (lstr) { 

611 kmem cache free(dentry cache, dentry); 

612 return NULL; 

613 } 

614 | else 


- 446 . 


第 5 章 文件 系统 


615 Str = dentry—>d_iname; 

616 

617 memcpy (str, name-^name, name—>len) : 
618 str{name->len] = 0; 

619 

620 atomic_set (&dentry—>d_count, 1); 
621 dentry-?d flags = 0; 

622 dentry-»d inode = NULL; 

623 dentry-^d parent = NULL; 

624 dentry-»d sb = NULL; 

625 dentry~>d_name. name = str; 

626 dentry-^d name. len = name->Len; 

627 dentry—>d_name, hash = name—>hash; 
628 dentry->d op = NULL; 

629 dentry—>d_fsdata = NULL; 

630 INIT_LIST_HEAD (&dentry->d_vfsmnt) ， 
631 INIT LIST HEAD(&dentry-^d hash); 
632 INIT LIST HEAD(&dentry— d lru); 

633 INIT LIST HEAD(&dentry-^d subdirs); 
634 INIT LIST HEAD(&dentry-^d alias); 
635 if (parent) { 

636 dentry~>d_parent = dget (parent) ; 
637 dentry->d_sb = parent-^d sb; 
638 spin_lock (&dcache_lock) ; 

639 list_add(&dentry~>d_child, &parent->d_subdirs) ; 
640 spin unlock(&dcache lock); 

641 } else 

642 INIT LIST HEAD(&dentry-»d child); 
643 

644 dentry stat.nr dentry*t*; 

645 return dentry; 

646  ) 


从 这 段 程序 中 我 们 可 以 看 到 ，dentry 数据 结构 是 通过 kmem_alloc( ) 从 为 这 种 数据 结构 专 设 的 slab 
队列 中 分 配 的 。 当 节 点 名 较 短 时 ，dentry 结构 中 有 个 字符 数组 d_iname 用 来 保存 节点 名 ， 厅 然 就 要 另行 
为 之 分 配 空间 。 不 管 怎样 ，dentry 结构 中 的 d_name.name 总 是 指向 这 个 字符 串 。 此 外 ，dentry 结构 中 指 
向 超级 块 结构 的 指针 d sb 是 从 其 父 节 点 (目录 ) 继承 下 来 的 。 每 当 建立 了 -个 dentry 结构 时 ， 就 要 将 
其 父 节 点 〈“/” 除 外 ， 它 没有 父 节点 ) 的 共享 计数 通过 dget( ) 递 增 ， 所 以 这 个 新 建 的 dentry 结构 就 成 了 
其 父 节 点 的 dentry 结构 的 一 个 “用 户 ” JP BBE ASOT d_subdirs 队列 中 。 注意 父 节 点 的 d_subdirs 
队列 中 只 包含 在 内 存 中 建 有 dentry 结构 的 目录 项 。 

回 到 real_lookup( ) 的 代码 中 。 分 配 了 空间 以 后 ， 就 要 从 磁盘 上 由 父 节点 代表 的 那个 目录 中 寻找 当 
前 节点 的 日 录 项 并 设置 结构 中 的 其 他 信息 。 如 果 寻 找 失败 ， 就 通过 dput( ) 撤 销 已 经 分 配 空间 的 dentry 
结构 。 如 果 成 功 ， 就 通过 函数 real_lookup( ) 的 295 行 的 return 语句 返回 指向 该 dentry 结构 的 指针 。 

从 磁盘 上 寻找 的 过 程 因 文件 系统 而 异 ， 所 以 要 通过 父 节点 inode 结构 中 的 指针 i op 找到 相应 的 
inode_operations 数据 结构 。 对 于 代表 着 目录 的 inode 和 代表 着 文件 的 inode， 其 inode_operatians 结构 常 
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常 是 不 同 的 。 就 Ext? 而 言 ， 对 于 日 录 节 点 的 函数 跳 转 结构 为 ext2_dir_inode_operations ， 定 义 见 


fs/ext2/namei.c : 


811 /* 

812 * directories can handle most operations... 
813 */ 

814 struct inode operations ext2 dir inode operations = { 
815 create: ext2 create, 

816 lookup: ext2 lookup, 

817 link: ext2 link, 

818 unlink: ext2 unlink, 

819 symlink: ext2 symlink, 

820 mkdir: ext2 mkdir, 

821 rmdir: ext2 rmdir, 

822 mknod: ext2 mknod, 

823 rename: ext2_rename, 

824 y; 


可 见 ， 具 体 的 函数 为 ext2_lookup()， 其 代码 在 同一 文件 (fs/ext2/namei.c) 中 : 


[path, walk( ) > real lookup( ) > ext2 lookup( )] 


163 static struct dentry *ext2_lookup(struct inode * dir, struct dentry *dentry) 


164 f 

165 struct inode * inode; 

166 siruct ext2 dir entry 2 * de; 

167 struct buffer head * bh; 

168 

169 if (dentry->d_name. len > EXT2 NAME LEN) 
170 return ERR PTR(-ENAMETOOLONG) ; 

171 

172 bh = ext2 find entry (dir, dentry—>d_name. name, dentry->d_name. len, &de) ; 
173 inode - NULL; 

174 if (bh) { 

175 unsigned long ino = 1e32_to_cpu(de->inode) ; 
176 brelse (bh); 

177 inode = iget(dir->i_sb, ino); 

178 

179 if (!inode) 

180 return ERR PTR(-EACCES) ; 

181 } 

182 d add(dentry, inode); 

183 return NULL; 

18A  ] 


这 里 先 出 ext2_find_entry( ARA EIREJA IA 1 EXE BSR, PA eit iget( ARIE IT zs 
号 从 磁盘 读 入 相应 索引 节点 并 在 内 存 中 建立 起 相对 的 inode 结构 , 最 后 , 由 d. add 完成 dentry 结构 的 设 
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将 其 挂 入 杂凑 表 中 的 某 个 队列 。 
phi 3% ext2. find, entry( ) 的 代码 也 在 fs/exi2/namei.c F; 


[path walk( ) > real lookup( ) > ext2_lookup( ) > ext2 find entry( )] 


52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
72 
73 
74 
75 
76 
TT 
78 
79 
80 
81 
82 
83 
84 
85 
86 
87 
88 
89 
90 
91 
92 
93 


/* 
* ext2 find entry( ) 
* 
* finds an entry in the specified directory with the wanted name. It 
* returns the cache buffer in which the entry was found, and the entry 
* itself (as a parameter - res dir). It does NOT read the inode of the 
* entry - you’ ll have to do that yourself if you want to. 
*/ 
static struct buffer head * ext2 find entry (struct inode * dir, 
const char * const name, int namelen, 
struct ext2 dir entry 2 ** res dir) 


struct super block * sb; 

struct buffer head * bh use[NAMET RA SIZE]; 
struct buffer head * bh read[NAMEI RA SIZE]; 
unsigned long offset; 

int block, toread, i, err; 


*res dir = NULL; 
sb = diri sb; 


if (namelen > EXT2 NAME LEN) 
return NULL; 


memset (bh use, 0, sizeof (bh use)); 

toread = 0; 

for (block = 0; block < NAMEI RA SIZE; ++block) { 
struct buffer head * bh; 


if ((block << EXT2 BLOCK SIZE BITS (sb)) >= diri size) 
break; 

bh - ext2 getblk (dir, block, 0, &err); 

bh use[block] = bh; 

if (bh && !buffer uptodate (bh)) 
bh read[toread-4] = bh; 


for (block = 0, offset = 0; offset < dir->i size; block++) { 
struct buffer head * bh; 
struct ext2 dir entry 2 * de; 
char * dlimit; 
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94 if ((block % NAMEI RA BLOCKS) == 0 && toread) { 
95 1l rw block (READ, toread, bh read); 

96 toread = 0; 

97 } 

98 bh = bh use[biock % NAMEI_RA SIZE]; 

99 if (!bh) { 

100 #if 0 

101 ext2 error (sb, “ext2 find entry”, 

102 "directory #%lu contains a hole at offset %lu’, 
103 dir-^i ino, offset); 

104 ttendif 

105 offset += sb->s_blocksize: 

106 continue; 

107 } 

108 wait on buffer (bh); 

109 if (Ibuffer uptodate(bh)) { 

110 /* 

111 * read error: all bets are off 

112 */ 

113 break; 

114 } 

115 

116 de = (struct ext2 dir entry 2 *) bh->b data; 
117 dlimit = bh-5b data + sb->s_blocksize; 

118 while ((char *) de < dlimit) { 

119 /* this code is executed quadratically often */ 
120 /* do minimal checking by hand' */ 

121 int de len; 

122 

123 if ((char *) de + namelen <= dlimit && 

124 ext2 match (namelen, name, de)) { 

125 /* found a match - 

126 just to be sure, do a full check */ 
127 if (lext2 check dir entry( ext2 find entry, 
128 dir, de, bh, offset)) 
129 goto failure; 

130 for (i = 0; i < NAMEI RA SIZE; ++i) { 
131 if (bh use[i] != bh) 

132 brelse (bh use[ib:; 

133 } 

134 *res dir = de; 

135 return bh; 

136 ) 

137 /* prevent looping on a bad block */ 

138 de len = lel6 to cpu(de-^rec len); 

139 if (de len <= 0) 

140 goto failure; 

141 offset += de len; 
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142 de = (struct ext2 dir entry 2 Xx) 

143 ((char *) de * de len); 

144 } 

145 

146 brelse (bh); 

147 if (((block + NAMEL RA SIZE) << EXT2 BLOCK SIZE BITS (sb)) >= 
148 dir-^i size) 

149 bh = NULL; 

150 else 

151 bh = ext2 getblk (dir, block + NAMET RA SIZE, 0, &err); 
152 bh use[block % NAMEI RA SIZE] = bh; 

153 if (bh && !buffer uptodate (bh)) 

154 bh_read[toread++] = bh; 

155 } 

156 

157 failure: 

158 for (i = 0; i < NAMEI RA SIZE; ++i) 

159 brelse (bh use[i]); 

160 return NULL; 

161  ] 


这 段 程 序 涉及 文件 的 读 操 作 ， 读 者 可 以 在 学 习 了 “文件 的 读 写 ” 一 节 以 及 本 书 下 县 “ 设 备 驱 动 ” 
一 章 后 再 叫 过 来 仔细 阅读， 这 里 只 作 一 些 必 要 的 说 明 。 目 录 其 实 只 是 一 种 特殊 格式 的 文件 ， 就 Ext2 X 
件 系统 而 言 ， 日 录 文 件 的 内 容 在 概念 上 就 是 一 个 ext2_dir_entry_2 结构 数组 〈 见 前 节 )， 其 目的 仅 在 于 
根据 节点 名 《最 长 可 达 255 个 字符 ) 得 到 相应 的 索引 节点 号 ， 所 以 从 逻辑 的 角度 讲 是 很 简单 的 。 为 什 
么 只 是 说 “概念 上 ”是 ext2_dir_entry_2 结构 数组 呢 ? 因为 实际 上 不 是 。 前 一 节 中 讲 过 , ext2_dir_entry_2 
结构 的 长 虔 是 不 辐 定 的 〈 节 点 名 可 长 达 25$,， 但 通常 只 是 几 个 字符 ， 而 一 个 文件 系统 中 也 许 有 数 万 个 日 
录 项 )， 结 构 中 有 个 字段 reclen 指明 本 结构 的 长 度 。 既 然 不 是 固定 长 度 的 ， 就 不 能 像 真正 的 数组 那样 
通过 下 标 来 计算 出 具体 元 素 的 位 置 ， 和 而 只 好 采用 线性 搜索 的 办 法 〈 这 是 一 个 “以 时 间 换 空间 ”的 例 了 )。 
不 过 ， 为 了 避免 因 日 录 项 跨 磁 稚 记录 块 而 造成 处 理 上 的 不 便 ，Ext2 文件 系统 在 为 目录 项 分 配 磁盘 空间 
时 不 让 跨 记 录 块 。 如 果 一 个 记录 块 中 剩 下 的 空间 已 经 不 够 就 另 起 个 记录 块 。 

不 同 的 处 理 器 在 存 取 数 据 时 在 字 节 的 排列 次 序 上 有 所 谓 “big ending” 和 “little ending” 之 分 。 例 
如 ，i386 Wize “little ending” 的 处 理 器 ， 它 在 存储 一 个 16 位 数据 0x1234 时 实际 存储 的 却 是 0x3412， 
对 于 32 位 数据 也 与 此 类 似 。 这 里 的 索引 节点 号 与 记录 长 度 都 作为 32 位 或 16 ACA SR ik E 
上 -的 ,而 同一 磁 稚 既 可 以 安装 在 采用 “little ending "方式 的 CPU 的 机 器 上 ,也 可 能 安装 在 采用 “big ending” 
方式 的 CPU 的 机 器 上 ， 所 以 要 选择 一 种 形式 作为 标准 。 事 实 上 ，Ext2 采用 的 标准 是 “little ending”, 
所 以 在 使 用 人 存储 在 伏 稚 上 大 二 8 位 的 整数 时 此 先 通过 le32_to_cpu( ) ~ le16_to_cpu( ) 等 函数 将 这 些 数据 
M “little ending” 形 式 转换 成 具体 CPU 所 采用 的 形式 。 当 然 ， 人 在 i386 处 理 器 上 访问 Ext2 文件 系统 时 
这 些 函 数 实际 上 不 作 任 何 转 换 。 

由 于 伐 盘 的 物理 特性， 从 磁盘 读 一 个 记录 块 震 要 一 定 的 时 间 ， 而 这 些 时 间 主 要 消耗 在 准备 工作 上 。 
一 日 准备 好 了 ， 读 一 个 记录 块 与 读 几 个 记录 块 所 震 时 间 其 实 相差 不 大 。 所 以 比较 好 的 办 法 是 既然 读 了 
LE di “FH” (Read Ahead) 一 些 记录 块 ， 因 为 紧 接 着 的 这 些 记 录 块 很 可 能 马上 就 要 用 到 。 另 一 方面 ， 
从 磁盘 读 记录 块 的 操作 一 经 启动 便 由 磁盘 自行 完成 ， 而 无 需 CPU 介入 。 所 以 ， 从 读 的 第 … 批 记录 块 到 
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位 以 后 ，CPU 对 记录 块 的 处 理 就 可 以 跟 后 续 记 录 块 的 读 入 相 平行 ， 从 而 形成 流水 操作 。 那么 往 前 多 少 
块 比较 合适 呢 ? 那 要 看 具体 情况 了 ， 对 十 从 磁 横 读 入 目录 内 容 这 个 特定 的 目的 ， 代 但 中 定义 了 几 个 常 
数 ( 见 文件 ext2/namei.c): 


28 /* 
29 * define how far ahead to read directories while searching them. 
30 */ 


31 Hdefine NAMEI RA CHUNKS 2 

32 #define NAMEI RA BLOCKS 4 

33 #define NAMEI RA SIZE (NAMEI RA CHUNKS * NAMEI RA BLOCKS) 
34  #define NAMEI RA INDEX(c, b) (((c) * NAMEI RA BLOCKS) + (b)) 


所 以 ， 预 读 的 提前 景 为 8 个 记录 块 ， 也 就 是 说 ， 估 计 在 读 入 一 个 记录 块 所 需 的 时 间 内 CPU 可 以 处 
H 8 个 记录 块 。 

对 十 从 磁 柑 读 入 的 记录 块 部 要 在 前 面 加 上 -个头 部 ， 即 buffer head 数据 结构 以 便 管理 。 山 于 从 磁 
盘 读 入 一 个 记录 块 的 代价 不 小 ， 对 已 经 读 入 的 记录 块 者 不 是 用 了 即 护 的 ， 而 是 要 华 内 存 中 加 以 缓冲 存 
储 。 所 以 ， 有 时 候 并 不 需要 真 的 到 磁盘 上 去 读 。 但 是 ， 这 样 -- 来 有 时 候 缓冲 存储 着 的 记录 块 与 磁盘 上 
的 记录 块 就 可 能 不 XT. 

代码 中 为 记录 块 设置 了 屿 个 指针 数组 ， 一 个 是 bh_use[ ]， 另 :个 起 bh_read[ ]， 大 小 都 是 
NAMEI_ RA_SIZE， 即 8。 首先 通过 一 个 for 循 坏 ， 调 用 ext2_getblk( ) 从 缓冲 着 的 记录 块 中 找到 给 定 月 
录 文 件 的 开头 8 个 逻辑 记录 块 ， 或 者 就 为 之 分 配 缓冲 区 ， 并 将 它们 的 buffer head 结构 指针 写 入 数组 
bh_use[ ]， 将 bh_use| ] 填 满 。 这 就 是 要 搜索 的 第 一 批 次 。 当 然 ， 如 果 这 个 目录 文件 的 大 小 偿 不 够 8 个 记 
XH O78 行 ) 那 又 另 作 别 论 〈 注 意 ， 参 数 dir 指向 其 inode 结构 ， 而 不 是 dentry 结构 )。 在 这 8 个 记 
录 块 中 ， 如 果 有 的 已 经 与 磁 稚 上 不 一 致 《 见 85 行 )， 则 要 在 另 -一 个 数组 bh_read[ | Pics FORK, Xd 
真正 要 从 磁盘 上 读 的 。 至 于 新 分 配 的 缓冲 区 ， 那 当然 与 磁盘 上 不 一 致 。 

接着 是 对 日 录 文 件 中 所 有 记录 块 的 for 循环 , 对 目标 节点 的 搜索 就 是 扫描 所 有 记录 块 中 的 所 有 目 承 
项 。 循 环 从 block 0 开始 ， 每 隔 NAMEIL RA. BLOCKS 个 就 启动 一 次 读 人 磁 杏 操作 如果 需 要 的 话 )}， 每 
次 最 多 读 8 块 ， 而 数组 bh_read[ ] 则 给 出 所 需 记 录 块 的 “名 单 ”。 第 一 次 把 8 个 缓冲 区 填 满 以 后 ， 冉 往 
后 的 从 磁盘 读 入 与 CPU 的 处 理 就 可 以 形成 一 种 流水 线 式 的 操作 了 。 由 丁 从 磁盘 读 入 是 异步 的 ，CPU 在 
每 处 理 … 个 记录 块 之 前 都 要 通 过 wait on buffer( EF ARRA. (HEALS CR wy A 
达到 基本 上 :不 需要 什么 等 待 的 程度 。 

至 于 在 记录 块 中 搜索 的 过 程 ， 那 就 很 简单 了 《 见 116~144 17). B Ext2 的 目录 项 是 可 变 大 小 的 ， 
但 是 却 不 会 跨 记 录 块 存储 ， 所 以 每 个 记录 上 块 的 开始 必然 也 是 一 :个 日 录 项 的 开始 ( 见 116 行 )， 而 一 个 记 
采 块 内 有 几 个 目录 项 那 就 不 一 定 了 。 在 找到 了 所 需 的 目录 项 以 后 ， 要 将 其 他 的 记录 块 缓冲 区 释放 ， 只 
留 下 该 目录 项 所 在 的 那个 记录 块 ( 见 130—133 行 )。 最 后 返回 目录 项 所 在 的 记录 块 , 并 通过 参数 res. dir 
返回 目录 项 指针 。 

回 到 ext2_lookup( ) 的 代码 中 ， 下 一 步 是 根据 但 得 的 索引 节点 号 通过 ige ) 拷 到 或 建立 起 所 需 的 
inode 4443, XX LAY iget( ) 是 个 inline 函数， 定义 于 indude/linux/fs.h: 





[path_walk( ) > real lookup( ) > ext2 lookup( ) > iget( )] 
1185 static inline struct inode *iget (struct super block *sb, unsigned long ino) 
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1186 { 
1187 return iget4(sb, ino, NULL, NULL); 
1188  ] 


函数 iget4( ) 的 代码 在 fs/inode.c 中 : 
[path_walk( ) > real lookup( ) > ext2_lookup( ) > iget( ) > iget4( )] 


774 struct inode *iget4(struct super_block *sb, unsigned long ino, 
find_inode_t find_actor, void *opaque) 


T5. { 

776 struct list head * head = inode hashtable + hash (sb, ino); 
777 struct inode * inode; 

778 

779 spin lock(&inode lock); 

780 inode - find inode(sb, ino, head, find actor, opaque); 
781 if (inode) { 

782 __iget(inode); 

783 spin unlock(&inode lock); 

784 wait_on_inode (inode) ; 

785 return inode; 

786 } 

787 spin_unlock (&inode_lock) ; 

788 

789 /* 

190 * get new inode( ) will do the right thing, re-trying the search 
791 * in case it had to block at any point. 

192 */ 

793 return get new inode(sb, ino, head, find actor, opaque) ; 
794 } 


同样 , 目标 节点 的 inode 结构 也 可 能 已 经 在 内 存 中 , 也 可 能 需要 从 磁盘 上 读 入 其 索引 节点 后 在 内 存 
中 创建 。 就 像 dentry 结构 有 个 杂凑 表 dentry_hashtable 一 样 ，inode 结构 也 有 个 杂 凌 表 inode_hashtable， 
已 经 建立 的 inode 结构 都 通过 结构 中 的 i_hash (也 是 一 个 list_head) 挂 在 该 洒 凌 表 的 某 一 个 队列 中 ， 所 
以 首先 要 通过 find. inode( ) 在 杂凑 表 队 列 中 寻找 。 找 到 后 就 通过 iget( ) 递 增 其 共享 计数 。 由 于 索引 节点 
号 只 在 同一 设备 上 才 是 惟 的， 在 杂凑 计算 时 要 把 所 在 设备 的 super_block 结构 的 地 址 也 结合 进去 。 

要 是 杂凑 表 的 队列 中 找 不 到 所 需 的 inode 结构 ， 那 就 要 通过 get_new_inode( ) 从 侯 得 上 读 入 相应 的 
索引 节点 并 建立 起 一 个 inode 结构 ， 其 代 妈 在 fs/inode.c d: 


[path. walk( ) > real. lookup( ) > ext2_lookup( ) > iget( ) > get_new_inode( )] 


649 /* 

650 * This is called without the inode lock held.. Be careful. 
651 * 

652 * We no longer cache the sb flags in i flags - see fs.h 
653 * —- ymk@arm. uk. linux. org 
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654 
655 


656 
657 
658 
659 
660 
661 
662 
663 
664 
665 
666 
667 
668 
669 
670 
671 
672 
673 
674 
675 
676 
671 
678 
679 
680 
681 
682 
683 
684 
685 
686 
687 
688 
689 
690 
691 
692 
693 
694 
695 
696 
697 
698 
699 
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static struct inode * get new inode(struct super block *sb, 


unsigned long ino, struct list head *head, 
find inode t find actor, void *opaque) 


struct inode * inode; 


inode = alloc_inode( ) ; 
if (inode) { 
struct inode * old; 


spin lock(&inode lock); 

/* We released the lock, so.. */ 

old - find inode(sb, ino, head, find actor, opaque); 
if (old) { 


} 


/* 

* Uhhuh, somebody else created the same inode under 
* us. Use the old inode instead of the one we just 
* allocated 


inodes stat.nr inodes*t*; 

list add(&inode-^i list, &inode in use); 
list add(&inode-^i hash, head); 
inode-^i sb = sb; 

inode->i dev = sb-5s dev; 

inode-^i ino = ino; 

inode-^i flags = 0; 

atomic set(&inode-^i count, 1); 

inode-^i state = I LOCK; 

spin unlock(&inode lock); 


clean_inode (inode) ; 
sb->s_op—>read_inode (inode) ; 


/* 

This is special! We do not need the spinlock 
when clearing I LOCK, because we're guaranteed 
that nobody else tries to do anything about the 
state of the inode when it is locked, as we 
just created it (so there can be no old holders 
that haven' t tested I_LOCK). 


X 0 X X ox* X X 


*/ 
inode— i state &- ^I LOCK; 
wake up(&inode-^i wait); 


return inode; 
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700 . iget(old); 

701 spin unlock(&inode lock); 
702 destroy inode(inode); 

703 inode = old; 

704 wait_on_inode (inode) ; 

705 } 

706 return inode; 

707 ] 


这 个 函数 的 代码 与 前 面 dentry 结构 的 分 配 和 建立 很 相似 ， 至 于 从 磁盘 读 入 索引 节点 的 过 程 则 取决 
于 具体 的 文件 系统 。 有 的 文件 系统 在 磁盘 上 可 能 并 不 存在 “索引 节点 ”这 么 一 种 东西 ， 但 是 在 概念 上 
必 有 相通 之 处 。 所 以 ， 对 有 的 文件 系统 来 说 是 “ 读 入 ”索引 节点 ， 而 对 有 的 文件 系统 则 是 将 磁盘 | 的 
有 关 信 息 变 换 成 -个 索引 节点 。 其 实 ， 所 谓 超级 块 、 上 自 录 项 也 莫不 如 此 。 注 意 代 码 中 对 新 创建 inode 
结构 中 i_dev 等 字段 的 设置 。 以 前 讲 过 ，inode 结构 中 的 i_dev 表示 这 个 结构 所 代表 的 文件 所 在 的 设备 ， 
这 里 可 以 看 到 它 的 值 来 自 所 在 设备 的 super_block 数据 结构 ， 是 在 从 设备 上 读 入 索引 节点 之 前 就 设置 好 
Tih. GA, RITAS ino 仅 在 同一 设备 上 才 古 惟一 的 ， 所 以 要 与 设备 号 〈 或 super block 结构 ) 合 
在 起 才能 在 全 系统 范围 中 惟一 地 确定 一 个 索引 节点 及 其 inode 结构 。 这 也 是 为 什么 find_inode( ME 
数 表 中 包括 了 sb 和 ino 的 原因 。 

对 于 索引 节点 的 读 入 ,具体 的 函数 是 通过 函数 跳 转 表 super. operations 结构 中 的 函数 指针 read_inode 
PARI. RSE super block 结构 中 都 有 一 个 指针 s_op， 指 向 具体 的 跳 转 表 。 对 于 Ext2 来 说 ， 这 
个 跳 转 表 就 是 ext2_sops， 具 体 的 函数 则 是 ext2_read_inode( ) ( 见 文件 fs/ext2/super.c)。 


148 static struct super operations ext2 sops = { 


149 read inode: ext2 read inode, 

150 write inode: ext2 write inode, 
151 put inode: ext2 put inode, 

152 delete inode: ext2 delete inode, 
153 put super: ext2 put super, 

154 write super: ext2 write super, 
155 statfs: ext2 statfs, 

156 remount fs: ext2 remount, 

Jer. <a 


函数 ext2_read_inode( ) 的 代码 则 在 fs/ext2/inode.c 中 : 


{path_walk( ) > real lookup( ) > ext2_lookup( ) > iget( ) > get new. inode( ) > ext2 read inode( )] 


961 void ext2 read inode (struct inode * inode) 


962 { 

963 struct buffer_head * bh; 

964 struct ext2 inode * raw_inode; 
965 unsigned long block group; 

966 unsigned long group desc; 

967 unsigned long desc; 

968 unsigned long block; 
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969 
970 
971 
972 


973 
974 
975 


976 
977 
978 
979 
980 
981 
982 
983 
984 
985 
986 
987 
988 
989 
990 
991 
992 
993 
994 
995 
996 
997 
998 
999 
1000 
1001 
1002 
1003 
1004 
1005 
1006 
1007 
1008 
1009 
1010 
1011 
1012 
1013 
1014 
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unsigned long offset; 
struct ext2 group desc * gdp; 


if ((inode-^i ino != EXT2 ROOT INO && 


inode->i ino != EXT2 ACL IDX TNO && 
inode i ino != EXT2 ACL DATA INO && 
inode-^i ino < EXT2 FIRST 1NO(inode-^i sb)) || 
inode->i_ino > 
1e32 to cpu(inode-^i sb->u. ext2_sb. s_es->s_inodes count)) { 
ext2 error 《inode->i sb, “ext2 read inode^, 
“bad inode number: %lu”, inode-^i ino); 
goto bad inode; 
} 
block group = (inode->i_ino - 1) / EXT2 INODES PER_GROUP (inode->i sb); 
if (block group >= inode->i_sb->u. ext2 sb.s groups count) { 
ext2 error (inode-^i sb, "ext2 read inode”, 
"group >= groups count”); 
goto bad inode; 
} 
group desc = block group >> EXT2 DESC PER BLOCK BITS (inode->i_sb) ; 
desc = block group & (EXT2 DESC PER BLOCK (inode~>i_sb) - 1); 
bh = inode->i_sb->u. ext2_sb.s group desc[group desc]; 
if (tbh) { 
ext2 error (inode->i_sb, “ext2 read_inode”, 
‘Descriptor not loaded”) ; 
goto bad_inode; 


} 


gdp = (struct ext2 group desc *) bh->b_data; 
/* 
* Figure out the offset within the block group inode table 
*/ 
offset = ((inode->i_ino - 1) % EXT2 INODES PER GROUP (inode->i_sb)) * 
EXT2 INODE SIZE(inode-^i sb); 
block = 1e32 to cpu(gdp[desc].bg inode table) + 
(offset >> EXT2 BLOCK SIZE BITS(inode-^i sb)): 
if (!(bh = bread (inode-^i dev, block, inode— i sb->s_blocksize))) { 
ext2 error (inode~>i sb, "ext2 read inode", 
“unable to read inode block - ^ 
^inode-*lu, block=%lu”, inode-^i ino, block); 
goto bad inode; 
) 
offset &= (EXT2 BLOCK SIZE(inode-^i sb) - 1); 
raw inode = (struct ext2 inode *) (bh->b data + offset); 


inode-^i mode = lel6 to cpu(raw inode-^i mode); 
inode-^i uid = (uid t)lel6 to cpu(raw inode-^i uid low); 
inode i gid = (gid t)lel6 to cpu(raw inode >i gid low): 
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1015 if(!(test opt (inode->i sb, NO UTD32))) ( 
1016 inode-^i uid ;= lel6 to cpu(raw inode-^i uid high) << 16; 
1017 inode-^i gid |= lel6 to cpu(raw inode— i gid high) << 16; 
1018 ] 
1019 inode->i_nlink = lel6 to cpu(raw inode-^i links count); 
1020 inode-^i size = le32 to cpu(raw inode-^i size); 
1021 inode-^i atime = le32 to cpu(raw inode—^i atime); 
1022 inode->i ctime = 1e32 to epu(raw inode- i ctime); 
1023 inode-^i mtime = le32 to cpu(raw inode-^i mtime); 
1024 inode-?u.ext2 i.i dtime = le32 to cpu(raw inode-^i dtime); 
1025 /* We now have enough fields to check if the inode was active or not. 
1026 * This is needed because nfsd might try to access dead inodes 
1027 * the test is that same one that e2fsck uses 
1028 * NeilBrown 19990ct15 
1029 */ 
1030 if (inode- i nlink == 0 && 
(inode-^i mode == 0 j| inode-^u.ext2 i. i_dtime)) { 
1031 /* this inode is deleted */ 
1032 brelse (bh); 
1033 goto bad inode; 
1034 } 


1035 inode->i_blksize = PAGE SIZE; 
/* This is the optimal IO size (for stat), not the fs block size */ 


1036 inode-^i blocks = 1e32 to cpu(raw inode-^i blocks); 
1037 inode-^i version = +tevent; 
1038 inode->u. ext2 i.i flags = le32 to cpu(raw inode->i flags); 
1039 inode-?u.ext2 i.i faddr = le32 to cpu(raw inode—^i faddr); 
1040 inode-2u.ext2 i.i frag no = raw inode-^i frag; 
1041 inode-?u.ext2 i.i frag size = raw inode->i fsize; 
1042 inode~>u. ext2 i.i file acl = 1e32 to cpu(raw inode->i file acl); 
1043 if (S ISDIR(inode-^i mode)) 
1044 inode->u, ext2 i.i dir acl = 1e32 to cpu(raw inode—i dir acl); 
1045 else 1 
1046 inode->u. ext2 i.i high size = 
le32 to cpu(raw inode-^i size high); 
1047 inode->i size |= 
((__u64) 1e32_to_cpu(raw_inode->i_size high)) «432; 
1048 } 
1049 inode-^i generation = 1e32 to cpu(raw inode-^i generation); 
1050 inode->u. ext2 i.i block group = block group; 
1051 
1052 /* 
1053 * NOTE! The in-memory inode i data array is in little-endian order 
1054 * even on big-endian machines: we do NOT byteswap the block numbers! 
1055 */ 
1056 for (block = 0; block < EXT2 N BLOCKS; blockt++) 
1057 inode-^u.ext2 i.i data[block] = raw inode-^i block[block]; 
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在 Ext? 格式 的 磁盘 上 ， 有 些 索引 节点 是 有 特殊 用 途 的 ，include/linux/ext2_fs.h 中 有 这 些 节 点 的 定 


X: 
55 /* 
56 * Special inodes numbers 
57 */ 


58 #define EXT2_BAD_INO 

59 #define EXT2 ROOT INO 

60 #define EXT2 ACL IDX INO 

61 #define EXTZ ACL DATA INO 

62 #define EXT2 BOOT LOADER INO 
63 "define EXT2 UNDEL DIR INO 


/* Bad blocks inode */ 

/* Root inode */ 

/* ACL inode */ 

ACL inode */ 

/* Boot loader inode */ 

/* Undelete directory inode */ 


roms WH -— 
bs 
* 





这 些 索 引 节 点 是 为 系统 保留 的 ， 对 它们 的 访问 都 不 通过 目录 项 而 直接 通过 定义 的 节点 号 进行 。 其 
中 EXT2_ACL_IDX_INO #1 EXT2_ACL_DATA_INO 用 于 “访问 控制 表 ”(access control list)， 是 为 改 
善文 件 系 统 的 安全 性 而 设置 的 〈《 抑 “访问 权限 和 文件 的 安全 性 ”一 节 )。 磁 盘 设 备 的 super block 结构 
中 提供 磁盘 上 第 一 个 供 常 规 用 途 的 索引 节点 的 节点 号 以 及 索引 节点 的 总 数 ， 这 两 项 参数 被 用 于 对 节点 
号 的 范围 检查 。 

从 概念 上 说 ，Ext2 格式 的 磁盘 设备 上 |， 除 引 导 块 和 超级 块 以 外 ， 就 分 成 索引 节点 和 数据 两 部 分 。 
BE, 出 于 访问 效率 的 考虑 ,实际 上 把 整个 磁盘 (或 逻辑 磁盘 ， 即 “分 区 ”) 先 划 分 成 若 于 “记录 块 组 ” 
然后 再 将 每 个 记录 块 组 分 成 索引 节点 和 数据 雌 部 分 。 与 此 相应 ，ext2 磁盘 的 超级 块 中 则 提供 有 关 这 种 
划分 的 参数 ， 如 磁盘 上 有 多 少 个 组 ， 每 个 组 中 有 多 少 个 记录 块 ， 有 多 少 个 索引 节点 等 等 ， 同 时 ， 每 个 
块 组 还 有 一个 “组 描述 结构 ” 也 可 以 通过 super bleck 结构 访问 〈 详 见 “ 文 件 系统 的 安装 与 拆卸 六 。 
所 以 ， 先 要 根据 索引 节点 号 算出 该 节点 所 在 的 记录 块 组 ( 见 980 行 ) 以 及 在 节点 组 内 的 位 移 (999 行 ) 
然后 再 算出 节点 所 在 的 记录 块 号 (1001 行 )。 知 道 了 记录 块 号 以 后 ， 就 可 以 通过 设备 驱动 程序 bread 读 
入 该 记录 块 。 从 磁盘 读 入 的 索引 节点 为 ext2_inode 数据 结构 ， 读 者 己 经 看 到 过 它 的 定义 。 索 引 节 点 中 
的 信息 是 原始 的 ， 未 经 过 加 工 的 ， 所 以 代码 中 称 之 为 raw_inode， 相 比 之 下 内 存 中 ionde 结构 中 的 信息 
则 分 两 个 部 分 ， 一 部 分 是 属于 VES 层 的 ， 适 用 十 所 有 的 文件 系统 ， 另 一 部 分 则 属于 其 体 的 文件 系统 ， 
这 就 是 那个 union， 因 具体 文件 系统 的 不 同 而 赋予 不 同 的 解释 。 对 Ext2 来 说 ， 这 部 分 数据 形成 一 个 
ext2 inode info 结构 ， 这 是 在 include/linux/ext2, fs.h 中 定义 的 : 


19 — /* 

20 * second extended file system inode data in memory 
21 */ 

22 struct ext2 inode info | 
23 .u32 i data[15]; 
24 u32 i flags; 

25 = u32 i faddr; 

26 . uB8 i frag no; 
21 .. u8 i frag size; 
28 ..ul6 i osync; 

29 . u32 i file acl; 
30 | u32 i dir acl; 
31 ..u32 i dtime; 


. 458 . 


第 5 章 文件 系统 


32 ..u32 not used 1; /* FIX: not used/ 2.2 placeholder */ 
33 __u32 i block group; 

34 u32 i next alloc block; 

35 . u32 i next alloc goal; 

36 . u32 i prealloc block; 

37 ..u32 i prealloc count; 

38 u32 i high, size; 

39 int i new inode:l; /* Is a freshly allocated inode */ 
40 }; 


结构 中 的 i_data[ ] 是 一 块 很 重要 的 数据 。 对 于 有 存储 内 容 的 文件 〈 普 通 文件 和 目录 文件 )， 这 里 存 
放 着 一 些 指针 ， 直 接 或 间接 地 指向 伐 盘 上 存储 着 该 文件 内 容 的 所 有 记录 块 〈 详 见 “文件 的 读 与 号” 一 
市 )。 所 谓 “ 索 引 节 点 ” 即 因此 而 得 名 。 至 于 代表 着 符号 连接 的 节点 ， 则 并 没有 文件 内 容 (数据 )， 所 
以 正好 用 这 块 空间 来 存储 连接 日 标的 路 径 名 。 这 块 空间 的 大 小 是 15 个 32 位 整数 ， 即 60 NE. BOR 
节点 名 最 长 可 达 255 个 字 节 ， 但 一 般 都 不 会 很 长 ， 将 作为 符号 连接 目标 的 路 径 名 限制 在 60 个 字 节 不 至 
于 引起 问题 。 代 码 中 通过 一 个 for 循环 将 这 15 个 整数 复制 到 inode 结构 的 union 中 。 

在 ext2, read. inode( ) 的 代码 中 继续 往 下 看 (fs/ext2/inode.c ): 


[path_walk( ) > real lookup( ) > ext2_lookup( ) > iget( ) > get new inode( ) > ext2_read_inode( )] 


1059 if (inode-^i ino == EXT2 ACL IDX INO || 

1060 inode-^i ino == EXT2 ACL DATA INO) 

1061 /* Nothing to do */ ; 

1062 else if (S ISREG(inode-^i mode)) { 

1063 inode-^i op = &ext2 file inode operations; 

1064 inode-^i fop = &ext2 file operations; 

1065 inode-^i mapping-^a ops = &ext2 aops; 

1066 } else if (S ISDIR(inode-^i mode)) { 

1067 inode-?i op = &ext2 dir inode operations; 

1068 inode->i_fop = &ext2 dir operations; 

1069 } else if (S ISLNK(inode-^i mode)) { 

1070 if (!inode-^i blocks) 

1071 inode-^i op = &ext2 fast symlink inode operations; 
1072 else { 

1073 inode-^i op = &page symlink inode operations; 
1074 inode-^i mapping-^5a ops = &ext2 aops; 

1075 } 

1076 } else 

1077 init special inode (inode, inode->i_mode, 

1078 1e32 to cpu(raw_inode->i_block[0])): 
1079 brelse (bh); 

1080 inode-^5i attr flags = 0; 

1081 if (inode-^u.ext2 i.i flags & EXT2 SYNC FL) { 

1082 inode-^i attr flags |= ATTR FLAG SYNCRONOUS ; 
1083 inode-^i flags |= S SYNC; 

1084 } 
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1085 if (inode->u. ext2 i.i flags & EXT2 APPEND FL) | 
1086 inode->i attr flags = ATTR FLAG APPEND; 
1087 inode- >i flags |= S APPEND; 

1088 } 

1089 if (inode->u. ext2 i.i flags & EXT2 IMMUTABLE FL) { 
1090 inode->i_attr_flags |= ATTR FLAG IMMUTABLE; 
1091 inode-^i flags i= S IMMUTABLE; 

1092 } 

1093 if (inode- u.ext2 i.i flags & EXT2 NOATIME FL) | 
1094 inode->i attr flags |= ATTR FLAG. NOATIME; 
1095 inode-^i flags |= S NOATIME; 

1096 } 

1097 return; 

1098 

1099 bad_inode: 

1100 make bad inode(inode): 

1101 return; 

1102. ] 


接着 ， 就 是 根据 由 索引 节点 所 提供 的 信息 设置 inode 结构 中 的 inode_operations 结构 指针 和 
file operations 结构 指针 ， 完 成 具体 文件 系统 与 虚拟 文件 系统 VES 之 间 的 连接 。 以 前 ， 我 们 曾 把 这 二 者 
比喻 成 “接口 卡 ”与 “总 线 ”， 但 是 读者 要 注意 这 是 从 系统 结构 的 角度 而 吉 的 ， 实 际 上 文件 系统 中 的 每 
个 节点 《月 录 或 文件 ) 都 有 从 VES 层 连 接 到 具体 文件 系统 的 问题 , 就 好 像 每 个 节点 都 有 着 这 么 一 条 “总 
线 ” 一 样 。 

目前 的 2.4 版 Linux 内 核 并 不 支持 ACL (Access Control List)， 所 以 代码 中 只 是 为 之 留 下 了 位 置 ， 
而 暂时 不 作 任何 处 理 。 除 此 以 外 ， 就 通过 检查 inode 结构 中 的 mode 字段 来 确定 该 节点 是 否 常 规 文件 

(S_ISREG)、 日 录 (S_TSDIR)、 符 号 连接 (S_ISLNK ) 或 特殊 文件 而 作 不 同 的 设置 或 处 埋 。 例 如 对 (Ext2 

文件 系统 的 ) 日 录 节 点 就 将 iop 和 ifop 分 别 没 置 成 指向 ext2 dir inode operations 和 
ext2_dir_operations 。 对 于 常规 文件 则 除 iop 和 i fop 以 外 还 有 另 一 个 指针 a_ops， 它 指向 一 个 
address space operations 数据 结构 ， 用 于 文件 到 内 存 空 间 的 映射 或 缓冲 。 对 特殊 文件 则 通过 
init special inode( ) 加 以 检查 和 处 理 ， 以 后 我 们 将 常常 回 过 来 看 这 个 函数 。 

在 找到 了 或 者 建立 了 所 需 的 inode 结构 以 后 ， 就 返回 色 ext2_lookup( )， 在 那 早 还 要 通过 d_add( ) 
将 inode 结构 与 dentry Zi fte E £3, FPA dentry 结构 振 入 杂谈 表 中 的 某 个 队列 .这 颗 的 d_add( ) 是 个 inline 
PRÉC, FE MF include/linux/dcache.h: 


[path walk( ) > real lookup( ) > ext2 lookup( ) > d add( )] 


191 /六 六 

192 * d add - add dentry to hash queues 

193 * @entry: dentry to add 

194 * @inode: The inode to attach to this dentry 

195 * 

196 * This adds the entry to the hash queues and initializes @inodc. 
197 * The entry was actually filled in earlier during d alloc( ). 
198 */ 
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199 
200 
201 
202 
203 
204 


static __inline | void d add(struct dentry * entry, struct inode * inode) 


{ 


) 


d instantiate(entry, inode); 
d rehash (entry); 


FRA. d_instantiate( ) 使 dentry 结构 和 inode 结构 互相 持 钩 ， 其 代码 在 fs/dcache.c |: 


[path_walk( ) > real lookup( ) > ext2. lookup( ) > d_add( ) > d. instantiate( )] 


648 
649 
650 
651 
652 
653 
654 
655 
656 
657 
658 
659 
660 
661 
662 
663 
664 
665 
666 
667 
668 
669 
670 


/*x* 


* 


* * x* X X X X KH X x x 


X 
N 


d instantiate ~ fill in inode information for a dentry 
entry: dentry to complete 
@inode: inode to attach to this dentry 


Fill in inode information in the entry. 


This turns negative dentries into productive full members 
of society 


NOTE! This assumes that the inode count has been incremented 
(or otherwise set) by the caller to indicate that it is now 
in use by the dcache. 


void d instantiate (struct dentry *entry, struct inode * inode) 


{ 


} 


spin lock(&dcache lock); 
if (inode) 
list add(&entry-^d alias, &inode-^i dentry); 
entry->d_inode = inode; 
spin unlock(&dcache lock); 


两 个 数据 结构 之 问 的 联系 是 双向 的 。 一 方面 是 dentry 结构 中 的 指针 d. inode 指向 inode 结构 ， 这 是 


一 对 一 的 关系 ， 因 为 一 个 日 录 项 只 代表 着 .个 文件 。 可 是 ， 反 过 来 就 不 -~- 样 了 ， 同 一 个 文件 可 以 有 多 
个 不 同 的 文件 名 或 路 径 (通过 系统 调用 link( ) 建 立 , 可 是 注意 与 “符号 连接 ”的 区 别 ， 那 是 由 symlink) 
建立 的 》 所 以 从 inode 结构 到 dentry 结构 的 方向 可 以 是 一 对 多 的 关系 。 因 此 ，inode 结构 中 的 i_dentry 
是 个 队列 ，dentry 结构 通过 其 队列 头 部 d. alias 挂 入 相应 inode 结构 的 队列 中 。 


至 于 d_rehash( ) 则 将 dentry 结构 挂 入 杂凑 队列 ， 代 码 也 在 同一 文件 中 ; 


[path walk( ) > real lookup( ) > ext2 lookup( ) > d add( ) > d rehash( )] 


847 
848 
849 


/ 


* 
* 


d rehash - add an entry back to the hash 
Gentry: dentry to add to the hash 
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850 * 

851 * Adds a dentry to the hash according to its name. 
852 */ 

853 

854 void d rehash(struct dentry * entry) 

855 { 

856 struct list head *list = d hash(entry 2d parent, entry—>d_name. hash) ; 
857 spin lock(&dcache lock); 

858 list add(&eniry-^d hash, list); 

859 spin unlock(&dcache lock); 

860 } 


回 到 real lookup( ) 的 代码 ， 现 在 已 经 找到 了 或 者 建立 了 所 需 的 dentry 结构 ， 接 者 就 返回 到 
path_walk( ) 的 代码 中 《〈 见 fs/namei.c 中 的 497 47). 

当前 节点 的 dentry 结构 是 有 了 ， 但 是 这 个 节点 会 不 会 是 一 个 安装 点 呢 ? 所 以 在 503 行 调用 
d. mountpoint( ) 加 以 检验 。 


[path_walk( ) > d mountpoint( )] 


259 static inline |. int d mountpoint (struct dentry *dentry) 
260  ( 

261 return !list empty (&dentry—>d_vfsmnt) ; 

202 ] 


onset eA, SSH]  folow down( ) 前 进 到 所 安装 设备 的 根 节 点 。 这 两 个 函数 分 别 定义 于 
include/linux/dcache.h fll fs/namei.c 中 ， 读 者 可 以 参考 “文件 系统 的 安装 与 拆 制 ” - 节 。 

最 后 ， 当 前 节点 会 不 会 只 是 代表 着 一 个 连接 昵 ? 对 这 种 情况 的 检验 取决 于 具体 的 文件 系统 。 有 些 
文件 系统 根本 就 个 支持 连接 ， 那 就 己 经 最 终 找到 了 所 需 的 节点 ， 此 时 要 调用 dput( ) 递 增 dentry 结构 中 
的 共享 计数 ， 因 为 此 后 path_walk( ) 不 再 使 用 这 个 数据 结构 了 。 如 果 有 具体 的 文件 系统 支持 连接 ， 那 就 通 
过 do follow. link( ) 处 理 《fs/namei.c): 


[path_walk( ) > do follow link( )] 


312 static inline int do follow link(struct dentry *dentry, 
struct nameidata *nd) 


313 ( 

314 int err; 

315 if (current link count >= 8) 
316 goto loop; 

317 current->link count++; 

318 UPDATE ATIME(dentry-^d inode); 
319 err = dentry->d_inode->i_op->follow_link(dentry, nd); 
320 current->link count ~; 

321 return err; 

322 loop: 

323 path release (nd) ; 
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324 return -ELOOP; 
325 ] 


对 连接 链 的 长 度 些 有 个 上 限制， BWA TAERAA, 这 个 上 限 是 8。 具体 对 连接 链 的 跟随 由 相应 
inode operations 结构 中 的 前 数 指针 follow_link 所 提供 的 函数 完成 。 就 Ext2 文件 系统 米 说 , 这 个 函数 是 
ext2_follow_link( )， 这 是 让 fs/ext2/symlink.c 中 定义 的 : 


35 struct inode operations ext2 fast symlink inode operations = { 


36 readlink: ext2 readlink, 
3T follow link: ext2 follow link, 
38 j; 


场 数 ext2_follow_link( ) 的 代 僻 也 在 同 文件 中 : 
[path_walk( ) > do follow link( ) > ext2_follow_link( )] 


29 static int ext2 follow link(struct dentry *dentry, struct nameidata *nd) 
30 { 


31 char *s = (char *)dentry—>d_inode—>u. ext2_i. i_data: 
32 return vfs_follow link(nd, s); 
33 | 


对 于 Ext2 文件 系统 ， 连 接 日 标的 路 径 名 在 ext2, inode. info 结构 (inode 结构 中 的 uniom) 的 i. data 
字段 中 。 代 表 省 连接 的 节点 并 没有 文件 内 容 〈 数 据 )， 所 以 在 索引 节点 中 木 希 要 存储 有 关 各 个 存储 区 
闻 的 信息 , 而 这 些 空 间 正 好 可 以 用 来 存储 连接 目标 的 路 径 名 。 这 部 分 信息 在 前 所 的 ext2_read_inode( ) 
中 作为 ext2_inode_info 结构 的 部 分 被 复制 到 inode 结构 里 而 的 union u 中。 现在， 就 以 此 为 月 标 调 
用 vfs_follow_link( ) 来 达到 目的 。 

函数 vfs_follow_link( ) 的 代码 在 fs/namei.c 中 。 值得 注意 的 是 ， 这 里 从 ext2_follow_link( ) 中 对 
vfs follow link( ) 的 调用 意味 着 从 较 低 的 层次 上 (具体 的 Ext2 文件 系统 ) 回 到 了 更 高 的 vfs 层 。 为 什 
4 WE? 这 龙 因 为 符号 连接 的 目标 有 可 能 在 另 一 个 格式 不 同 的 文件 系统 中 。 可 想 而 知 ， 在 
vfs follow link( ) 中 势必 又 要 调用 path_walk( ) 米 找到 代表 者 连接 对 象 的 dentry 结构 , 事实 也 正 是 这 样 


(fs/namei.c ): 


[path_walk( ) > do_follow_link( ) > ext2. follow link( ) > vfs follow. link( )] 
1942 int vfs follow link(struct nameidata *nd, const char x*link) 
1943 { 
1944 return __vfs follow link(nd, link); 
1945  ] 
FME RA (fs/namei.c): 


[path walk( ) > do_follow_link( ) > ext2 follow link( )> vfs_follow_link( ) >__vfs_follow_link( )] 


1906 static inline int 
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1907 . vfs follow link(struct nameidata *nd, const char *link) 
1908 { 

1909 int res = 0: 

1910 char *name; 

1911 if (IS ERR(link)) 

1912 goto fail; 

1913 

1914 if (link == '/) 1 

1915 path release (nd); 

1916 if (Iwalk init root(link, nd)) 

1917 /* weird | emul prefix( ) stuff did it */ 
1918 goto out; 

1919 } 

1920 res = path walk(link, nd); 

1921 out: 

1922 if (current->link count || res || nd->last_type!=LAST_NORM) 
1923 return res; 

1924 /* 

1925 * If it is an iterative symlinks resolution in open namei( ) we 
1926 * have to copy the last component. And all that crap because of 
1927 * bloody create( ) on broken symlinks. Furrfu... 

1928 */ 

1929 name = — getname( ); 

1930 if (TS ERR(name)) 

1931 goto fail name; 

1932 strcpy (name, nd->last. name) ; 

1933 nd->last. name = name; 

1934 return 0; 

1935 fail name: 

1936 link = name; 

1937 fail: 

1938 path release (nd); 

1939 return PTR_ERR (Link) ; 

1940} 


至 此 ， 对 “个 中 则 节点 的 搜索 沙 实 的 过 程 就 完成 了 。 岂 到 原先 path. walk ) 的 代码 中 ， 履 儿 533 47 
的 continue 语句 使 执行 又 回 到 439 行 的 for 循环 开始 处 ， 继 续 处 埋 路 径 名 中 的 下 一 个 节点 。 到 最 后 一 个 
节点 时 ， 就 会 转 色 标号 为 last_component 或 last_with_slashes 处 。 我 们 继续 在 path_walk¢ ) 的 代码 中 往 下 


看 (namei.c): 


[path_walk( )] 


536 last with slashes: 


537 lookup flags ;- LOOKUP FOLLOW | LOOKUP DIRECTORY; 
538 last component: 

539 if (lookup flags & LOOKUP PARENT) 

540 goto lookup parent; 
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541 if (this. name[0] =-’.’) switch (this. len) { 
542 default: 

543 break; 

544 case 2: 

545 if (this.name[1] !=’.’) 

546 break; 

547 follow dotdot (nd); 

548 inode = nd—dentry-^d inode; 

549 /* fallthrough */ 

550 case 1: 

551 goto return base; 

552 } 

553 if (nd-^dentry-^d op && nd->dentry—>d_op->d_hash) { 
554 err = nd->dentry->d_op~>d_hash({nd—->dentry, &this); 
555 if (err < 0) 

556 break; 

557 } 

558 dentry = cached _lookup(nd->dentry, &this, 0); 
559 if (!dentry) { 

560 dentry = real_lookup(nd->dentry, &this, 0); 
561 err = PTR_ERR(dentry) ; 

562 if (IS ERR(dentry)) 

563 break; 

564 } 

565 while (d mountpoint(dentry) && follow down(&nd->mnt, &dentry)) 
566 ; 

567 inode = dentry-?d inode; 

568 if ((lookup flags & LOOKUP FOLLOW) 

569 && inode && inode— i op && inode-^i op->follow link) { 
570 err - do follow link(dentry, nd); 

571 dput (dentry) ; 

572 if (err) 

573 goto return err; 

574 inode = nd->dentry~>d_inode; 

575 } else { 

576 dput (nd—>dentry) ; 

577 nd->dentry = dentry; 

578 } 

579 err = —ENOENT; 

580 if (linode) 

581 goto no inode; 

582 if (lookup flags & LOOKUP DIRECTORY) { 

583 err = -ENOTDIR; 

584 if (!inode->i_op || !inode->i_op->lookup) 
585 break; 

586 } 

587 goto return_base; 


588 no inode: 
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err = —ENOENT; 
if (lookup flags & (LOOKUP POSITIVE|LOOKUP DIRECTORY)) 
break; 
goto return base; 
lookup parent: 
nd-^last = this; 
nd-^»last type = LAST NORM; 
if (this.name[0] !=’.’) 
goto return base; 
if (this.len == 1) 
nd-?»last type = LAST DOT; 
else if (this. len == 2 && this. name[1] == '.") 
nd-^last type = LAST DOTDOT; 
rcturn base: 
return 0; 
out dput: 
dput (dentry) ; 
break; 
} 
path release (nd) ; 
return err: 
return err; 


) 


路 径 名 的 末尾 有 个 “/” 学 符 ， 意 味 着 路 径 的 终点 是 个 日 录 ， 并 且 ， 刀 果 这 个 节点 代表 有 一 个 连接 
就 一 定 要 前 进 到 所 连接 的 对 象 〈 也 是 个 月 录 )。 所 以 ， 在 这 种 情况 下 把 标志 位 LOOKUP FOLLOW 和 
LOOKUP. DIRECTORY 都 设 成 1。 

调用 参数 中 的 LOOKUP_PARENT 标志 位 1 表示 要 寻找 的 并 不 是 路 径 中 的 终点 ， 出 是 它 的 上 一 层 ， 
所 以 转 到 593 行 的 lookup, parent 标号 处 ， 根 据 终点 的 节点 名 把 nameidata 结构 中 的 last type REM 
LAST_NORM、LAST_DOT 或 者 LAST_DOTDOT。 但 是 ，nameidata 结构 中 的 指针 dentry 此 时 仍 指 向 
上 一 层 节点 的 dentry 结构 。 

不 过 , 一 般 情况 下 LOOKUP. PARENT 标志 位 都 是 0, 要 找 的 是 路 径 名 中 的 终点 ,将 代码 中 的 541~ 
581 47-5 473—509 行 作 比较， 就 可 以 发 现 这 两 部 分 代码 几乎 是 样 的 ， 所 不 同 的 只 是 : 


(1) 


(2) 


(3) 


对 于 中 间 节 点 调用 cached. lookup( ) 和 real, Jookup( ) 时 标志 LOOKUP. CONTINUE 为 1, 而 对 
终结 节点 调用 这 两 个 函数 时 这 个 标志 位 为 0。 但 是 ， 这 个 标志 位 仅 在 所 属 文件 系统 通过 其 
dentry_operations 结构 中 的 函数 指针 d_revalidate) 提供 目录 项 验证 函数 时 才 有 用 ，Ext2 文件 
系统 并 不 提供 这 个 函数 ， 并 个 对 所 找到 的 dentry 结构 加 以 验证 ， 所 以 这 个 因素 不 起 作用 。 
当中 间 节 点 代表 着 符号 连接 时 ， 对 do follew link( ) 的 调用 是 无 条 件 的 〈 只 要 文件 系统 的 
inode_operations 结构 中 提供 了 相应 的 函数 )。 相 比 之 下 ， 当 终结 入 点 代表 着 符号 连接 时 ， 则 
仅 当 LOOKUP_FOLLOW 标志 位 为 1 时 才 调 用 这 个 函数 。 

如 果 …… 个 中 间 节 点 的 dentry 结构 尚未 与 一 个 inode HME EAN, WWFBR MAIL PES, 
所 以 path walk( ) 立 即 就 要 出 错 返回 ， 出 错 代码 为 _ ENOENT。 可是， 对 于 终结 节点 就 不 同 了 ， 
在 有 些 情 况 下 人 允许 代表 常规 文件 (而 不 是 目录 ) 终结 节点 的 dentry 结构 没有 与 之 持 钩 的 inode 
结构 。 我 们 称 这 样 的 dentry 结构 为 “negative”， 反 之 则 为 “positive”。 有 个 标志 位 称 为 
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LOOKUP_POSITIVE， 就 是 表示 所 欲 寻 找 的 节点 必须 具有 inode 结构 。 所 以 ， 对 于 终结 节点 ， 
当 不 存在 inode 结构 时 就 转向 584 行 的 标号 no_inode， 在 那里 根据 LOOKUP. POSITIVE 和 和 
LOOKUP DIRECTORY 两 个 慰 志 位 米 决定 是 出 错 返 回 或 者 正常 返回 。 

(4) 最 后 ， 如 果 节 点 是 个 目录 ， 那 就 要 依靠 文件 系统 通过 其 inode_operations 结构 中 的 指针 

lookup 提供 的 函数 来 读 入 这 “ 层 目 录 ， 并 人 在 这 个 日 录 中 搜索 。 归 是 这 个 函数 指针 为 NULL, 
那么 搜索 也 就 不 能 延续 了 。 对 于 中 间 节 点 这 意味 着 搜索 失败 C531 行 )， 而 对 于 终结 节点 则 只 
有 在 所 上 监 求 的 是 个 日 录 (LOOKUP_DIRECTORY 标志 为 1) 时 才 意味 着 失败 CUL 582-587 
行 )。 

从 path_walk( ) 返 回 时 ， 函 数 但 为 0 表示 搜索 成 功 ， 此 时 nameidata 结构 中 的 指针 dentry 指向 目标 
节点 (不 一 定 是 终结 节点 ) 的 dentry 结构 ， 指 针 mnt 指向 旦 标 节点 所 在 设备 的 安装 结构 。 间 时 ， 这 个 
结构 中 的 last type 表示 最 后 一 个 节点 的 类 卉 ， 节 点 名 则 在 qstr 结构 last 中 。 如 果 失 败 的 话 ， 则 函数 值 
为 … 负 的 出 错 代 码 ， 而 nameidata 结构 中 则 提供 失败 的 节点 名 等 信和 总 。 

根据 给 定 路 径 名 找到 目标 节点 的 dentry 结构 《以 及 inode 结构 )》 的 过 程 ， 涉 及 与 文件 系统 有 关 的 
几乎 所 有 数据 结构 以 及 这 些 数据 结构 间 的 联系 ， 搞 懂 了 这 个 过 程 就 对 文件 系统 有 了 基本 的 理解 。 同 时 ， 
path, init( ) 和 path. walk( )〈 以 及 将 这 二 者 包装 在 一 起 的 user_walk( )) 又 是 在 各 种 与 文件 系统 有 关 的 系 
统 调用 中 最 广泛 使 用 的 函数 。 这 里 ， 我 们 略 举 数 例 ， 这 些 代 但 大 都 在 open.c 中 : 


340 asmlinkage long sys_chdir (const char * filename) 


341 í 
342 int error; 
343 struct nameidata nd; 
344 char *name; 
345 
346 name = getname (filename); 
347 error = PTR ERR (name); 
348 if (TS ERR(ame)) 
349 goto out; 
350 
351 error = 0; 
352 if (path init (name, 
LOOKUP POSITIVE | LOOKUP_FOLLOW!LOOKUP_ DIRECTORY, &nd) ) 
353 error = path walk(name, &nd); 
354 putname (name) ; 
355 if (error) 
356 goto out; 
357 
358 error ~“ permission(nd. dentry-^d inode, MAY EXEC); 
359 if (error) 
360 goto dput and out; 
361 
362 set fs pwd(current-^fs, nd.mnt, nd.dentry): 
363 
364 dput and out: 
365 path release (&nd); 
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366 
367 
368 
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return error; 


这 是 系统 调用 chdir( ) 的 代码 。 这 里 的 permission( ) 检 查访 问 权 限 ， 读 者 可 参阅 下 一 节 “ 访 问 权 限 与 


文件 安全 性 ” DÉC set fs pwd( ) 将 当前 进程 的 fs struct 结构 中 的 指针 pwd 和 pwdmnt 分 别 设置 成 由 
nameidata 中 提供 的 dentry 指针 和 vfsmount 指针 。 下 面 内 容 请 读者 自己 看 。 
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asmlinkage long sys chmod(const char * filename, mode t mode) 


struct nameidata nd; 
struct inode * inode; 
int error; 

siruct iattr newattrs; 


error = user path walk(filename, &nd); 
if (error) 

goto out; 
inode = nd. dentry-^d inode; 


error - -EROFS; 
if (IS RDONLY (inode)) 
goto dput and out; 


error = —EPERM; 
if (IS IMMUTABLE(inode) |: IS APPEND (inode) ) 
goto dput and out; 


if (mode == (mode t) -1) 
mode = inode-?^i mode; 
newattrs.ia mode = (mode & S IALLUGO) | (inode— i mode & "S IALLUGO) ; 
newattrs.ia valid = ATTR MODE | ATTR CTIME; 
error = notify change(nd.dentry, &newattrs) ; 


dput and out: 


path release (&nd) ; 


return error; 


函数 notify. change XB EFT] FLAS Js ri B 5 7 JL 1 s 


asmlinkage long sys chown(const char * filename, uid t user, gid t group) 


struct nameidata nd; 
int error; 


BSR AMRA 
Ss, 


565 error = user path walk(filename, &nd); 

566 if (lerror) { 

567 error = chown, commonínd. dentry, user, group); 
568 path release (&nd) ; 

569 } 

570 return error; 

571 vj 


38 | asmlinkage long sys statfs(const char * path, struct statfs * buf) 


38 { 

40 struct nameidata nd; 

4] int error; 

42 

43 error = user path walk(path, &nd); 

44 if (lerror) { 

45 struct statfs tmp; 

46 error = vfs statfs(nd.dentry-?d inode—^i sb, &tmp); 
41 if (terror && copy to user(buf, &tmp, sizeof(struct statfs))) 
48 error = -EFAULT; 

49 path release (&nd) : 

50 } 

51 return error; 

52 ) 


5.3 访问 权限 与 文件 安全 性 


Unix 操作 系统 从 一 开始 就 在 其 文件 系统 中 引入 了 “文件 主 ” “访问 权限 ”等 概念 ， 并 在 此 基础 上 
实现 了 有 利于 提高 文件 安全 性 的 机 制 。 从 那 以 后 这 些 概念 和 机 制 就 一 直 被 继承 下 来 并 进一步 得 到 改进 
和 完善 。 即 使 在 经 过 了 二 十 多 年 以 后 的 今天 ， 而 且 人 在 计算 机 系统 的 安全 性 已 经 成 为 一 个 突出 问题 的 情 
况 下 ， 这 一 套 机 制 仍然 不 失 其 先进 性 。 尽 管 还 存在 “ 些 缺 点 和 需要 进一步 改进 的 地 方 ， 从 总 体 上 说 还 
是 城 不 掩 瑜 。 与 当今 止 在 广泛 使 用 的 其 他 操作 系统 相 比 ， 可 以 说 Unix 的 安全 性 总 的 米 说 至 少 不 会 差 于 
这 些 系统 ; 如 果 考 虑 到 近年 来 在 Unix( 以 及 Linux, 下 同 ) 中 心 经 作出 的 改进 以 及 不 难 作出 的 进一步 改进 ， 
可 以 说 Unix 在 安全 性 方面 与 任何 其 他 系统 相 比 都 不 逊色 。 同 时 ， 从 当前 流行 的 其 他 操作 系统 路， 人们 
不 难看 出 它们 受 Unix 影响 的 或 明 或 暗 的 痕迹 。 

Unix 文件 系统 的 访问 权限 是 一 种 二 维 结构 。 就 同一 个 用 户 来 说 ， 对 -一 个 文件 的 访问 分 成 恋 、 写 和 
执行 三 种 方式 ， 因 而 形成 三 种 不 同 的 权限 ， 而 就 同一 种 访问 方式 来 说 ， 则 又 可 因 访问 者 的 身份 属于 文 
件 主 、 文 件 主 的 同 组 人 以 及 其 他 用 户 〈 称 为 other) 而 分 别 决定 允许 与 个 。 这 样 一 共 就 有 9 种 组 合 ， 可 
以 用 9 个 二 进 制 位 来 表示 。 早 期 的 Unix 是 在 16 位 结构 的 PDP-11 机 只 十 开发 出 米 的， 所 以 从 那 时 起 就 
一 直 用 一 个 16 位 短 整 数 来 表示 一 个 文件 的 访问 “模式 ”， 而 将 其 中 的 低 9 位 用 于 访问 权限 。 当 时 比较 
流行 的 是 八进制 表示 法 ， 所 以 正好 将 这 9 位 表示 成 三 个 八进制 数位 ， 从 高 到 低 分 别 用 于 文件 主 u), 
文件 主 的 同 组 人 《〈g) 以 及 其 他 〈o)， 而 每 个 八进制 数位 中 的 一个 二 进 制 位 则 从 高 到 低 分 别 用 十 读 、 汉 
和 执行 三 种 权限 。 这 种 表示 方法 直 沿 用 至 今 ， 例 如 在 命令 “chomd 644 fiel” 中 的 644 就 是 这 样 
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二 个 8 进 制 位 。 此 外 ， 这 种 把 访问 者 区 分 为 文件 主 、 同 组 人 以 及 其 他 用户 ， 根 据 访问 者 的 身分 而 分 别 
次 定 其 访问 权限 的 方案 称 为 “Discretionary Access Control”， 简 写 为 DAC. 

这 个 方案 的 实施 分 成 几 个 方面 。 首 先 ， 除 用 户 名 外 ， 每 个 用 户 还 被 授予 一 个 《在 系统 范围 内 ) fit 
一 的 用 户 号 ud， 并 且 总 是 属于 其 一 个 用 户 组 ， 而 每 一 个 用 户 组 则 有 惟一 的 组 号 gid， 这 些 信息 记录 在 
相当 于 一 个 小 数据 库 的 文件 /etc/passwd 中 。 其 次 ， 每 个 文件 的 索引 节点 中 记录 着 文件 主 的 uid, gid 以 
及 文件 访问 “模式 ”。 还 有 ， 在 每 个 进程 的 task. stuct 结构 中 相应 地 设置 了 uid 和 gid SSR. RAP 
通过 登录 进入 系统 并 创立 第 一 个 shell 进程 时 ， aii etc/passwd 中 根据 用 户 名 查 得 其 uid 和 gid, HKE 
设置 到 该 shell 进程 的 task. struct 结构 中 ， 从 此 以 后 便 代 代 相 传 。 最 后 ， 也 是 最 重要 的 是 ， 内 核 在 执行 
用 户 进程 访问 文件 的 请 求 时 要 对 比 进程 (和 和 用户 〉 的 uid. gid 以 及 文件 的 访问 模式 ， 以 决定 该 进程 是 
否 对 此 文件 具有 所 旧 求 的 访问 权限 。( 实 际 上 ， 进 程 的 task. struct 结构 中 还 有 euid、egid、suid、sgid、 
fsuid 以 及 fsgid 等 字段 ， 下 面 还 要 解释 )。 此 外 ，uid 为 0 的 用 户 为 “超级 用 户 ” 而 超级 几 户 对 任何 文 
件 都 具有 与 文件 主 相同 的 权限 。 还 要 注意 ， 用 户 名 与 用 户 号 并 不 是 一 对 一 的 关系 ， 多 个 用 户 ， 甚 全 所 
有 用 户 ， 都 可 以 对 应 到 同 -一 个 用 户 号 。 

由 于 超级 用 户 的 进程 对 任何 文件 都 具有 与 文件 主 相同 的 权限 ， 实 际 上 可 以 对 任何 文件 为 所 欲 为 ， 
这 就 带 来 了 危险 〈 这 里 还 没有 考虑 有 人 非法 取得 特权 用 户 权 限 所 站 起 的 问题 )。 所 以 ， 有 时 候 需要 通过 

:个 进程 的 用 户 号 和 组 号 来 改变 (限制 ) 其 访问 权限 。 由 此 引申 出 了 进程 的 “真实 ”用 户 号 、“ 真 实 ” 
组 号 和 当前 的 “有 效 ” 用 户 号 、“ 有 效 ” 组 号 的 概念 。 相应 地 ,在 进程 的 task_stuct 结构 中 也 增设 了 evid 

(表示 “effective uid”) 和 egid 两 个 宁 段 ， 并 日 提供 了 setuid( )、seteuid( ) 等 系统 调用 。 男 一 方面 , 在 
改变 “有 效 ” 用 户 号 时 往往 需要 失 卡 来 的 有效” 用 户 号 暂时 保存 起 米 , 以 便 以 后 恢复 , 所 以 在 task. struct 
结构 中 义 增设 了 suid( 表 示 “saved uid”) 和 和 sgid WEL, RFE, 4E task struct 结构 中 就 有 了 三 个 用 户 
号 和 三 个 组 号 ， 即 uid、euid、suid 以 及 gid、egid、sgid。 后 米 ， 人 在 开发 和 使 用 网 络 文件 系统 NFS 的 “党 
护 神 ”《 即 服务 进程 ) 的 过 程 中 又 认识 到 ， 在 阅 络 坏 境 下 对 文件 的 访问 还 需要 “个 不 同 的 用 户 号 ， 因 此 
又 增加 一 个 fsuid 和 一 -个 fsgid. W% fsuid 与 euid 相同 ， 而 fsgid 与 egid 相同 ， 但 是 在 特殊 的 情况 下 可 
以 不 同 。 这 里 要 指出 , 一般 而 言 , 具有 特权 用 户 以 及 具有 特权 用 户 权 限 的 进程 ( 见 下 面 的 所 谓 “set_vid” 
文件 和 进程 》 才 能 通过 系统 调用 来 改变 其 用 户 号 和 组 号 ， 这 些 系统 调用 的 结果 都 是 使 进程 的 权限 更 受 
限制 ， 在 相反 的 方向 上 ， 则 最 多 是 恢复 旬 原 有 的 水 平 ， 所 以 … 个 非特 权 用 户 进程 是 不 能 通过 setuid( ) 
或 seteuid( ) 得 到 特权 册 户 的 权限 的 ， 这 一 点 跟 读者 头脑 中 一 个 普通 用 户 可 以 通过 shell 命令 “su” 变 成 
特权 用 户 的 印象 可 能 不 … 致 。 这 里 面 的 原因 是 su 是 一 个 “set_uid" 可 执行 程序 ， 它 的 文件 主 是 root， 即 
特权 用 户 ， 所 以 当 普 通用 户 执行 su 的 过 程 中 就 自动 具有 了 特权 用 户 的 权限 ， 这 正 是 我 们 接 下 去 要 讨论 
的 。 

在 前 述 盖 维 访问 权限 机 制 的 框架 中 ， 让 我 们 考虑 - :个 问题 ， 即 -个 普通 用 户 怎样 才 可 以 改变 它 自 
己 的 口令 。 我 们 知道 ， 有 关 用 户 的 名 称 、 用 户 号 、 组 号 、 口 令 等 信息 都 保存 在 文件 /etc/passwd Po X 
个 文件 的 主人 只 能 是 超级 用 户 ， 因 为 只 有 超级 用 户 才 此 系统 中 最 核心 、 权 力 最 大 的 用 户 ， 通 常 就 是 系 
统 的 管理 员 。 除 超级 用户 外 ， 上 其 他 所 有 的 用 户 对 这 个 文件 部 不 应 该 有 “ 写 ” 权 ， 因 为 那样 的 话 每 个 用 
户 部 可 以 通过 修改 这 个 文件 、 将 自己 的 用 户 续 改 成 0 而 安 成 特权 用 户 了 。 所 以 ， 除 文件 主 以 外 ， 所 有 
其 他 的 用 户 对 /etc/passwd 都 只 能 有 “ 读 ” 权 而 不 能 有 “ 写 ” 权 。 这 显然 是 合理 的 ， 而 且 内 能 如 此 。 可 
k, BE “来 ， 一 个 普通 用 户 就 不 能 通过 运行 “个 什么 称 序 来 改变 自己 的 口令 了 ， 因 为 改口 令 意 味 着 
改变 /etc/passwd WANA AR. AR BRA RIX PAPAIN? 时 期 的 Unix 采用 了 一 种 在 当时 看 来 很 巧妙 的 办 法 ， 
就 起 在 一 些 特殊 用 途 的 可 执行 文件 上 加 个 标记 ， 使 得 任何 用 户 在 执行 这 个 文件 程序》 时 就 暂时 有 
了 与 该 文件 的 文件 主 〈 通 常 是 超级 用 户 ) 相同 的 权限 。 这样 ， 只 要 把 用 米 改变 口令 的 程序 (Wbin/passwd) 
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加 上 这 种 标记 ， 普 通用 户 在 执行 这 个 程序 的 时 候 就 能 “ 拉 大 旗 作 虎 皮 ” 暂时 有 了 特权 用 户 的 权限 ， 可 
以 改变 /etc/passwd 的 内 容 了 。 一 旦 执行 完毕 ， 则 又 回 刘 原来 的 权限 ， 又 是 普通 用 户 了 。 这 样 的 可 执行 
文件 ， gt lur uid” 文 件 ， 而 加 侍 这 种 文件 上 的 标记 ， 则 是 在 文件 模式 中 的 个 标志 位 S. ISUID. 
与 此 类 似 ， 还 有 一 个 标志 位 SISGID， 可 以 理解 为 对 S_ISUID 标志 位 的 推 /"。 有 了 时 候 人 们 称 S_ISUID 
标志 位 为 “s” 2 因为 在 用 命令 “ls -1” 殉 日 录 时 把 表示 这 种 文件 对 文件 主 的 可 执行 权 的 字符 “x” 
ERT “s”. 在 当时 ， 这 个 办 法 确实 很 巧妙 、 很 有 效 ， 据 说 AT&T 还 为 此 申请 了 专利 。 可 是 ， 近 年 来 
却 发 现 这 种 “set_uid” 文 件 给 黑客 们 带 来 了 可 乘 之 机 ， 简 直 已 经 成 了 Unix( 以 及 Linux) 在 安全 性 方面 的 
万 恶 之 源 ， 后 面 我 们 还 会 回 到 这 个 问题 | 来 。 

除 这 两 个 标志 位 以 外 ， 早 期 Unix 还 为 可 执行 文件 定义 了 一 个 “ 粘 潘 ”(sticky ) 标志 位 。 对 于 一 些 
频繁 运行 的 程序 , 可 以 把 这 个 标志 位 设 成 十 使 得 内 核 在 这 个 程序 运行 完毕 后 尽 林 能 将 其 映 象 保存 在 内 
存 中 不 予 释放 ， 这 样 下 “次 需要 启动 这 个 程序 运行 时 就 不 需要 再 从 磁盘 装 入 了 。 不 过 ， 现 在 的 Unix 和 
Linux 都 己 采 用 虚 存 管理 ， 所 以 这 个 标志 位 现在 已 经 没有 什么 意义 了 。 

RUE, 文件 的 模式 是 以 一 个 16 位 光 符 号 整数 表示 的 ， 其 中 9 位 已 经 用 于 对 三 种 不 同 出 户 的 访 
问 权限 ， 现 在 又 用 去 了 3 位 ， 这 样 还 剩 下 4 位 ， 用 来 表示 文件 的 类 型 。 不 过 ， 由 十 只 剩 下 4 位 ， 要 为 
每 种 文件 类 型 都 分 柄 一 个 标志 位 就 不 够 了 ， 所 以 表示 文件 类 型 的 这 4 位 古 编 码 的 。 对 文件 类 型 和 上 述 
儿 个 标志 位 的 定义 在 include/linux/stat.h 中 ， 但 是 另 :个 文件 include/linux/sysv. fs.h 中 有 儿 行 注释 提供 
了 比较 详细 的 说 明 : 





255 /* The admissible values for i mode are listed in <linux/stat.h> : 
256 * #define S IFMT 00170000 mask for type 
251 * Bdefinec S LFREG 0100000 type = regular file 


258 * BRdefine S LFBLK 0060000 type = block device 

259 * #define S IFDIR 0040000 type 7 directory 

260 * Hdefine S IFCIIR 0020000 type = character device 

261 * Hdefine S TFTFO 0010000 type = named pipe 

262 * Hdefine S TSUID 0004000 set user id 

263 * #define S ISGID 0002000 sel group id 

264 * H#define S ISVTX 0001000 save swapped text even after use 
265 * Additionally for SystemV: 

266 x Bdefine S [FLNK 0120000 type - symbolic link 


注意 ， 这 里 的 数 宁 均 为 八进制 ， 其 中 SFMT SPAR BREA, ini eR 
位 段 。 对 低 9 位 的 定义 则 为 : 


32 #define S IRWXU 00700 
33 Hdefine S IRUSR 00400 
34 define S TWUSR 00200 
35 #define S_IXUSR — 00100 
36 

37 #define S IRWXG 00070 
38 #define S IRGRP — 00040 
39 &define S IWGRP — 00020 
40 #define S IXGRP 00010 
4| 
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42 #define S IRWXO 00007 
43 #define S IROTH — 00004 
44 #define S IWOTH 00002 
45 define S 1XOTH 00001 


这 个 16 位 的 文件 模式 存储 在 每 个 文件 的 索引 节点 中 ， 而 每 个 进程 则 在 其 task. struct 结构 中 有 uid, 
eud 等 说 明 其 身份 的 信息 。 这 就 是 判定 一 个 进程 是 否 有 权 对 某 个 文件 进行 某 种 访问 的 基础 。 对 访问 权 
限 的 判定 主要 是 出 函 数 permission ( ) 完成 的 ， 恋 者 存 path_walk( ) 的 代码 中 已 经 看 到 ， 在 那里 的 for 
循环 中 对 路 径 中 的 每 :个 节点 调用 这 个 函数 ， 其 代码 在 fslex2/namei.c H: 


183 int permission(struct inode * inode, int mask) 

184 { 

185 if (inode->i op && inode->i op—permission) 1 
186 int retval; 

187 lock kernel ( ); 

188 retval = inode->i_op—>permission(inode, mask); 
189 unlock kernel ( ); 

190 return retval; 

191 } 

192 return vfs permission(inode, mask); 

193 ] 


参数 mask 为 代表 着 所 要求 的 访问 方式 的 标志 位 ， 定 义 于 include/linux/fs.h 中 : 


63  Bdefine MAY EXEC 1 
64 #define MAY WRITE 2 
65 #define MAY READ 4 


对 于 一 般 的 文件 系统 就 分 成 这 么 一 种 方式 。 网 络 文件 系统 NFS 的 情况 特殊 ， 除 这 三 种 方式 以 外 述 
定义 了 MAY_TRUNC、MAY_LOCK 等 方式 以 及 这 些 方式 的 若干 组 合 ， 不 过 NFS 不 在 本 书 此 讨论 的 范 
围 内 。 

如 条 具体 的 文件 系统 通过 其 inode operations 结构 中 的 函数 指针 permisson 提供 了 特定 的 访问 权限 
判定 函数 ， 那 就 把 事情 交 给 它 了 ， 厂 则 就 执行 - AED vis_permission( )。 

就 Ext2 文件 系统 而 言 ， 共 有 三 个 inode operations 结构 ， 即 ext2 file inode operations 、 
ext2_dir_inode_operations 以 及 ext2, fast, symlimk, inode operations, WIH% inode 结构 所 代表 的 节点 
性 质 而 在 ext2_read_inode( ) 中 将 其 i_op 指针 设置 成 指向 这 三 者 之 一 。 可 是 ， 这 二 个 结构 中 都 没有 提供 
专门 的 permisson HMEC AHS permission X NULL), 所 以 执行 vfs_permission( ), 其 代码 见 fs/namei.c. 


[permission( ) > vfs, permission( )] 


147 /* 

148 * permission( ) 

149 * 

150 * is used to check for read/write/exccute permissions on a file 
151 * We use "fsuid" for this, letting us set arbitrary permissions 
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152 * for filesystem access without changing the "normal" uids which 

153 * are used for other things. 

154 */ 

155 int vfs permission(struct inode * inode, int mask) 

156 { 

157 int mode = inode->i_mode; 

158 

159 if ((mask & S IWOTH) && IS RDONLY (inode) && 

160 (S ISREG(mode) || S ISDIR(mode) || S ISLNK (mode))) 

161 return -EROFS; /* Nobody gets write access to a read-only fs */ 
162 

163 if ((mask & S IWOTH) && IS IMMUTABLE (inode)) 

164 return -EACCES; /* Nobody gets write access to an immutable file */ 
165 

166 if (current fsuid == inode->i uid) 

167 mode >>= 6; 

168 else if (in group p(inodei gid)) 

169 mode >>= 3; 

170 

171 if (((mode & mask & S TRWXO) == mask) || capable(CAP DAC OVERRIDE)) 
172 return 0; 

173 

174 /* read and search access */ 

175 if ((mask == S IROTH) || 

176 (S TSDIR(inode-^i mode) && !(mask & ^(S IROTH | S_LXOTH)))) 
177 if (capable (CAP DAC READ SEARCH) ) 

178 return 0; 

179 

180 return -EACCES; 

181  ] 


这 里 用 到 的 一 些 宏 操作 分 别 定 义 于 fs.h 和 stat.h: 
146 #define IS RDONLY(inode) (((inode)->i_sb)&&((inode)->i_sb->s_flags& MS RDONLY) 


24 +#define S ISLNK(m) (((m) & S IFMT) == S ITLNK) 
25 #define S ISREG(m (((m) & S IFMT) == S IFREG) 
26 #define S ISDIR(G) (((m) & S IFMT) == S IFDIR) 
27 #define S ISCHR(m (((m) & S IFMT) == S IFCHR) 
28 . #define S ISBLK(m) — (((m & S IFMT) == S IFBLK) 
29 +#define S ISFIFO(m) (((m & S IFMT) == S IFIFO) 
30  #define S ISSOCK(m) (((m) & S IFMT) == S IFSOCK) 


IS RDONLY dcm B AEM MHRA, MERRE, AIK “RIE” FER. HPA 
上 ， 对 于 常规 文件 、 目 录 以 及 符号 连接 这 二 种 节点 都 不 能 写 。 但 是 ， 即 使 是 在 按 “ 只 读 ” 方 式 安装 的 
文件 系统 中 ， 如 果 节 点 所 代表 的 是 FIFO 文件 、 插 口 等 特殊 文件 , 或 者 设 备 文件 ( 块 设备 或 宁 符 设备 都 
一 样 )， 那 就 未 必 是 不 可 写 的 。 为 什么 呢 ? 因为 对 这 些 “ 文 件 ” 的 写 访问 实际 上 不 会 或 者 不 定 写 到 该 
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节点 所 在 的 磁盘 上 去 。 
其 次 ，IS_IMMUTABLE 的 定义 为 ， 


155 Hdefine IS IMMUTABLE(inode) ((inode)->i_flags & S TMMUTABLE) 


在 较 新 的 Linux《 和 Unix》 版 本 中 ， 除 访问 权限 外 又 给 每 个 文件 加 上 了 一 些 属性 ,“ 不 可 网 改 ” 邑 
是 其 中 之 一 。 这 些 属性 也 像 访问 权限 一 样 以 标志 位 的 形式 存储 在 文件 的 索引 节点 中 ， 但 是 不 像 访问 权 
限 那 样 区 分 文件 主 、 文 件 主 的 同 组 用 户 以 及 公众 ， 而 是 另 成 体系 ， 并 且 汛 驾 丁 访问 权限 之 上 。 而 且 ， 
一 旦 设置 了 这 些 属 性 ,即使 是 特权 用 户 也 不 能 在 系统 还 在 正常 的 多 用 户 环境 下 运行 时 将 这 些 属 性 去 除 。 
这 样 ， 就 算 有 黑客 偷 到 了 特权 用 户 的 口令 ， 对 这 些 文件 也 就 碟 能 为 力 了 。 如 果 一 个 文件 被 设置 成 了 “不 
np mu", 那么 即使 是 超级 用 户 通过 chmod() 把 文件 的 访问 模式 设置 成 “可 写 ” 也 无 济 于 事 。 显 然 ， 这 
是 因 安 全 性 考虑 而 作 的 改进 和 和 增强。 表示 这 些 属 性 的 标志 位 定义 于 include/linux/ext2, fs.h: 


183 /* 

184 * Inode flags 

185 */ 

186 #define EXT2 SECRM FL 0x00000001 /* Secure deletion */ 

187 #define EXT2 UNRM FL 0x00000002 /* Undelete */ 

188 #define EXT2 COMPR FL 0x00000004 /* Compress file */ 

189 #define EXT2 SYNC FL 0x00000008 /* Synchronous updates */ 
190 define EXT2 IMMÜTABLE FL 0x00000010 /* Immutable file */ 

191 define EXT2_APPEND FL 0x00000020 /* writes to file may only append */ 
192 #define EXT2 NODUMP FL 0x00000040 /* do not dump file */ 

193 Hdefine EXT2 NOATIME FL 0x00000080 /* do not update atime */ 

194 /* Reserved for compression usage... */ 

195 define EXT2 DIRTY FL 0x00000100 

196 Hdefine EXT2 COMPRBLK FL 0x00000200 /* One or more compressed clusters */ 
197 Hdefine EXT2  NOCOMP FL 0x00000400 /* Don't compress */ 

198 Hdefine EXT2 ECOMPR FL 0x00000800 /* Compression error */ 

199 /* End compression flags —- maybe not all used */ 

200 define EXT2 BTREE FL 0x00001000 /* htree format dir */ 

201 define EXT2 RESERVED FL 0x80000000 /* reserved for ext2 lib */ 
202 


203 H#define EXT2 FL USER VISIBLE 0x00001FFF /* User visible flags */ 
204 Hdefine EXT2 FL USER MODIFIABLE Ox000000FF /* User modifiable flags */ 
205 


Heh eee ee AAR CAPRA. RRR RRS REA KBE. Plum. 
EXT2_APPEND_FL KRIT 3c ERO Sif lal REE SEAR, 而 不 能 改变 文件 中 已 有 的 内 容 。 读 者 
会 问 ， 华 打开 文件 时 不 是 就 有 个 “添加 ”模式 蚂 ? 为 什么 这 里 又 要 来 “个 “添加 ”属性 昵 ? 答案 很 简 
单 ， 打 开 文件 时 的 “ 深 加 ” 模 式 是 用 户 进程 “自愿 ”的 ， 调 文件 的 “添加 ”局 性 加 是 强制 的 。 

Bibl, BV inode 结构 中 的 i flag 里 面 的 S IMMUTABLE 标志 为 !， 浊 就 剥夺 了 所 有 用 户 对 这 个 
文件 的 “ 写 ” 访 问 权 ( 见 163 行 )， 而 与 交 件 所 设置 的 访问 权限 以 及 访问 者 的 身份 无 关 。 

还 有 个 属性 是 EXT2_NODUMP_FL， 意 图 是 使 可 执行 文件 在 运行 中 访问 内 存 出 错 〈 超 失 访 问 等 ) 
时 不 要 生成 “dump” 文 件 。 从 Unix 的 早期 版 本 开始 可 执行 文件 在 运行 过 程 中 因 访问 内 存 侵权 而 出 错 
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时 都 会 把 当时 的 内 存 映 和 象 卸 载 到 一 个 磁盘 文件 中 〈〔 名 为 “core”， 因为 早期 的 计算 机 采用 磁 必 存储 器 )， 
使 程序 员 可 以 使 用 调试 工具 〈 如 gdb 等 ) 来 重建 起 发 生 问题 时 的 场景 ， 这 对 十 软件 的 维护 显然 是 有 好 
处 的 。 可 是 ， 在 实践 中 却 发 现 ， 这 也 给 怀 有 恶意 的 点 客 们 提供 了 可 乘 之 机 。 为 了 在 某 些 情况 下 不 让 产 
^E dump 文件 ， 在 task struct 结构 中 增设 了 个 标志 位 dumpable， 人 在 某 些 情况 下 〈 例 如 通过 seteuid( ) 
设置 了 有 效用 户 号 ) 就 将 这 个 标志 位 清 0。 同 时 ， 又 设置 了 个 系统 调用 preu( )， 其 用 途 之 一 就 是 将 
dumpable 标志 设置 成 1 或 0， 可 是 这 还 是 不 能 解决 防止 恶意 上 必 击 的 问题 。 在 一 些 特 隶 的 应 用 坏 境 《如 
银行 ) 中 ， 对 一 些 特殊 的 可 执行 程序 ， 需 上装 完 伞 性 绝 其 产 牛 dump 文件 的 可 能 性 ， 这 就 是 设置 
EXT2_NODUMP_FL 属性 及 标志 位 的 意图 。 此 外 ， 对 于 基 些 特殊 文件 ， 不 能 像 对 一 般 的 文件 那样 每 次 
访问 后 就 要 打下 时 间 印 记 ， 标 志 位 EXT2_NOATIME_FL 就 是 为 此 目的 而 设置 的 。 总 之 ， 对 于 传统 的 
Unix 文件 系统 而 言 ， 这 些 属 性 《标志 位 》 者 是 “体制 外 ”的 ， 扩 以 不 能 纳入 原先 的 框架 中 ， 而 其 中 有 
一 些 是 为 增强 文件 系统 的 安全 性 而 设置 的 。 

In| permission( ) 的 代码 中 ， 下 面 头 是 访问 权限 的 比 对 了 。 这 里 的 mode HR B inode 结构 中 的 文 
件 访问 模式 , 即 前 述 的 16 位 无 符号 短 整 数 ; mask 则 为 所 要 求 的 访问 方式 , 即 MAY. EXEC. MAY. WRITE 
或 MAY_READ， 实 际 上 只 用 了 最 低 3 位 。 前 面 说 过 ， 当 前 进程 的 fsuid 是 专用 于 文件 访问 目的 的 有 效 
uid， 通 常 与 进程 的 euid 相同 ， 但 是 在 使 用 网 络 文件 系统 时 可 能 会 不 同 。 如 果 当 前 进程 的 fsuid 与 文件 
EK) uid 相同， 那么 要 比 对 的 是 mode 中 用 本 文件 主 的 访问 权限 ， 上 所 以 把 mode 右 移 6 位， 把 用 于 文件 
主 的 三 个 标志 位 移 到 最 低 的 3 位 中 。 如 果 当 前 进程 的 fsuid SIC PEAS uid 不 同 ， 导 就 要 检查 一 下 当前 
进程 所 属 用 户 的 组 号 与 文件 主 的 组 号 是 任 相 符 , 车- 省 相符 , 则 适用 同 组 人 的 访问 权限 ,所 以 要 把 mode 
右 移 3 位 。 判 定 是 否 同 组 比 判定 是 告 义 件 主 费 复 傈 -- 些 ， 趟 道 过 个 函数 in group p( ) 米 完成 的 ， 其 
代码 在 kernel/sys.c 中 : 


[permission( ) > vfs_permission( ) > in group. p( )] 


939 /* 

940 * Check whether we're fsgid/egid or in the supplemental group.. 
941 */ 

942 int in group p(gid t grp) 

943 { 

944 int retval = 1; 

945 if (grp != current- >fsgid) 

946 retval = supplemental group member (grp) ; 

947 return retval; 

948 .] 


如 果 进 程 的 fsgid 与 文件 主 的 组 号 相同 ， 那 就 成 了 。 可 是 即使 这 二 者 不 同 也 偿 有 可 能 实际 上 是 相符 
的 , 因为 一 个 用 户 《从 而 一 个 进程 ) 可 以 同时 属于 新 干 个 组 , 读者 不 妨 由 到 “进程 ”~ 一 章 看 一 上 sched.h 
中 对 task. struct 的 定义 ， 在 task. struct 结构 中 有 个 数组 groups[ ]， 其 大 小 为 常数 NGROUPS， 该 常数 在 
include/asm_i386/param.h 定义 为 32。 当 然 ， HH P (进程) 坟 必 会 那么 “社会 化 ”， 所 以 在 task. struct 
中 还 有 个 计数 器 ngroups。 与 此 相应 ， 还 提供 了 系统 调用 get groups( ) 和 set_groups( )。( 内 有 得 到 授权 
的 进程 才 阁 以 set_groups( ))。 所 以 ， 如 果 fsgid 与 文件 主 的 组 号 不 同 ， 就 要 进一步 拿 这 个 数组 中 的 其 他 
“候补 ”组 与 跟 文 件 主 的 给 号 相 比 ， 汞 数 supplemental_group_member( ) 的 代码 也 在 sys.c F: 


[permission( ) > vfs permission( ) > in group. p( ) > supplemental_group_member( )] 
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923 static int supplemental group member (gid_t grp) 
924 { 

925 int i = current-^ngroups; 

926 

927 if (i) { 

928 gid t *groups = current-2groups; 
929 do 1 

930 if (kgroups == grp) 

931 return 1; 

932 groupst+; 

933 I=; 

934 } while (i); 

935 } 

936 return 0; 

937 ] 


最 后 ， 如 果 当 前 进程 确实 不 属于 文件 主 的 同 组 人 ， 那 就 是 属于 “其 他 ”用 户 了 。 此 时 mode 不 需 
要 移 位 ， 因 为 要 比 对 的 3 位 己 经 在 最 低 的 位 置 上 了 。 

常数 S_IRWXO 的 值 为 7, 所 以 比 对 的 是 此 时 mode 中 最 低 的 3 位 。 比 对 的 结果 相符 时 , permission( ) 
返回 0， 要 是 不 符 呢 ? 一 般 而 言 就 失败 了 。 但 是 还 有 例外 。 首 先 ， 如 果 当 前 进程 得 到 了 授权 ， 人 允许 其 
CAP_DAC_OVERRIDE, 即 可 以 凌驾 于 文件 系统 的 访问 权限 控制 机 制 DAC 之 上 , 则 基本 上 不 受 其 限制 。 
不 过 ， 前 面 159 行 和 163 行 中 检 伍 的 两 种 情况 人 不在 内 。 实 际 上 ，1S_IMMUTABLE 要 有 为 一 种 授权 
(CAP_LINUX_IMMUTABLE) 的 进程 才能 设置 。 所 以 ， 这 种 进程 就 好 像 是 捧 着 “尚方 案 剑 ”的 钦差 
大 臣 ， 这 才 是 真正 意义 上 的 “超级 用 户 ”。 可 惜 “ 超 级 用 户 ” 科 “特权 用 户 ” 这 两 个 词 都 山 经 用 于 uid 
为 0 的 用 户 ， 所 以 我 们 在 书本 中 称 此 类 进程 为 “授权 进程 ”。 等 下 我 们 还 要 同 到 这 个 话题 上 米 。 

除了 拥有 CAP DAC OVERRIDE 授权 的 进程 以 外 ， 还 有 一 种 特殊 情况 ， 那 就 是 男 - :种 授权 
CAP_DAC_READ_SEARCH， 拥 有 这 种 特权 的 进程 可 以 读 任何 文件 ， 并 且 可 以 搜索 任何 日 录 节 点 ， 所 
以 ， 代 码 中 的 177 行 检查 所 楼 求 的 是 否 读 访问 或 者 对 日 录 节 点 的 搜索 。 这 里 要 提醒 读者 ， 搜 索 目 汞 节 
点 时 所 此 求 的 访问 方式 为 “执行 ”而 不 是 “ 读 ”% 所 以 在 新 一 节 里 path_walk( ) 的 for 循环 中 对 每 个 目录 
节点 调用 permission( ) 时 的 参数 为 MAY_EXEC， 而 不 是 MAY READ. 

如 前 所 述 , 用 户 进程 在 一 定 条 件 下 可 以 通过 系统 调用 来 设置 其 用户 号 , 有 关 的 系统 调用 有 setuid( )、 
setfsuid( ). seteuid( ) 以 及 setreuid( )。 其 中 setuid( ) 是 标准 的 “设置 用 户 号 ”调用 ， 内 核 由 与 之 相应 的 函 
数 为 sys_setuid( )， 其 代码 在 sys.c P: 


548 /* 

549 * setuid( ) is implemented like SysV with SAVED 1DS 

550 * 

551 * Note that SAVED ID's is deficient in that a setuid root program 

552 * like sendmail, for example, cannot set its uid to be a normal 

553 * user and then switch back, because if you're root, setuid( ) sets 

554 * the saved uid too. If you don't like this, blame the bright people 
555 * in the POSIX committee and/or USG. Note that the BSD-style setreuid( ) 
556 * will allow a root program to temporarily drop privileges and be able to 
557 * regain them by swapping the real and effective uid. 
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558 */ 
559 asm] inkage long sys setuid(uid t uid) 


560 { 

561 int old euid = current->euid; 

562 int old ruid, old_suid, new ruid; 

563 

564 old ruid = new ruid = current->uid: 

565 old suid = current—^suid: 

566 if (capable(CAP SETUID)) | 

567 if (uid !- old ruid && set user(uid) « 0) 
568 return -EAGAIN; 

569 current->suid = uid; 

570 } else if ((uid != current->uid) && (uid !- current->suid)) 
571 return -EPERM; 

572 

573 current-^fsuid = current—>euid = uid; 

574 

575 if (old euid != uid) 

576 current->dumpable = 0; 

577 

578 if (!issecure (SECURE NO SETUID FIXUP)) | 

579 cap emulate setxuid(old ruid, old euid, old suid); 
580 ] 

581 

582 return 0; 

583  ] 


般 超级 用 户 ( 其 euid 为 0) 都 具有 CAP. SETUID 授权 ,此 时 在 569 行 和 573 行 把 当前 进程 的 euid、 
suid、fsuid 部 设立 成 新 的 uid。 注 意 ， 这 里 把 suid 也 设置 成 新 的 uid， 实 在 是 个 败笔 ， 因 为 task_struct 
结构 中 的 suid 本 意 在 于 “save uid”, 即 在 斩 时 改变 euid 时 可 以 记 住 原来 的 euid 是 什么 , 以 便 以 后 恢复 。 
MSE suid 也 设置 成 了 新 的 “uid ”， 就 失去 了 它 的 作用 ， 并 且 用 户 号 改变 的 历史 也 被 一 笔 勾 销 ， 以 
后 无 法 恢复 成 超级 用 户 了 。 代 码 的 原作 者 在 函数 前 而 加 了 注 ， 也 谈 到 了 这 个 问题 。 可 是 ， 超 级 用 户 在 
WI setuid( ) 时 把 其 suid 也 设置 成 新 的 uid， 这 是 在 POSIX 标准 中 规定 了 的 ， 明 知 木 合理 也 只 能 如 此 。 
ERAR, Æ BSD (UA Linux) PAIE T RAWA seteuid( ) 和 setreuid( ) 来 避免 这 个 缺点 。 相 
比 之 人 下， 对 于 不 其 备 CAP SETUID 授权 的 进程 ， 则 只 设置 当前 进程 的 euid Al fsuid， 但 是 只 有 在 新 的 
uid 就 是 进程 的 真实 uid 或 者 suid 叶 才 能 进行 。 

每 当 进 程 改 变 其 euid 时 ， 其 task. struct 结构 中 的 标志 位 dumpable 就 被 滞 0， 这 样 进程 在 访问 出 错 
时 就 不 会 产 牛 dump 文件 了 。 

如 果 当 前 进程 具有 CAP_SETUID 授权 ， 并 且 新 的 uid 又 与 康 来 的 真实 用 户 号 不 同 ， 则 和 连 进 程 的 页 
实 几 户 号 也 要 改变 ， 这 是 通过 set user( ) 实 施 的 〈kemel/sys.c): 





[sys setuid( ) > set. user( )] 


466 static int set user(uid t new ruid) 
467 — | 


477 . 
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468 struct user struct *new user, *old user; 

469 

ATO /* What if a process setreuid( )' s and this brings the 
471 * new uid over his NPROC rlimit? We can check this now 
472 * cheaply with the new uid cache, so if it matters 
473 * we should be checking for it.  -DaveM 

474 */ 

415 new user = alloc uid(new ruid); 

416 if (!new user) 

477 return -EAGAIN; 

478 old user = current-2user; 

479 atomic dec(&old user-?processes); 

480 atomic inc(&new user->processes) ; 

481 

482 current—>uid = new ruid; 

483 current->user = new user; 

484 free uid(old user); 

485 return 0; 

486 } 


我 们 在 “进程 ”一 章 中 讲 到 过 ， 内 核 中 有 个 杂凑 表 uidhash， 各 个 进程 的 task_struct 结构 按 其 用 户 
号 uid 的 杂凑 值 挂 入 该 杂凑 表 的 某 个 队列 中 。 这样， 根据 给 定 的 vid 就 本 以 很 快 找到 所 有 属 开 该 用 广 的 
进程 。 同 时 ， 在 task. struct 结构 中 有 个 指针 user， 指 向 一 个 user_struct 数据 结构 ， 这 个 数据 结构 就 好 像 
task, struct 结构 与 杂凑 队列 之 间 的 连接 件 ， 进 程 的 task_struct 结构 就 是 通过 它 挂 入 杂 竣 队列 。 现在， W 
然 当 前 进程 要 “改换 门庭 ”了 ， 就 要 从 原来 的 杂凑 队列 中 脱 链 并 将 其 user_sturct SMAI, RERI 
分 配 一 个 user_stret 结构 并 挂 入 另 -个 队列 。 函 数 free_uid( ) 的 代码 也 在 kernel/fork.c F: 


[sys_setuid( ) > set user( ) > free uid( )] 


16 void free uid(struct user struct *up) 


77 d 

78 if (up && atomic dec and lock(&up-? | count, &uidhash lock)) { 
79 uid hash_remove (up) ; 

80 kmem cache free(uid cachep, up): 

81 spin unlock (&uidhash lock); 

82 j 

83 ] 


函数 alloc_uid( ) 的 作用 与 free_uid( ) 正 好 相反 ， 我 们 就 不 八 出 它 的 代码 了 。 

我 们 在 前 面 讲 过 ， 超 级 用 户 的 进程 通常 是 得 到 某 些 授权 的 。 相 比 之 下 ， 一 般 用 户 则 得 不 到 任何 授 
Bt, 它 所 有 的 只 是 文件 系统 的 访问 权限 机 制 DAC 所 赋予 的 基本 权利 , 而 且 这 些 菇 本 权利 也 有 可 能 得 个 
到 兑现 ， 因 为 文件 的 属性 如 IS_IMMUTABLE 等 是 凌驾 于 DAC 之 上 的 。 可 想 而 知 ， 当 一 个 超级 用 户 进 
程 改 变 其 uid 至 某 一 普通 用 户 时 ， 其 授权 也 此 发 生 ，“ 些 变化 。 

对 进程 的 授权 是 独立 于 文件 系统 的 访问 权限 控制 以 外 ， 并 且 凌 驾 于 其 上 的 机 制 。 为 此 日 的 在 
task. struct 结构 中 设置 了 cap_effctive、cap_inheritable 和 cap permitted 三 个 字段 ， 其 类 型 为 kernel_cap_tb 
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日 前 实际 上 是 32 位 无 符号 整数 。 每 一 种 授权 (capability) 都 用 一 个 标志 位 来 表示 ， 有 目前 共 定义 了 29 
种 授权 ， 所 以 32 位 无 符号 整数 就 够 用 了 。 这 些 标志 位 (和 授权 ) 的 定义 在 include/linux/capability.h 中 : 


65 
66 
67 
68 
69 
70 
71 
72 
73 
74 
75 
76 
7T 
78 
79 
80 
81 
82 
83 
84 
85 
86 
87 
88 
89 
90 
91 
92 
93 
94 
95 
96 
97 
98 
99 
100 
101 
102 
103 
104 
105 
106 
107 
108 


/六 六 
** POSIX-draft defined capabilities. 
*x/ 


/* In a system with the [ POSIX CHOWN RESTRICTED] option defined, this 
overrides the restriction of changing file ownership and group 
ownership. */ 


#define CAP CHOWN 0 


/* Override all DAC access, including ACL execute access if 
[ POSIX ACL] is defined. Excluding DAC access covered by 
CAP LTNUX IMMUTABLE. */ 


&define CAP DAC OVERRIDE I 


/* Overrides all DAC restrictions regarding read and search on files 
and directories, including ACL restrictions if [ POSIX ACL] is 
defined. Excluding DAC access covered by CAP LINUX IMMUTABLE. */ 


#define CAP DAC READ SEARCH 2 


/* Overrides all restrictions about allowed operations on files, where 
file owner ID must be equal to the user ID, except where CAP FSETID 
is applicable. It doesn't override MAC and DAC restrictions. */ 


#define CAP FOWNER 3 


/* Overrides the following restrictions that the effective user ID 
shall match the file owner ID when setting the S ISUID and S ISGID 
bits on that file; that the effective group ID (or one of the 
supplementary group IDs) shall match the file owner ID when setting 
the S ISGID bit on that file; that the S ISUID and S ISGID bits are 
cleared on successful return from chown(2) (not implemented). */ 


üdefine CAP FSETID 4 

/* Used to decide between falling back on the old suser( ) or fsuser( ). */ 
Hdefine CAP FS MASK Ox1lf 

/* Overrides the restriction that the real or effective user ID of a 


process sending a signal must match the real or effective user ID 
of the process receiving the signal. */ 
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#define CAP KILL 5 


/* Allows setgid(2) manipulation */ 
/* Allows setgroups(2) */ 
/* Allows forged gids on socket credentials passing. */ 


#define CAP SETGID 6 


/* Allows set*uid(2) manipulation (including fsuid). */ 
/* Allows forged pids on socket credentials passing. */ 


Hdefine CAP SETUID 7 
fk 
** Linux-specific capabilities 
xok/ 


/* Transfer any capability in your permitted set to any pid, 
remove any capability in your permitted set from any pid */ 


#define CAP SETPCAP 8 


/* Allow modification of S IMMUTABLE and S APPEND file attributes */ 


&define CAP LINUX IMMUTABLE 9 


/* Allows binding to TCP/UDP sockets below 1024 */ 
/* Allows binding to ATM VCIs below 32 */ 


&define CAP NET BIND SERVICE 10 


/* Allow broadcasting, listen to multicast */ 


&define CAP NET BROADCAST 11 


/* 
/* 
/* 
f* 
/六 


/* 
/* 
/* 
/* 
/* 
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Allow 
Allow 
Allow 
Allow 
Allow 


interface configuration */ 

administration of IP firewall, masquerading and accounting */ 
setting debug option on sockets */ 

modification of routing tables */ 

setting arbitrary process / process group ownership on 


sockets */ 


Allow 
Allow 
Allow 
Allow 
Allow 


binding to any address for transparent proxying */ 
setting TOS (type of service) */ 

setting promiscuous mode */ 

clearing driver statistics */ 

multicasting */ 


157 
158 
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177 
178 
179 
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181 
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185 
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/* Allow read/write of device-specific registers */ 
/* Allow activation of ATM control sockets */ 


#define CAP NET ADMIN 12 


/* Allow use of RAW sockets */ 
/* Allow use of PACKET sockets */ 


define CAP NET RAW 13 

/* Allow locking of shared memory segments */ 

/* Allow mlock and mlockall (which doesn't really have anything to do 
with IPC) */ 

#define CAP IPC LOCK 14 

/* Override IPC ownership checks */ 

#define CAP IPC OWNER 15 

/* Insert and remove kernel modules ~ modify kernel without limit */ 

/* Modify cap bset */ 


#define CAP SYS MODULE 16 


/* Allow ioperm/iopl access */ 
/* Allow sending USB messages to any device via /proc/bus/usb */ 


define CAP SYS RAWIO 17 

/* Allow use of chroot( ) */ 

Hdefine CAP SYS CHROOT 18 

/* Allow ptrace( ) of any process */ 

#define CAP SYS PTRACE 19 

/* Allow configuration of process accounting */ 

define CAP SYS PACCT 20 

/* Allow configuration of the secure attention key */ 

/* Allow administration of the random device */ 

/* Allow examination and configuration of disk quotas */ 
/* Allow configuring the kernel's syslog (printk behaviour) */ 
/* Allow setting the domainname */ 


/* Allow setting the hostname */ 
/* Allow calling bdflush( ) */ 
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223 
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226 
227 
228 
229 
230 
231 
232 
233 
234 
235 
236 
237 
238 
239 
240 
241 
242 
243 
244 
245 
246 
247 
248 
249 
250 
251 
252 


Linux 内 核 源 代 码 情景 分 析 〈 上 上 册 ) 


/* Allow mount( ) and umount( ), setting up new smb connection */ 

/* Allow some autofs root ioctls */ 

/* Allow nfsservctl */ 

/* Allow VM86 REQUEST IRQ */ 

/* Allow to read/write pci config on alpha */ 

/* Allow irix prctl on mips (setstacksize) */ 

/* Allow flushing all cache on m68k (sys cacheflush) */ 

/* Allow removing semaphores */ 

/* Used instead of CAP CHOWN to “chown” IPC message queues, semaphores 
and shared memory */ 

/* Allow locking/unlocking of shared memory segment */ 

/* Allow turning swap on/off */ 

/* Allow forged pids on socket credentials passing */ 

/* Allow setting readahead and flushing buffers on block devices */ 

/* Allow setting geometry in floppy driver */ 

/* Allow turning DMA on/off in xd driver */ 

/* Allow administration of md devices (mostly the above, but some 
extra ioctls) */ 

/* Allow tuning the ide driver */ 

/* Allow access to the nvram device */ 

/* Allow administration of apm bios, serial and bttv (TV) device */ 

/* Allow manufacturer commands in isdn CAPT support driver */ 

/* Allow reading non-standardized portions of pci configuration space */ 

/* Allow DDI debug ioctl on sbpcd driver */ 

/* Allow setting up serial ports */ 

/* Allow sending raw qic-117 commands */ 

/* Allow enabling/disabling tagged queuing on SCSI controllers and sending 
arbitrary SCSI commands */ 

/* Allow setting encryption key on loopback filesystem */ 


8define CAP SYS ADMIN 21 
/* Allow use of reboot( ) */ 
#define CAP SYS BOOT 22 


/* Allow raising priority and setting priority on other (different 
UID) processes */ 

/* Allow use of FIFO and round-robin (realtime) scheduling on own 
processes and setting the scheduling algorithm used by another 
process. */ 


define CAP SYS NICE 23 


/* Override resource limits. Set resource limits. */ 

/* Override quota limits. */ 

/* Override reserved space on ext2 filesystem */ 

/* NOTE: ext2 honors fsuid when checking for resource overrides, so 
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253 you can override using fsuid too */ 

254 /* Override size restrictions on IPC message queues */ 

255 /* Allow more than 64hz interrupts from the real-time clock */ 
256 /* Override max number of consoles on console allocation */ 
257 /* Override max number of keymaps */ 

258 

259 #define CAP SYS RESOURCE 24 

260 

261 /* Allow manipulation of system clock */ 

262 /* Allow irix_stime on mips */ 

263 /* Allow setting the real-time clock */ 

264 

265 #define CAP SYS TIME 25 

266 

267 /* Allow configuration of tty devices */ 

268 /* Allow vhangup( ) of tty */ 


260 

270 #define CAP SYS TTY CONFIG 26 

271 

272 /* Allow the privileged aspects of mknod( ) */ 
273 

274 #define CAP MKNOD 27 

275 

276 /* Allow taking of leases on files */ 

277 

278 #define CAP LEASE 28 


代 但 的 作者 已 经 加 了 详尽 的 注释 ， 我 们 这 里 就 不 作 解 释 了 。 定 义 中 的 数值 为 标志 位 的 位 置 ， 如 
CAP CHOWN 的 定义 为 0， 即 第 0 位 。 对 授权 的 检查 是 出 capable( ) 完 成 的 ， 这 是 个 inline EE, E Y. 
于 sched.h "H: 


681 /* 

682 * capable( ) checks for a particular capability. 

683 * New privilege checks should use this interface, rather than suser( ) or 
684 * fsuser( ). See include/linux/capability.h for defined capabilities. 
685 */ 

686 

687 static inline int capable (int cap) 

688 { 

689 #if 1 /* ok now */ 

690 if (cap_raised(current->cap_effective, cap)) 

691 Helse 

692 if (cap is fs cap(cap) ? current->fsuid == 0 : current—>euid == 0) 
693 #endif 

694 { 

695 current->flags |= PF_SUPERPRIV; 

696 return 1; 
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697 } 
698 return 0; 
699 } 


这 里 的 cap_raised( ) 是 个 宏 操 作 ， 与 之 有 关 的 定义 都 在 capability.h 中 
298 Hdefine cap t(x) (x) 
307 #define CAP TO MASK(x) (1 << (x)) 
310  &define cap raised(c, flag) (cap t(c) & CAP TO MASK(flag) & cap bset) 


全 局 量 cap_bset 则 设置 成 CAP_FULL_SET， 即 全 部 标志 位 均 为 1。 

当 进 程 改 变 其 uid 时 ， 要 通过 cap_emulate_setxuid( ) 检 得 并 可 能 改 必 其 授权 情况 ， 除 非 在 编译 内 核 
前 将 一 个 常数 SECUREBITS_DEFAULT 中 的 SECURE. NO. SETUID FIXUP 标志 位 设 演 成 为 1， 表 示 
可 以 忽略 对 进程 的 授权 机 制 。 印 数 cap_emuiate_setxuid( )f f C fid TE sys.c P: 


[sys_setuid( ) > cap emuiate setxuid( )] 


420 /* 

421 * cap emulate setxuid( ) fixes the effective / permitted capabilities of 
422 * a process after a call to setuid, setreuid, or setresuid. 

423 * 

424 * 1) When set*uiding from one of {r,e,s}uid == 0 to all of 

425 * {r,e,s}uid !- 0, the permitted and effective capabilities are 

426 * cleared. 

421 * 

428 * 2) When set*uiding from euid == 0 to euid != 0, the effective 
429 * capabilities of the process are cleared 

430 * 

431 * 3) When set*uiding from euid !- 0 to. cuid == 0, the effective 
432 * capabilities are set to the permitted capabilities. 

433 * 

434 * fsuid is handled elsewhere. fsuid -= 0 and {r,e,s}uid!= 0 should 
435 * never happen. 

436 * 

437 * -astor 

438 * 

439 * cevans - New behaviour, Oct '99 

440 * A process may, via prctl( ), elect to keep its capabilities when it 
441 * calls setuid( ) and switches away from uid--0. Both permitted and 
442 * effective sets will be retained 

443 * Without this change, it was impossible for a daemon to drop only some 
444 * of its privilege. The call to setuid(!-0) would drop all privileges! 
445 * Keeping uid 0 is not an option because uid 0 owns too many vital 
446 * files.. 

447 * Thanks to Olaf Kirch and Peter Benie for spotting this 
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448 */ 
449 extern inline void cap emulate setxuid(int old ruid, int old euid, 


450 int old suid) 

451 { 

452 if ((old ruid — 0 | old euid == 0 || old suid == 0) && 
453 (current -duid != 0 && current >euid {= 0 && current->suid != 0) && 
454 !current-^keep capabilities) { 

455 cap clear(current-?cap permitted); 

456 cap clear(current-^cap effective); 

457 } 

458 if (old euid == 0 && current->euid !- 0) | 

459 cap clear(current-?cap effective); 

460 } 

461 if (old euid != 0 && current-^euid == 0) { 

462 current-?cap effective = current—>cap_permitted: 

463 } 

464  ] 


代码 中 的 cap. clear( ) 是 个 宏 操 作 ， 定 义 十 capabllity.h: 
343  &define cap clear(c) do { cap t(c) = 0; ) while(0) 


结合 代码 作者 所 加 的 注释 ， 读 者 应 该 叫 以 读 懂 这 段 代码 。 举 例 来 说 ， 如 果 一 个 超级 用 户 进程 通过 
seteuid( ) 将 进程 的 有 效用 户 号 enid 从 0 改变 成 某 个 普通 用 户 的 用 户 号 〈 非 0)， 则 进程 的 “有 效 授权 ” 
cap effective 变 成 0， 但 是 cap permitted 并 未 改变 。 以 后 ， 当 这 个 进程 恢复 版 先 的 euid 上 时， 就 将 进程 
的 cap permitted 复制 到 cap. effective "P. (HAE, setuid( ) 将 进程 的 uid、euid 以 及 suid 全 部 改变 ， 所 以 
进程 的 cap. permitted 和 cap. effective “者 都 被 清 0， 以 后 就 不 能 恢复 了 。 不 过 这 里 还 有 个 例外 ， 那 就 
是 进程 的 task_struct 结构 中 有 个 标志 位 keep_capabilitles， 可 以 通过 系统 调用 pretl( ) 将 这 个 标志 位 预先 
设 成 1， 这 样 就 可 以 避免 将 cap permitted 清 0〈 注 意 第 458 行 的 if 前 向 并 没有 elge， 所 以 仍 会 将 
cap_effective 清 0)。 

读者 可 能 会 因为 曾经 使 用 shell 命令 “su" 升 格 成 超级 用 户 而 得 出 … 个 错觉 ， 似 乎 普通 用 户 的 进程 
也 可 以 遂 过 系统 调用 setuid( ) 将 自己 的 用 户 号 设置 成 0 而 变 成 超级 用 户 进 程 。 KK, bins 是 个 属于 超 
级 用 户 的 “set uid” 吕 执行 程序 ， 普 通用 户 的 进程 在 执行 这 个 程序 时 就 有 了 超级 用 户 的 “身份 ”。 齐 检 
查 了 门 令 以 后 ， 它 就 fork( ) 出 一 个 新 的 shell 进程 。 这 个 新 shell 进程 的 父 进程 具有 超级 用 户 的 身份 ， 所 
以 它 也 成 了 超级 用 户 进 程 。 全 于 原来 的 shell 进程 和 su 进程 ， 则 都 在 睡眠 等 待 《 直 全 新 的 shell 进程 
exit( ))。 从 效果 上 看 ， 就 好 像 新 的 shell 进程 从 原先 的 shell 进程 手 小 “接管 ”了 终端 的 键盘 和 显示 屏 ; 
而 从 用 户 界 身 来 看 ， 则 似乎 原来 的 shell 进程 “升格 ”成 了 超级 用 户 进程 。 

在 常规 的 访问 权限 控制 机 制 DAC 的 基础 | ， 有 些 Unix 变种 版 本 (如 AIX, Solaris 等 ) 作 了 :个 
重要 的 改进 ， 叫 做 “访问 控制 单 ”(Access Control List), MEA ACL。 在 实现 了 ACL 的 系统 中 ， 每 个 
文件 可 以 伴随 存储 一 份 访问 控制 单 ， 里 面 有 一 些 “ 访 问 控制 项 ”(Access Control Entry)， 可 以 为 具体 的 
用 户 规定 对 基本 访问 权限 的 修正 。 例如， 可 以 这 样 规定 : 当 用 户 A 属于 用 户 组 gl ie ost Pc I E 
问 权 ;对 于 用 户 B 则 永远 增加 写 访 问 权 ， 谭 不 论 其 是 否 为 文件 主 或 则 组 人 。 显 然 ， 对 于 商务 应 用 这 是 
很 有 有 意义 的 ， 可 以 改善 文件 系统 的 安全 性 。 沁 前 的 Linux 版 本 正在 朝 实现 ACL Vig. Yr 些 数 据 结构 
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RECON TEL edu ui LE AU e RR 
中 已 经 设置 了 用 于 ACL 的 结构 成 分 (如 ext2_inode 结构 中 的 i. file acl # i_dir_acl), 以 及 ext2_acl_entry 
的 数据 结构 ， 但 是 其 代码 则 尚未 实现 ， 所 以 在 函数 permission ) 中 并 未 访问 目标 节点 的 ACL. 

我 们 在 前 面 看 到 了 当 进 程 改变 用 户 号 时 授权 的 改变 ， 可 是 这 些 授权 最 初 是 怎么 来 的 呢 ? 让 我 们 来 
看 当 进程 通过 exec( ) 执 行 -个 可 执行 文件 时 的 情况 ， 因 为 每 一 个 进程 初始 的 授权 最 终 都 中 以 追溯 到 这 
里 ， 例 如 ， 当 -个 用 户 login 进入 系统 时 ， 系 统 就 会 fork( ) 出 一 个 进程 并 让 它 执行 /bin/bash( 或 esh $), 
而 这 个 shell 进程 就 成 为 该 用 户 忆 动 的 所 有 进程 的 祖先 .在 “进程 ” 章 中 , 读者 已 经 看 到 在 do_execve( ) 
中 要 先 通过 prepare binprm( ) 设 置 一 个 linux_binprm 结构 ， 在 这 个 数据 结构 中 同样 有 cap. effective, 
cap permitted 和 cap inheritable 三 字段 ， 分 别 与 task struct 结构 中 的 三 个 字段 相对 应 。 涵 数 
prepare, binprm( ) 中 与 授权 有 关 的 处 理 为 《 见 fs/exec.c?: 


[sys_execve( ) > do. execve( ) > prepare binprm( )] 


600 int prepare binprm(struct linux binprm *bprm) 


601 { 

612 bprm->e_uid = current-^cuid; 

613 bprm->e gid = current-^egid; 

614 

615 if (!IS NOSUID(inode)) | 

616 /* Set-uid? */ 

617 if (mode & S_ISUID) 

618 bprm->e_uid = inode->i_uid; 

619 

620 /* Set-gid? */ 

621 /* 

622 * If setgid is set but no group execute bit then this 
623 * is a candidate for mandatory locking, not a setgid 
624 * executable. 

625 */ 

626 if ((mode & (S_ISGTD | S IXGRP)) == (S ISGID | S_IXGRP)) 
627 bprm-»e gid = inode->i_gid; 

628 } 

629 

630 /* We don’t have VFS support for capabilities yet */ 

631 cap clear (bprm->cap_inheritable) ; 

632 cap clear(bprm-^cap permitted); 

633 cap clear(bprm-?cap effective); 

634 

635 /* To support inheritance of root-permissions and suid-root 
636 * exccutables under compatibility mode, we raise all three 
637 * capability sets for the file 

638 * 

639 * If only the real uid is 0, we only raise the inheritable 
640 * and permitted sets of the executable filo. 

641 */ 

642 
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643 if (!issecure(SECURE NOROOT)) | 

644 if (bprme uid == 0 |! current ^uid == 0) 1 
645 cap set full (bprm->cap inheritable): 

646 cap set full(bprm-^»cap permitted); 

647 } 

648 if (bprm->e uid == 0) 

619 cap_set_full (bprm->cap_effective) ; 

650 } 

651 

652 memsct (bprm—>buf, 0, BINPRM BUF SIZE); 

653 return kernel read(bprm-^file, 0, bprm->buf, BINPRM BUF SIZE); 
654 了 


我 们 先 从 631 行 看 起 ， 等 一 下 还 要 问 到 它 前 面 的 几 行 。 三 个 字段 全 部 清 0， 这 就 是 普 首 用户 得 到 
的 授权 。 然 后 ， 如 果 进 程 在 执行 该 可 执行 程序 时 的 有 效用 户 号 为 0， 则 将 linux_binprm 结构 中 的 
cap_inheritable 和 cap effective 设 成 全 1; 如 果 进 程 的 真实 用 户 号 为 0 但 有 效用 户 号 不 为 0， 则 仅 将 
cap inheritable 设 成 全 1。 也 就 是 说 ， 超 级 咱 户 进程 最 初时 具有 全 部 授权 。 但 是 在 开始 运行 过 程 后 超级 
有 骨 户 进程 可 以 通过 系统 调用 capset( ) 来 减少 其 授权 ， 改 变 以 后 进程 的 用 户 号 仍旧 起 0， 还 是 超级 用 户 进 
程 ， 但 是 授权 却 减 小 了 。 注 意 ，capset( ) 只 能 减少 而 不 能 增加 个 进程 已 有 的 授权 ， 所 以 是 单 向 的 。 

回 到 前 面 的 第 615 行 至 628 行 ， 可 以 看 到 《可 执行 文件 的 〉 模 式 mode 中 的 S_ISGID 标志 位 怎样 
影响 着 linux_bimprm 结构 中 的 用 户 号 e_uid 和 组 号 e gid. 

设置 好 linux_binprm 结构 ， 并 且 装 入 了 可 执行 文件 的 喘 象 以 后 ， 内 核 会 通过 一 个 函数 
compute creds(), AR$ linux binprm 结构 中 的 内 容 来 设置 当前 进程 的 task. struct 结构 中 的 相应 内 容 , 这 
^re ACIE CR E exec.c rl: 


[load aout binary( ) > compute, creds( )] 或 [load elf binary( ) > compute creds( )] 


656 /* 

657 * This function is used to produce the new IDs and capabilities 
658 * from the old ones and the file s capabilities 

659 * 

660 * The formula used for evolving capabilities is: 

661 * 

662 * pl’ = pl 

663 * Geek) pP' = (fP & X) | (£I & pl) 

664 * pE = pP' & fE [NB. fE is 0 or ^0] 

665 * 

666 * [=Inheritable, P-Permitted, E=Effective // p-process, f-file 
667 * ' indicates post-exec( ), and X is the global 'cap bsct’. 

668 * 

669 x/ 

670 

671 void compute creds(struct linux binprm *bprm) 

6722 í 

613 kernel cap t new permitted, working; 
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int do unlock = 0; 


new permitted = cap intorsect(bprm-?cap permitted, cap. bset) ; 

working = cap intersect (bprm->cap inheritable, 
current—>cap_inheritable) ; 

new permitted = cap combine (new_permitted, working) ; 


if (bprm-e uid != current->uid || bprm->e_gid != current gid | | 
!cap_issubset (new permitted, current->cap_permitted)) { 
current—>dumpable = 0; 


lock kernel ( ); 
if (must not trace exec(current) 
|| atomic read(&current-»fs-^count) > 1 
|| atomic read (&current->files->count) > 1 
i| atomic _read(&current->sig—>count) > 1) | 
if(!capable(CAP SETUID)) { 
bprm->e uid =~ current->uid; 
bprm->e gid = current-?gid; 
} 
if(!capable(CAP SETPCAP)) | 
new permitted = cap intersect(new permitted, 
current-^cap permitted); 


} 


do unlock = 1; 


/* For init, we want to retain the capabilities set 
* in the init task struct. Thus we skip the usual 
* capability rules */ 

if (current2pid !- 1) { 
current ->cap permitted = new permitted; 


curreni-?cap effective 
cap intersect(new permitted, bprm->cap_effective) ; 


/* AUD: Audit candidate if current—^cap effective is set */ 


current->suid = current->euid = current—>fsuid = bprm-^e uid; 
current—»sgid = current->egid = current—>fsgid = bprm-?e gid; 


1 


if(do unlock) 
unlock kernel( ); 
current—>keep capabilities = 0; 


第 5 章 文件 系统 
ATIRI prepare_binprm( ) 设 置 了 linux_binprm 结构 中 的 这 些 授 权 以 后 , 还 要 与 进程 当前 山 有 的 授权 
进行 _ 些 整合 。 这 里 的 cap intersect( ) 和 cap_combine( KK Æ inline 函数 ， 还 有 个 cap_issubset 则 为 宏 操 
作 ， 均 定义 于 capability.h: 


312 static inline kernel cap t cap combine(kernel cap t a, kernel cap t b) 
33 f 


314 kernel cap t dest; 

315 cap t(dest) = cap t(a) ` cap t(b); 
316 return dest; 

a7) 

318 

319 static inline kernel cap t cap intersect(kernel cap t a, kernel cap t b) 
320 { 

321 kernel cap t dest; 

322 cap t(dest) = cap t(a) & cap t(b); 
323 return dest; 

34  ] 


34]  &define cap issubset(a, sot)  (!(cap t(a) & ‘cap t(set))) 


也 就 是 说 ， 对 于 普通 用 户 整 合 以 后 仍 为 0， 而 对 于 超级 用 户 则 整合 以 后 为 当前 的 cap, permitted 与 
当前 的 cap_inheritable 的 逻辑 和 。 如 果 这 个 逻辑 和 不 起 当前 cap permitted 的 一 个 子 集 ， 则 意味 着 执行 
给 定时 执行 程序 时 的 授权 将 比 进程 现 有 的 授权 有 所 提高 ， 所 以 把 变量 cap raised 设 成 1。 当然 ， 如 果 已 
经 通过 capset( ) 将 当前 进程 的 cap_inheritable 设置 成 0O， 则 这 种 授权 的 回升 就 不 可 能 发 生 了 。 授 权 的 回 
升 一 般 是 允许 的 ， 但 是 在 第 674 行 所 列 的 五 种 情况 下 则 是 有 条 件 地 允许 。 如 果 当 前 的 cap permitted 中 
不 包括 CAP_SETPCAP 就 不 允许 了 。 这 里 IS NOSUID 是 个 宏 定义 ,表示 inode 所 在 的 文件 系统 在 安装 
时 在 super. block 结构 中 将 MS_NOSUID 标志 位 设 成 了 1, 使 该 文件 系统 中 所 有 可 执行 文件 的 “set_uid” 
标志 位 都 作废 了 。 

] 号 进程 , BI init( ) 进 程 , 是 特殊 的 , 它 的 授权 是 在 宏 定义 INIT. TASK 中 国定 了 的 。 其 cap_effectve、 
cap inheritable 和 cap permitted 分 别 定 为 CAP INIT EFF SET 、CAP INIT INH SET 以 及 
CAP FULL SET. 其 中 CAP FULL SET 为 全 部 授权 ,市 CAP. INIT EFF. SET fll CAP. INIT. INH. SET 
则 为 除 CAP. SETPCAP 以 外 的 全 部 授权 。 ASP PEE CIS EAE SEE init( ) 进 程 的 后 裔 ,所 以 只 要 init( ) 
进程 调用 capset( ) 清 除 其 cap. effective 中 的 CAP_SETPCAP， 则 以 后 fork( ) 出 来 的 所 有 进程 就 都 没有 了 
PPM. Min, RAHA CAP LINUX IMMUTABLE 授权 的 进程 才能 改变 文件 的 S IMMUTABLE 
和 S_APPEND 属性 ， 如 果 init( ) 进 程 将 /etc/inetd.conf 的 属性 加 上 “不 可 改变 ”， 把 /var/log/messages 加 
上 S_APPEND 属性 ， 然 后 清除 其 CAP_LINUX_IMMUTABLE 授权 ， 则 以 后 fork( ) 出 来 的 进程 永远 都 
不 能 改变 这 山 个 文件 的 这 些 属性 了 。 显 然 ， 这 是 对 于 文件 系统 安全 性 的 一 大 改进 。 

前 面 讲 过 ， 将 可 执行 文件 设置 成 “set_uid” 模 式 ， 可 以 使 执行 它 的 进程 在 执行 期 间 将 其 euid 暂时 
改 成 该 文件 的 文件 主 的 uid， 实 践 中 通常 是 使 普通 用 户 在 执行 某 个 可 执行 文件 的 期 间 变 成 超级 用 户 。 这 
在 Unix 的 早期 是 一 项 很 巧妙 的 发 明 ， 到 现在 也 还 有 很 重要 的 意义 。 但 是 ,近年 来 的 实践 发 现 ， 对 Unix 
系统 的 黑客 攻击 事件 大 多 数 者 是 与 此 有 关 的 。 这 种 攻击 都 与 可 执行 程序 本 身 的 缺陷 有 关 ， 其 中 最 主要 
的 就 是 所 谓 “ 绥 冲 区 溢出 ”攻击 。 举 例 来 说 ， 可 能 会 有 这 样 - 个 应 用 程序 : 
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main(int argc, char **argv) 


{ 
char options [128]; 
if(argv>1) { 
strepy (options, argv[1]); 
} 
} 


这 段 程序 的 开头 将 用 户 提供 的 命令 行 参数 捞 贝 到 一 个 大 小 为 128 字 节 的 字符 数组 中 ， 但 是 却 没 有 
检查 字符 串 的 长 度 ， 这 是 个 常见 的 错误 。 : 般 情 况 下 ， 命 令 行 参数 不 伞 才 超过 128 字 分 ， 所 以 通常 
不 会 造成 问题 。 可 是 ， 如 果 碰 巧 (或 故意 ) 命 令 行 参数 的 字符 串 长 度 为 150 WIE? RR stropy 
越界 了 。 出 于 字符 数组 options 是 在 堆栈 中 的 局 部 量 , 一 越界 以 后 就 可 能 把 main( ) 的 返回 地 址 也 冲 掉 了 。 
这 一 般 会 导致 从 main( ) 返 回 时 访问 出 错 ， 但 是 怒 然 所 旧 做 的 事情 已 经 完成 了 ， 一 般 也 就 无 所 谓 了。 可 
是 ， 黑 客 们 有 可 能 在 经 过 多 次 试 凑 以 后 在 堆栈 中 原先 为 main( ) 的 返回 地 址 的 位 置 上 有 目的 地 植 入 一 个 
返回 地 址 ( 道 过 strepy ) 从 命令 行 参数 中 复制 进去 )， 使 得 从 main ) 返 回 时 就 “返回 ”到 一 个 特定 的 地 
方 去 。 这 个 “特定 的 地 方 ”通常 了 出 在 堆栈 中 ， 并 且 通 过 类 似 的 手段 植 入 了 一 小 段 可 执行 代码 ， 例 如 相 
当 于 编 详 后 的 “system(“/bin/bash”*) 这 么 二 十 来 个 字 节 。 这 么 一 来 ， 当 从 main ) 返 同时 就 会 fork( ) 出 一 
个 shell 进程 出 来 。 对 于 一 般 的 可 执行 文件 ， 这 么 做 的 意义 似乎 并 不 大 ， 因 为 既然 你 能 启动 这 个 可 执行 
文件 ， 就 说 明 你 本 来 就 有 个 shell 进程 。 可 是 ， 如 果 这 个 可 执行 文件 是 个 “set uid” XR? 这 时 候 黑 
客 们 从 一 个 普通 用 户 的 shell 进程 开始 ， 却 以 得 到 一 个 超级 用 户 的 shell 进程 而 告终 ， 因 为 这 个 shell 3t 
程 是 从 超级 用 户 退 出 之 前 fork ) 的 。 当 然 ， 黑 客 们 事先 未 必 知 道 这 个 “set uid" 的 可 执行 文件 存在 着 这 
样 的 问题 ， 他 们 可 能 是 先 通 过 一 条 shell 命令 “find/ -perm 00400 -uid 0 -type f -print” 列 出 系统 中 所 有 
属 十 趋 级 用 户 的 “set uid” 文 件 ， 然 后 逐一 试 凑 而 已 ， 他 们 有 的 是 时 间 ! 但 是 ，: 旦 被 他 们 发 现 这 人 么 一 
个 可 采 之 机 ， 那 后 果 就 严重 了 。 得 到 了 一 个 超级 用 户 的 shell 进程 以 后 ， 他 们 立即 就 会 修改 /etc/passwd， 
将 他 们 的 用 户 号 改 成 0, 或 者 增加 一 个 uid 为 0 的 新 用 户 。 从 此 以 后 ， 他 们 就 可 以 “如 入 无 人 之 境 ” 了 。 
堵塞 这 种 漏 润 的 途径 是 多 方面 的 ， 其 中 之 一 是 拒 进程 的 堆栈 段 的 属性 改 成 “不 可 执行 ”因为 轧 洛 们 很 
难 把 什么 内 容 植 入 到 进程 的 代码 段 中 。 此 外 ， 准 备用 作 “set uid” 可 执行 文件 的 应 用 程序 缕 精 心 设计 、 
精心 实现 和 调试 ， 并 且 系 统 中 的 “set uid” 可 执行 程序 的 数量 要 人 尺 可 能 减少 。 

另 一 方面 ， 可 执行 程序 的 “set uid” 机 制 是 否 真 的 必要 也 是 个 闫 题 。 我 们 仁 本 节 开 涉 处 以 改变 用 户 
的 口令 为 例 来 说 明 其 必要 性 ， 但 那 是 建立 在 本 用 户 的 进程 要 直接 修改 /etc/passwd 这 人 么 个 前 所 之 二 的 。 
早期 Unix 的 进程 他 通信 机 制 比 较 薄 弱 ， 所 以 别 无 他 法 。 可 是 ， 现 契 的 进程 间 道 信 机 制 已 经 很 强 ， 有 的 
事情 可 以 按 Client/Server 的 模式 米 设 计 和 实现 。 例 如 ， 现 在 完全 可 能 在 系统 中 建立 “个 内 核 线程 
passwd_d 作为 口令 服务 器 , 每 当 用 户 要 改变 口令 时 不 通过 插口 与 它 建立 起 连接 ， 然 后 几 passwd d 负责 
玉 判 定 该 用户 是 否 吕 以 改变 其 口令 ， 如 果 可 以 斌 由 ' 它 来 修改 /etc/passwd。 这 样 ， 在 用 户 进 程 与 文件 
letc/passwd 之 问 就 阳 了 一 层 类 似 “ 防 火 墙 ”那样 的 东西 ， 连 对 /etc/passwd 的 “ 读 ” 访 问 权 也 个 必 有 了 。 

计算 机 系统 的 安全 性 是 个 综合 性 的 问题 ， 在 相当 程度 上 是 个 管理 问题 ， 而 从 技术 角度 来 看 则 主要 
有 两 个 方面 的 问题 ， 即 文件 系统 的 安全 性 与 网 络 操作 的 安全 性 。 由 于 篇 幅 的 限制 ， 我 们 在 本 书 中 基本 
上 不 涉及 有 关 网 络 的 内 容 ( 我 们 计划 男 外 写 一 本 书 专门 介绍 Linux 内 核 中 与 网 络 有 关 的 代码 ， 其 篇 幅 
可 能 不 小 于 本 书 。 在 那 本 书 中 我 们 将 讨论 Linux 的 网 络 操作 安全 性 ?。 即 使 总 文件 安全 性 的 问题 ， 也 不 
是 在 区 区 数 上 页 的 篇 幅 中 能 够 讲 清楚 、 讲 企 面 的 ， 所 以 有 兴趣 或 有 需要 的 谈 青 可 以 参考 有 关 的 专著 ， 
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例如 Simon Garfinkel 和 Gene Spafford 的 Practical Unix & Internet Security, 就 是 -本 被 誉 为 这 方面 的 “ 圣 
经 ” 式 的 著作 。 

有 一 种 说 法 ， 说 由 于 Linux 内 核 的 源 代 码 公开 而 使 其 安全 性 降低 了 ， 因 为 黑客 们 可 以 从 源 代 码 中 
去 寻找 漏洞 或 可 乘 之 机 。 这 种 说 法 理所当然 地 遭 到 持 相反 意见 的 人 上 的 了 驳斥。 公开 的 源 代码 固然 使 攻 
击 的 一 方 容易 找到 可 乘 之 机 ， 但 起 同时 也 使 防守 的 一 方 易于 事先 防范 。 即 使 出 了 问题 ， 事 后 的 分 析 和 
解决 问题 也 比较 容易 ， 毕 竟 防 守 方 打 的 是 “人 民 战 争 ”。 如 果 把 攻防 双方 的 较量 比喻 作 一 种 “振荡 ”的 
话 ， 则 公开 的 源 代 码 使 振幅 的 “衰减 ”或 “收敛 ”加 快 ， 这 应 该 是 好 事 。 对 十 防守 来 说 ， 帮 、 防 双方 
都 在 明 处 总 比 都 在 暗中 此 好 。 事 实 上 ， 最 令 人 不 安 的 就 是 “ 黑 合子” 两 眼 一 抹黑 不 知道 里 面 在 干 些 什 
么 。 更 何况 ， 还 有 “ERER” 开发 系统 的 人 自己 在 系统 中 留 下 “后 门 ” 的 可 能 。 

以 前 ， 人 们 还 只 是 从 理论 上 谈论 这 种 可 能 性 ， 可 是 前 不 久 报 载 有 个 Microsoft 的 工程 师承 认 自 己 确 
曾 在 Windows 中 留 下 了 “后 门 ”。 对 十 一 个 个 公 开源 代 码 的 系统 ， 你 怎么 知道 这 样 的 “后 门 ”到 底 有 
多 少 呢 ? 

顺便 多 讲 几 句 。 前 一 阵 (2000 Æ 10 JJ) 又 有 关于 Microsoft 的 报道 ， 说 发 现 有 米 白 俄国 的 黑客 侵 
入 Microsoft 的 计算 机 系统 达 两 个 星期 之 久 。 对 十 所 造成 的 损害 则 说 法 不 “。 同 是 Microsoft AE DL, 
有 的 说 黑客 可 能 已 经 穷 得 Windows 操作 系统 的 源 代 但 : 有 的 则 说 黑客 所 偷 取 的 只 是 正在 开发 中 的 某 应 
用 软件 的 源 代码 ， 而 不 是 Windows 的 源 代 码 ， 所 以 用 户 仍 可 放心 云云 。 可 是 ， 不 管 这 一 次 黑客 是 否 已 
经 得 手 〈 也 许 无 人 稍 切 知道 )， 这 种 可 能 性 总 不 能 讲 没有 。 邓 样 ， 终 有 一 天 ， 当 用 户 还 “放心 ”地 和 守 着 
"AE Bp AIPA T Windows 的 源 代 码 ， 并 已 作 了 分 析 研 究 。 到 那 时 ， 黑 客 们 不 出 于 便 
喷 ， 一 出 手 就 招 招 都 能 点 中 “穴位 ” WORT SRN, AC RAAT EMAC AZT. 


54 文件 系统 的 安装 和 拆 却 


在 一 个 块 设备 ( 见 本 书 下 册 “ 设 备 驱动 ”一 章 ) 上 按 一 定 的 格式 建立 起 文件 系统 的 时 候 ， 或 者 系 
统 引 导 之 初 ， 设 备 二 的 文件 和 节点 部 还 是 不 可 访问 的 。 也 就 是 说 ， 还 不 能 按 一 定 的 路 径 名 访问 其 中 特 
定 的 节点 或 文件 《虽然 作为 “设备 ” 足 可 访问 的 )。 只 有 把 它 “ 安 装 ” 到 计算 机 系统 的 文件 系统 中 某 个 
节点 上 ， 才 能 使 设备 上 的 文件 和 节点 成 为 可 访问 的 。 经 过 安装 以 后 ， 设 备 上 的 “文件 系统 ”就 成 为 整 
个 文件 系统 的 一 部 分 ， 或 者 说 一 个 了 系统 。 : 般 而 言 ， 文 件 系统 的 结构 就 好 像 一 棵 倒立 的 树 ， 个 过 由 
于 可 能 存在 着 的 节点 癌 的 “连接 ”和 “符号 连接 ”而 并 不 一 定 是 严格 的 图 论 意义 上 的 “ 树 ”。 最 初时 ， 
整个 系统 中 只 有 一 个 节点 ， 屠 就 是 整个 文件 系统 的 “ 根 ” 节 点 “/” XB BERE WES mE 
任何 具体 的 设备 上 。 系 统 在 初始 化 时 将 “个 “ 根 设备 ” 安 装 到 节点 “/” 上 ， 这 个 设备 上 的 文件 系统 就 
成 了 整个 系统 中 原始 的 、 基 本 的 文件 系统 〔 所 以 才 称 为 根 没 备 )。 此 后 ， 就 可 以 由 超级 用 户 进程 通过 系 
统 调用 mount( ) 把 其 他 的 子 系统 安装 到 已 经 存在 于 文件 系统 中 的 空闲 节点 上 ， 使 整个 文件 系统 得 以 扩 
骨 ， 当 不 再 需要 使 用 某 个 子 系统 时 ， 或 者 在 关闭 系统 之 前 ， 则 通过 系统 调用 umount( GEA 
备 逐 个 “拆卸 ”下 米 。 

系统 调用 mount( ) 将 一 个 中 访问 的 块 设备 安装 到 一 个 可 访问 的 节点 上 上 。 所 谓 “ 可 访问 ”是 指 该 节点 
或 文件 已 经 存在 本 已 安装 的 文件 系统 中 ， 可 以 通过 路 径 名 寻访 。Unix( 以 及 Linux) 将 设备 看 作 一 种 特殊 
的 文件 ， 并 在 文件 系统 中 有 代表 着 具体 设备 的 科 点 ， 称 为 “设备 文件 ”通常 都 在 目录 “/dev” 中 。 例 
如 IDE BESE | 的 第 个 分 区 就 是 /dev/hdal。 每 个 设备 文件 实际 上 只 是 一 个 索引 节点 ， 节 点 中 提供 了 设 
备 的 “设备 号 ”， 由 “ 主 设备 号 ”和 “次 设备 号 ”两 部 分 构成 。 其 小 主 设备 号 指明 了 设备 的 种 类 ， 或 者 
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更 俏 切 地 说 是 指明 了 应 该 使 用 哪 : :组 驱动 程序 。 问 “个 物理 的 设备， 如 昌 有 两 组 不 同 的 驱动 程序 , 在 
逻辑 | 就 被 视 作 时 种 不 同 的 设备 而 在 文件 系统 中 有 了 个 不 同 的 “设备 文件 ” 次 设备 号 则 指明 该 设备 是 
同 种 设备 中 的 第 几 个 。 所 以 ， 只 要 找到 代表 着 基 个 设备 的 索引 节点 ， 就 知道 该 怎样 谈 / 写 这 个 设备 了 。 
是 个 “可 访问 ”的 块 设备 ， 再 为 什么 还 柴 妆 DEO 答案 是 在 安装 之 前 可 访问 的 只 是 这 个 设备 

通常 是 作为 一 个 线性 的 无 结构 的 字 节 流 来 访问 的 ， 称 为 “原始 设备 ”(raw device); 而 设备 上 的 文件 
系统 则 是 不 可 访问 的 。 经 过 安装 以 后 ， 设 备 上 的 文件 系统 就 成 为 可 访问 的 了 。 
读者 也 许 己 经 想到 了 ~… 个 问题 , 那 束 是 : 系统 调用 Bina BER BE LORS ER S8 TE RZ M n 
访问 的 ， 那 根 设备 怎 么 让? 在 安装 根 设 备 之 前 ， 系 统 中 只 有 -- 个 “7/” 节 点 ， 根 本 就 不 存在 可 访 癌 的 块 
设备 啊 。 足 的 ， 根 设备 不 能 通过 系统 调用 mount ) 米 安装 。 事 实 上 ， 根 据 情 况 的 不 同 ， 内 核 中 有 三 个 函 
数 是 用 于 设备 安装 的 , 那 就 是 sys_mount( )、mount_root( ) 以 及 kem_mount( ). 我 们 先 米 看 sys_mount(), 
这 就 是 系统 调用 mount( ) 在 内 核 中 的 实现 ， 其 代码 在 fs/super.c F: 


1421 asmlinkage long sys_mount (char * dev name, char * dir name, char * type, 
1422 unsigned long flags, void * data) 
1423. f 

1424 int retval; 

1425 unsigned long data page; 

1426 unsigned long type page; 

1427 unsigned long dev page; 

1428 char *dir page; 

1429 

1430 retval = copy mount options (type, &type page); 
1431 if (retval < 0) 

1432 return retval; 

1433 

1434 dir page - getname(dir name); 

1435 retval - PTR ERR(dir page); 

1436 if (IS ERR(dir page)) 

1437 goto outl; 

1438 

1439 retval = copy mount options (dev name, &dev. page); 
1440 if (retval < 0) 

1441 goto out2; 

1442 

1443 retval - copy mount options (data, &data page); 
1444 if (retval < 0) 

1445 goto ou13; 

1446 

1447 lock kernel( ); 

1448 retval = do mount((char*)dev page, dir pago, (char*)type page, 
1449 flags, (void*)data page); 

1450 unlock kernel( ) ; 

1451 free page (data page): 

1452 

1453 out3: 
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1454 free page(dev pago); 
1455 out2: 

1456 putname(dir pago); 
1457 outl: 

1458 free page(type page); 
1459 return retval; 

1460 ] 


参数 dev name 为 符 安 装 疫 备 的 路 径 名 ;， dir name Wie CZSPR H 3e 85,50. 的 路 径 名 ， type At 
表示 文件 系统 类 型 〈 即 格式 ) UAE, Un “ext2”, “iso9660” 等 。 此 外 ，flags 为 安装 模式 ， 有 关 的 
慰 志 位 定义 于 include/linux/fs.h: 


96 /* 
97 * These are the fs-independent mount-flags: up to 32 flags are supported 
98 */ 


99 #define MS RDONLY 1 /* Mount read-only */ 

100 "define MS NOSUID 2 /* Ignore suid and sgid bits */ 

101 #define MS NODEV 4 /* Disallow access to device special files */ 
8 
1 


102 #define MS NOEXEC /* Disallow program execution */ 


103 #define MS SYNCHRONOUS 6 /* Writes are synced at once */ 

104 Hdefine MS REMOUNT 32 /* Alter flags of a mounted FS */ 
105 define MS MANDLOCK 64 /* Allow mandatory locks on an FS */ 
106 #define MS NOATIME 1024 /* Do not update access times. */ 
107 #define MS NODIRATIME 2048 /* Do not update directory access times */ 
108 8define MS BIND 4096 

109 

110 /* 

111 * Flags that can be altered by MS REMOUNT 

112 */ 

113 #define MS RMT MASK (MS RDONLY;MS NOSUID|MS NODEV|MS NOEXEC| V 

114 MS SYNCHRONOUS |MS_MANDLOCK |MS_NOATIME :MS NODIRATIMF) 

115 

116 /* 

117 * Magic mount flag number. Has to be or-ed to the flag values. 

118 */ 


119 "define MS MGC VAL OxCOEDOO00 
/* magic flag number to indicate "new^ flags */ 
120 #define MS MGC MSK Oxtfff0000 /* magic flag number mask */ 


例如 ， 如 果 MS. NOSUID 标志 为 1， 则 整个 系统 中 所 有 可 执行 文件 的 suid 标志 位 就 帮 不 起 作用 了 。 
但 十 ， 正 如 原作 者 的 注释 所 说 ， 这 些 标志 位 并 不 是 对 所 有 文件 系统 都 有 效 的 。 所 有 的 标志 位 都 刘 低 16 
位 中 ， 而 高 16 位 则 用 作 “magic number”. 

最 后 ， 指 针 data 指向 用 于 安装 的 附加 信息 ， 由 不 同文 件 系统 的 豫 动 程序 自行 加 以 解释 ， 所 以 其 类 
型 为 void 指针 。 

代码 中 通过 gemame( ) 和 copy_mount_options( ) 将 字符 中 形式 或 结构 内 式 的 参数 值 从 用 户 空间 复制 
到 系统 空间 。 这 些 参 数 但 的 长 度 均 以 “个 页 面 为 限 ， 但 是 getname( ) 在 复制 时 遇 到 字符 中 结尾 符 “\0” 
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就 停止 , 并 返回 指向 该 字符 串 的 指针 ; Tf copy. mount. options( ) 则 拷贝 整个 页 面 (确切 地 说 是 PAGE_SIZE 
一 1 个 字 节 )， 并 且 返 加 页 面 的 起 始 地 址 。 然 后 ， 就 是 这 个 操作 的 主体 do_mount( ) 了 。 我 们 分 段 来 看 


(super.c): 


[sys mount( ) » do mount( )] 


1300 /* 

1301 * Flags is a 16-bit value that allows up to 16 non-fs dependent flags to 
1302 * be given to the mount( ) call (ie: read-only, no-dev, no-suid etc). 
1303 * 

1304 * data is a (void *) that can point to any structure up to 

1305 * PAGE SIZE-1 bytes, which can contain arbitrary fs-dependent 

1306 * information (or be NULL). 

1307 * 

1308 * NOTE! As pre-0.97 versions of mount( ) didn't use this setup, the 
1309 * flags used to have a special 16-bit magic number in the high word: 
1310 * OxCOED. If this magic number is present, the high word is discarded. 
1311 */ 

1312 long do mount(char * dev name, char * dir name, char *type page, 

1313 unsigned long flags, void *data pago) 

1314 { 

1315 struct file system type * fstype; 

1316 struct nameidata nd; 

1317 struct vfsmount *mnt - NULL; 

1318 struct super block *sb; 

1319 int retval = 0; 

1320 

1321 /* Discard magic */ 

1322 if ((flags & MS MGC MSK) == MS MGC VAL) 

1323 flags &- "MS MGC MSK; 

1324 

1325 /* Basic sanity checks */ 

1326 

1327 if (!dir name || '*dir name || !memchr(dir name, 0, PAGE SIZE)) 
1328 return -ETNYAL; 

1329 if (dev name && !memchr(dev name, 0, PAGE SIZE)) 

1330 return —ELNVAL; 

1331 

1332 /* OK, looks good, now let's see what do they want */ 

1333 

1334 /* just change the flags? - capabilities are checked in do remount( ) */ 
1335 if (flags & MS REMOUNT) 

1336 return do remount(dir name, flags & "MS REMOLNT, 

1337 (char *) data page); 

1338 

1339 /* "mount —-bind’? Equivalent to older “mount ~t bind" x*/ 

1340 /* No capabilities? What if users do thousands of these? */ 
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1341 if (flags & MS BIND) 

1342 return do loopback(dev name, dir name); 
1343 


首先 是 对 参数 的 检验 。 例 如 对 十 安装 节点 名 就 要 求 指针 dir name 森 为 0， 并 且 字 符 串 的 第 一 个 字 
符 不 为 0， 即 不 是 空 字 符 串 ， 并 卫 字 符 串 的 长 度 不 超过 一 个 页 而 。 这 里 的 memehr( ) 在 指定 长 度 的 缓 站 
区 中 如 找 指定 的 字符 (这 里 是 0)， 如 果 找 不 到 就 返回 0。 对 设备 名 dev name 的 检验 很 有 趣 ， 如 果 
dev name 为 非 0， 则 字符 串 的 长 度 不 得 长 于 个 页 面 ( 实 际 | copy. mount. options ) 保 证 了 这 -点 ， 因 
ACHI PAGE_SIZE 一 1 个 字 节 )， 可 是 dev name 为 0 即 是 允许 的 。 这 似乎 不 可 思议 ， 下 面 读者 将 会 
看 到 ， 在 特殊 情况 下 这 确实 是 允许 的 。 

如 果 调 用 参数 中 的 MS_REMOUNT 标志 位 为 1， 就 表示 所 要 求 的 只 是 改变 一 个 原 已 安装 的 设备 的 
安装 方式 。 例如, 原来 是 按 “ 只 读 ? 方 式 来 安装 的 , 而 现在 要 改 为 “可 写 ” 方 式 ; 或 者 原来 的 MS_NOSUID 
标志 位 为 0， 而 现在 要 改变 成 1， 等 等 。 所 以 这 种 操作 称 为 “ 重 安装 ” 函数 do_remount( ) 的 代码 也 在 
super.c 中 ， 读 者 可 以 在 阅读 了 do_mount( ) 的 “主流 ”以 后 回 过 来 白 己 读 一 下 这 个 “支流 ”的 代码 。 

Fi “个 分 支 是 对 特殊 设备 如 /dev/loopback 等 “ 回 接 ”设备 的 处 理 。 这 种 设备 是 特殊 的 ， 其 实 并 不 
是 一 种 设备 ， 调 是 一 种 机 制 。 从 系统 的 角度 来 看 ， 它 似 平 是 一 种 设备 ， 但 实际 上 它 只 是 提供 了 一 条 
“lookback” (FIH) 到 某 个 可 访问 普通 文件 或 块 设备 的 手段 。 举 例 来 说 ， 系 统 的 管理 人 员 可 以 通过 实 
HFEF losetup, 实际 上 是 系统 调用 ioctl(), 建立 起 /dev/loop0 与 一 个 普通 文件 /blkfile 之 间 的 联系 , 或 者 
说 将 /dev/loop0“ 同 接 ” 到 /blkfile， 从 而 将 这 个 文件 当 作 一 个 块 设备 来 使 用 : 

losetup -edes — /dev/loopO /bikfile 

这 里 的 可 选项 -e des 表示 在 通过 /dev/loop0 读 写 作为 虚拟 块 设备 的 /blkfile 时 要 对 内 容 加 密 ， 而 加 
密 的 算法 则 为 DES (一 种 加 密 /解密 标准 )。 也 可 以 使 用 比较 简单 的 加 密 算法 XOR， 此 时 可 选项 即 为 
“exor。 如 果 不 加 密 就 不 用 -e 可 选项 。 回 接 以 后 ， 通 过 /dewioop0 访问 的 文件 /blkfile 就 作为 -A Hi 
设备 ”来 使 用 了 ， 所 以 也 此 加 以 格式 化 : 

mkfs -text2 /dewloop0 100 

参数 -text2 表示 按 Ext2 格式 化 , 也 可 以 改 用 其 他 文件 系统 的 格式 。 参 数 100 表示 该 设备 的 大 小 为 
100 个 记录 块 。 当 然 ， 文 件 /blkfile 原来 的 大 小 要 足够 ， 并 用 其 原来 的 内 容 就 玉 失 了 ， 所 以 一 般 可 以 先 
建立 起 一 个 足够 大 的 空 文件 : 

dd if=/dev/zero — of-/blkfile bs=lk count=100 

回 搂 的 对 象 并 不 非得 是 “个 普通 文件 ， 也 可 以 是 一 个 常规 的 块 设备 文件 如 /dewhda2 $., HAE, L 
普通 文件 为 回 接 对 象 给 我 们 提供 了 将 它 格式 化 成 “个 文件 系统 并 加 以 安装 的 手段 。 EGER 
了 加 密 ， 所 以 格式 化 以 后 的 文件 系统 映 象 是 加 了 密 的 ， 然 后 ， 就 可 以 把 这 个 虚拟 的 块 设备 安装 到 文件 
RAPT: 

mount -t ext2 /dev/loop0 /mnt 

从 此 以 后 ， 就 跟 一 般 已 安装 的 子 系统 一 样 了 ， 只 是 在 我 们 这 个 例子 中 对 这 个 子 系统 的 读 / 写 部 加 
I 


ER 


EUIS SecA LJ -个 已 经 安装 的 块 设备 。 例 如 ，/dev/hdal 已 经 安装 在 根 节点 / |:， 我 们 仍 可 
以 把 它 作 为 种 接 的 对 象 。 此 时 当然 不 能 下 加密， 也 不 能 内 格式 化 了 ， 但 是 :还 可 以 通过 /dewloop0 再 安装 
一 次 《在 另外 一 个 节点 上 )， 例 如 把 它 安装 成 “内 读 ” 方 式 。 如 果 同 忆 一 下 ， .个 进程 《例如 某 种 网 络 
服务 进程 》 可 以 通过 系统 调用 没 置 白 己 的 “ 根 ” 日 录 ， 就 不 难 很 像 这 种 “ 回 接 ” 设 备 对 子 系统 安全 性 
可 能 有 用 处 了 。 通 常 在 /dev 目录 中 有 /dewloop0 和 /dev/loop1 两 个 nl 接 设 备 义 件 ， 需 要 的 话 可 以 通过 
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mknod 再 创建 ， 其 于 设备 号 为 7。 

对 通过 同 接 设 备 的 安装 ， 以 前 在 mount 命令 行 中 有 个 “-o loop” 可 选项 ， 现 在 则 改 成 将 命令 行 中 
的 文件 类 型 如 上 - :种 “bind”， 即 “-tbind”， 表 示 所 安装 的 设备 是 个 “捆绑 ”到 另 ， 个 对 象 上 的 同 接 设 
备 。 所 以 ， 如 果 flags 中 的 MS_BIND 标志 位 为 1 ( 见 代 码 中 的 第 1341 行 )， 就 调用 do_loopback( ) 来 完 
成 回 接 设备 的 安装 。 我 们 暂且 跳 过 它 继续 往 下 读 (super.c)。 


[sys_mount( ) > do mount( )] 


1344 /* For the rest we need the type */ 

1345 

1346 if (!typo page || !memchr(type page, 0, PAGE STZE)) 

1347 return —ETNVAL; 

1348 

1349 Sif 0 /* Can be deleted again. Introduced in patch-2. 3. 99-pre6 */ 
1350 /* loopback mount? This is special - requires fewer capabilities */ 
1351 if (stremp(type page, "bind")--0) 

1352 return do loopback(dev name, dir name); 

1353 Hendif 

1354 

1355 /* for the rest we really need capabilities... */ 

1356 if (!capable(CAP SYS ADMIN)) 

1357 return ~FPERM; 

1358 

1359 /* ... filesystem driver... */ 

1360 fstype = get fs Lype(type page); 

1361 if ({fstype) 

1362 return -ENODEV; 

1363 

1364 /* ... and mountpoint. Do the lookup first to force automounting. */ 
1365 if (path_init (dir_name, 

1366 LOOKUP FOLLOW;LOOKUP POSITIVE!LOOKUP DIRECTORY, &nd) ) 
1367 retval = path walk(dir name, &nd); 

1368 if (retval) 

1369 goto fs out; 

1370 

1371 /* get superblock, locks mount sem on success */ 

1372 if (fstype->fs_ flags & FS NOMOUNT) 

1373 sb = ERR PTR(-EINVAL) ; 

1374 else if (fstype- fs flags & FS REQUIRES DEV) 

1375 sb = get sb bdev(fstype, dev name, flags, data page); 

1376 else if (fstype-^fs flags & FS SINGLE) 

1377 sb = get sb single(fstypc, flags, data pago); 

1378 else 

1379 sb - get sb nodev(fstype, flags, data page); 

1380 

1381 retval = PTR ERR(sb) ; 

1382 if (IS ERR(sb)) 
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1383 goto dput out; 
1384 


BAER TE SR RAS BEA BIS, TRA AREA AUER. ARH PORE 
程 部 是 有 这 种 授权 的 。 
系统 支持 的 每 一 种 文件 系统 都 有 一 个 file system type 数据 结构 ， 定 义 于 include/linux/fs.h: 


839 struct file system type { 


840 const char *name; 

841 int fs flags; 

842 struct super block *(#read_super) (struct super block *, void *, int): 
843 struct module *owner; 

844 struct vfsmount *kern mnt; /* For kernel mount, if it's FS SINGLE fs */ 
845 struct file system type * next; 

846 


结构 中 的 fs. flags 指明 了 凑 体 文件 系统 的 一 些 特 性 ， 有 关 的 标志 位 定义 见 文件 fs.h: 


79 /* public flags for file system type */ 

80 define FS REQUIRES DEV 1 

81 define FS NO DCACHE 2 /* Only dcache the necessary things. */ 

82 #define FS NO PRELIM 4 /* prevent preloading of dentries, even if 


83 * FS NO DCACHE is not set. 

84 */ 

85 #define FS SINGLE 8 /* 

86 * Filesystem that can have only one superblock: 
87 * kernel-wide vfsmnt is placed in ->kern mnt by 
88 * kern mount( ) which must be called after. 

89 * register filesystem( ). 

90 */ 

91 #define FS NOMOUNT 16 /* Never mount from userland */ 

92 #define FS LITTER 32 /* Keeps the tree in dcache */ 

93 Hdefine FS ODD RENAME 32768 /* Temporary stuff; will go away as soon 
94 * as nfs rename( ) will be cleaned up 

95 */ 


RY HO SESS hr BU S SCRUE FA RA TS EA Ce DUE e D D VEU] o 

结构 中 有 个 函数 指针 read_super， 各 种 文件 系统 通过 这 个 指针 提供 用 来 读 入 其 超级 块 的 函数 ， 因 为 
不 同文 件 系统 的 超级 块 也 是 不 同 的 。 显然， 这 个 数据 结构 也 是 从 虚拟 文件 系统 VES 进入 具体 文件 系统 
的 ”个 转 接点 。 同 时 ， 每 种 文件 系统 还 有 个 字符 帅 形 式 的 文件 系统 类 型 名 。 

安装 文件 系统 时 要 说 明文 件 系统 的 类 型 ， 例 如 系统 命令 mount 就 有 个 可 选项 “-t” 用 于 类 型 名 。 
文件 系统 的 类 型 名 以 字符 串 的 形式 复制 到 type_page 中 ， 现 在 就 用 来 比 对 、 寻 找 其 file_system type 数 

PRIX get. fs type( ) 根 据 具体 文件 系统 的 类 型 名 在 内 核 中 找到 相应 的 file, system. type 结构 ， 有 有 关 的 
代码 在 super.c F: 
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[sys mount( ) > do_mount( ) > get_fs_type( )] 


262 struct file system type *get fs type(const char *name) 


263 d 

264 struct file system type *fs; 

265 

266 read lock(&file systems lock); 

267 fs = *(find filesystem(namo)) ; 

268 if (fs && !try inc mod count (fs—>owner) ) 
269 fs = NULL; 

270 read unlock(&file sysiems lock); 

271 if (!fs && (request module(name) == 0)) { 
272 read lock(&file systems lock); 

273 fs = *(find filesystem (name) ) : 

274 if (fs && !try inc mod count (fs—>owner) ) 
27b fs = NULL; 

216 read unlock(&file systems lock); 

277 } 

278 return fs; 

279 |] 


[sys mount( ) > do mount( ) > get fs type( ) > find. filesystem( )] 


94 static struct file system type **find filesystem(const char *name) 
98 { 


96 struct file system type **p; 

97 for (p-&file systems; *p; p=&(*p)—>next) 
98 if (stremp((kp)-»name, name) -- 0) 
99 break; 

100 return p; 

100  ] 


内 核 中 有 一 个 file system type 结构 队列 ， 叫 做 file_systems， 队 列 中 的 每 个 数据 结构 部 代表 着 一 种 
文件 系统 。 系 统 初始 化 时 将 内 核 支 持 的 各 种 文件 系统 的 file system type. 数据 结构 通过 一 个 函数 
register filesystem( ) 挂 入 这 个 队列 ， 这 个 过 程 称 为 文件 系统 的 注册 。 除 此 之 外 ， 对 有 些 文件 系统 的 支持 
可 以 通过 “可 安装 模块 ”的 方式 来 实现 。 在 装 入 这 些 模 块 时 ， 也 会 将 相应 的 数据 结构 注册 挂 入 该 队列 
中 。 

vi HC find_filesystem( ) 则 打 描 file_systems 队列 ， 找 到 所 需 文件 系统 类 型 的 数据 结构 。 在 
file system type 结构 中 有 -个 指针 owner， 如 果 结 构 所 代表 的 文件 系统 类 型 是 通过 可 安装 模块 实现 的 ， 
则 该 指针 指向 代表 着 具体 异 块 的 module 结构 。 找 到 了 file system type 结构 以 后 ， 要 调用 
try_inc_mod_count( ) 看 看 该 文件 系统 是 否 山 可 安装 模块 实现 ， 是 的 话 就 要 递增 相应 module 结构 中 的 共 
享 计数 ， 因 为 现在 这 个 模块 多 了 一 个 使 用 者 。 

要 是 在 file, systems 队列 中 找 不 到 所 需 的 文件 系统 类 型 怎么 办 呢 ? EEUU request_module( ) 试 斌 
BEAR CHE LSE SOE RSE) 找到 用 来 实现 所 需 文 件 系统 类 者 的 可 安装 模块 ， 并 将 其 装 入 内 核 ， 如 
果 成 功 的 话 就 再 去 file systems 队列 中 找 一 骨 。 如 果 装 入 所 需 的 可 安装 模块 失败 ， 或 者 装 入 以 后 偿 是 找 
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不 到 相应 的 file system type 结构 ， 那 就 说 明 Linux 系统 不 支持 所 要 求 的 文件 系统 类 型 。 有 关 模 央 的 装 
入 可 参考 “设备 驱动 ” GE. 


问 到 do mount( ) 的 代码 中 。 找 到 了 给 定 文件 系统 类 型 的 数据 结构 以 后 ， 就 要 如 找 代表 安装 点 的 


dentry 数据 结构 了 。 通 过 path_init( ) 和 path_walk( ) 了 寻找 目 标 节 点 的 过 程 以 前 已 经 讲 过 ， 就 不 重复 了 。 
找到 了 安装 点 的 dentry 结构 (在 nameidata 结构 nd 中 有 个 dentry 指针 ) 以 后 ， 要 把 待 安 装 设备 的 “超级 
块 ” 读 进 来 并 根据 超级 块 中 的 信息 在 内 存 中 建立 起 相应 的 super block 数据 结构 。 但 是 ， 这 里 因 其 体 文 
件 系 统 的 不 同 而 有 几 种 情形 此 |x 别 对 待 : 


(1) 


(2) 


(3) 


(4) 


有 些 虚 拟 的 文件 系统 (如 pipe HEARKE), EHAR ken mount ) 安 装 ， 而 根本 

不 允许 由 用 户 进 程 通过 系统 调用 mount( ) 米 安装 。 这 样 的 文件 系统 类 型 在 其 fs flag 中 的 

FS NOMOUNT 标志 位 为 1。 虚 拟 文 件 系统 类 型 的 “设备 ”其 实 没有 超级 块 ， 所 以 只 是 按 特 

定 的 内 容 初始 化 ,或 者 说 牛 成 一 个 super_block 结构 对 十 这 种 文件 系统 类 型 , 系统 调用 mount) 
时 应 出 错 返回 。 

一 般 的 文件 系统 类 型 要 求 有 物 埋 的 设备 作为 其 物质 是 础 ， 在 其 fs flags 中 的 

FS REQUIRES DEV 标志 位 为 1， 这 些 就 是 “正常 ”的 文件 系统 类 型 ， 如 ext2, minix, ufs 
等 等 。 对 于 这 些 文件 系统 类 型 ， 通 过 get sb. bdev( ) 从 待 安装 设备 上 读 入 其 超级 块 。 

有 些 虚 拟 文件 系统 在 安装 了 同类 型 中 的 第 一 个 “设备 ” 从 而 创建 了 超级 块 的 super_block 数 

据 结构 以 后 , 再 安装 同 -~ 类 型 中 的 其 他 设备 时 就 共享 已 经 存在 的 super. block 结构 , 而 不 再 有 

其 日 己 的 超级 块 结构 。 此 时 相应 file_system_type 结构 的 fs_flags 中 的 FS_SINGLE 标志 位 为 1， 

表示 整个 文件 系统 类 型 只 有 个 超级 块 ， 阐 不 像 一 般 的 文件 系统 类 型 那样 每 个 具体 的 设备 上 
都 有 一 个 超级 块 。 

还 有 些 文件 系统 类 型 的 fs flags 中 的 FS_NOMOUNT 标志 位 、FS_REQUIRE_DEY 标志 位 以 

及 FS_SINGLE 标志 位 全 都 为 0,， 所 以 不 属于 上 列 三 种 情形 中 的 任何 一 种 。 这 些 所 谓 “ 文 件 系 

统 ” 其 实 也 是 虚拟 的 ， 通 常 只 臣 用 来 实现 某 种 机 制 或 者 规程 ， 所 以 根本 就 没有 “设备 ”。 对 

于 这 样 的 “文件 系统 类 型 ”都 是 道 过 get_sb_nodev( ) 来 生成 一 个 super. block 结构 的 。 


总 之 ， 每 种 义 件 系统 类 型 都 有 个 file system type 结构 ， 而 结构 中 的 人 flags 则 由 各 种 标志 位 组 成 ， 


这 些 标志 位 表明 了 具体 文件 系统 类 型 的 特性 ， 也 决定 着 这 种 文 什 系统 的 安装 过 程 。 内 核 代 码 中 提供 了 
两 个 用 来 建立 file system type 数据 结构 的 宏 操 作 ， 其 定义 在 fs.h H: 


848 
849 
850 
851 
852 
853 
854 
855 
856 
857 


#define DECLARE FSTYPE (var, typo, read, flags) \ 
struct file system type var = { \ 

name: type, \ 

read super: read, \ 

fs flags: flags, \ 

owner: THIS MODULE, \ 
} 


#define DECLARE FSTYPE DEV (var, type, read) \ 
DECLARE FSTYPE (var, type, read, FS. REQUIRES DEV) 


— JC FS XR DA] Sc b A AES GO GRIS DECLARE FSTYPE DEV 建立 其 数据 结构 ， 因 为 它们 的 


FS REQUIRE DEV 标志 位 均 为 1， 仙 其 他 标志 位 为 0， 例 如 fs/ext2/super.c 中 的 ext2, fs. type: 
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786 static DECLARE FSTYPE DEV(ext2 fs type, “ext2”, ext2 road super); 


再 如 fs/msdos/msdosfs syms.c 中 的 msdos fs type: 
29 static DECLARE FSTYPE DEV(msdos fs type. “msdos”, msdos read supcr); 


相 比 之 下 ， 特 殊 的 、 虚 拟 的 文件 系统 类 型 则 大 多 直接 通过 DECLARE FSTYPE 建立 起 数据 结构 ， 
因为 它们 的 fs flags 是 特殊 的 ， 例 如 fs/pipe.c 中 的 pipe fs type: 


632 static DECLARE FSTYPE(pipe fs type, “pipefs”, pipefs read super, 
633 FS NOMOUNT|FS. SINGLE) ; 


以 太 fs/ramfs/inode.c 中 的 ramfs fs type: 
336 static DECLARE FSTYPE(ramfs fs type. “ramfs”, ramfs read super, FS LITTER); 


以 后 读者 会 看 和 到，flags 中 的 FS SINGLE 标志 位 有 着 很 重要 的 作用 。 我 们 在 这 里 只 关心 常规 文件 
系统 的 安装 ， 所 以 只 阅读 get_sb_bdev( ) 的 代码 ， 以 后 我 们 会 结合 其 他 章节 ， 如 进程 间 通 信 利 设备 最 动 ， 
再 来 阅读 get_sb_single( ) 等 函数 的 代码 。 有 顺便 提 一 下 ， 这 里 get_sb_single( ) 和 get_sb_nodev( ) 才 不 使 用 
参数 dev_name， 所 以 它 可 以 是 NULL。 这 个 函数 的 代码 也 在 fs/super.c 中 ， 我 们 分 段 阅读 。 


[sys_mount( ) > do mount( ) > get sb bdev( )] 


785 static struct super block *get_sb_bdev (struct file system type *fs_type, 


786 char *dev_name, int flags, void * data) 
781 f 

788 struct inode *inode; 

789 struct block_device *bdev; 

790 struct block device operations *bdops; 
791 struct super block * sb; 

192 struct nameidata nd; 

193 kdev t dev; 

194 int error = 0; 

795 /* What device it is? */ 

796 if (!dev name |: !*dev name) 

797 return ERR PTR( EINVAL) ; 

798 if (path init(dev name, LOOKUP FOLLOW|LOOKUP_POSTTTVE, &nd)) 
799 error = path walk(dev name, &nd); 
800 if (error) 

801 return ERR PTR(orror); 

802 inode = nd. dentry-?d inode; 

803 error = -ENOTBLK; 

804 if (!S TSBLK(inode->i_mode) ) 

805 goto out; 

806 error = —EACCES; 

807 if (IS_NODEV (inode) ) 
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808 golo out; 
对 于 常规 的 文件 系统 ， 人 参数 dev_name 必须 是 一 个 有 效 的 路 径 名 。 同 样 ， 这 里 也 是 通过 path_init( ) 
和 path_walk( ) 找 到 月 标 节 点 ， 即 相应 设备 文件 的 dentry 结构 以 及 inode 结构 。 当 然 ， 拷 到 的 inode 结 


构 必须 是 代表 着 一 个 块 设备 ,其 i_mode 中 的 S_IFBLK 标志 位 必须 为 1, 否则 就 错 了 。 宏 操作 S_ISBLK( ) 
定义 于 include/linux/stat.h: 


28 #define S ISBLK (m) (((m & S IFMI) == S_IFBLK) 

设备 文件 的 inode 结构 是 在 path walk( ) 中 根据 从 已 经 安装 的 磁盘 上 (或 其 他 已 安装 的 文件 系统 中 ) 
读 入 的 索引 节点 建立 的 。 对 于 Ext2 文件 系统 ， 我 们 在 “从 路 径 名 到 目标 节点 ”一 节 中 阅读 path_walk( ) 
的 代 公 时 曾 在 它 所 畏 转 调用 的 ext2_read_inode( ) 中 看 到 这 么 一 段 代码 : 


[path walk( ) > real_lookup( ) > ext2_lookup( ) > iget( ) > get new inode( ) > ext2 read. inode( )] 


1059 if (inode-^i ino == EXT2 ACL IDX INO || 

1060 inode->i ino == EXT2 ACL DATA INO) 

1061 /* Nothing to do */ ; 

1062 else if (S ISREG(inode-^i mode)) | 

1063 inode-?i op = &ext2 file inode operations; 

1064 inode-^i fop = &ext2 file operations; 

1065 inode-^i mapping-^a ops = &ext2 aops; 

1066 } else if (S ISDIR(inode2 i mode)) { 

1067 inode->i_op = &ext2 dir inode operations; 

1068 inode->i fop = &ext2 dir operations; 

1069 } else if (S_TSLNK(inode->i mode)) { 

1070 if (linode-^i blocks) 

1071 inode-?^i op = &ext2 fast symlink inode operations; 
1072 else ( 

1073 ‘inode->i_op = &page symlink inode operations; 
1074 inode-^i mapping-^a ops = &ext2 aops; 

1075 ] 

1076 ] else 

1077 init special inode(inode, inode-?i mode, 

1078 1e32 to cpu(raw inode->i block[0])); 


由 于 设备 文件 既 不 是 常规 文件 , 也 不 是 月 录 , 更 不 是 符号 连接 ,所 以 必然 会 调用 init, special. inode( ), 
其 代码 在 fs/devices.c tP: 


[path walk( ) > real lookup( ) > ext2 lookup( ) > iget( ) > get new inode( ) > ext2 read inode( ) > 
init special, inode( )] 


200 void init special inode(struct inode *inode, umode t mode, int rdev) 


201 { 
202 inode->i_mode = mode; 
203 if (S ISCHR(mode)) { 
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204 inode-^i fop - &def chr fops; 
205 inode->i_rdev = to kdev t(rdev); 
206 } else if (S ISBLK(modo)) { 

207 inode->i fop = &def blk fops; 
208 inode-^i rdev = to kdev t(rdev); 
209 inode->i_bdev = bdget (rdev) ; 

210 } else if (S_ISFIPFO (mode) ) 

211 inode->i_fop = &def fifo fops; 
212 else if (S ISSOCK (mode) ) 

213 inode-^i fop - &bad sock fops; 
214 else 

215 printk(KERN DEBUG "init special inode: bogus imode (960) n", mode); 
216  } 


以 前 说 过 ， 在 inode 数据 结构 中 有 两 个 设备 号。 一 个 是 索引 节点 所 华 设 备 的 号 个 idev， 另 一 个 是 
索引 节点 所 代表 的 设备 的 号 人 i_rdev。 串 是 ,如果 看 -下 存储 在 设备 上 的 索引 节点 ext2_inode 数据 结构 ， 
就 可 以 发 现 里 面 -个 专门 用 于 设备 号 的 字段 也 没有 。 首 先 ， 既 然 索引 节点 仓储 在 其 个 设备 上 ， 当 然 就 
不 需要 再 在 里 面 说 明 存 储 在 哪个 设备 上 了 。 再 说 ， 一 个 索引 节点 如 果 代 表 着 一 个 设备 ， 那 号 不 需要 记 
录 跟 文件 的 物理 信息 有 关 的 数据 了 ， 从 而 可 以 利用 这 些 空间 来 记录 所 代表 设备 的 设备 号 。 事 实 上 ,， 当 
索引 节点 代表 着 设备 时 ， 其 ext2_inode 数据 结构 中 的 数 i block[ ] 空 着 没 用 ， 所 以 就 将 i_block[0] 用 于 
设备 号 。 这 个 设备 号 在 这 里 的 init special node( ) 中 经 过 to_kdev_t( ) 加 以 格式 转换 以 后 就 变 成 inode £i 
构 中 的 ji_rdev。 此 外 ， 对 于 块 设备 还 要 使 inode 结构 中 的 指针 i_bdev 指向 一 个 block_device 结构 。 具体 
的 数据 结构 由 bdget( ) 根 据 设 备 号 寻找 或 创建 ， 详 见 “设备 驱动 ” : 章 中 有 关 的 内 容 。 

HIFI get. sb. bdev( ) 的 代码 中 (fs/super.c): 


[sys_mount( ) > do_mount( ) > get sb bdev( )] 


809 bdev = inode->i_bdev; 

810 bdops = devfs_get ops (devfs got handle from inode(inode)); 
811 if (bdops) bdev-^bd op = bdops; 

812 /* Done with lookups, semaphore down */ 

813 down(&mount sem); 

814 dev = to kdev t(bdev-^bd dev): 

815 sb = get super (dev) ; 

816 if (sb) { 

817 if (fs type == sb—s type && 

818 ((flags ` sb >s flags) & MS RDONLY) == 0) | 

819 path release (&nd) ; 

820 return sb; 

821 } 

822 } else | 

823 mode t mode - FMODE READ; /* we always need it ; ) */ 
824 if (!(flags & MS RDONLY)) 

825 mode |= FMODE WRITE; 

826 error = blkdev get(bdev, mode, 0, BDEV FS); 

827 if (error) 
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828 goto out; 

829 check disk change (dev) ; 

830 error = -EACCES; 

831 if (!(flags & MS RDONLY) && is read only (dev)) 
832 goto out]; 

833 error = -EINVAL; 

834 sb = read super(dev, bdev, fs type, flags, data, 0): 
835 if (sb) | 

836 get filesystem(fs type): 

837 path release (&nd) ; 

838 return sb; 

839 } 

840 outl: 

841 blkdev put(bdev, BDEV TS); 

842 ) 

843 out: 

844 path release (&nd) ; 

845 up(&mount sem); 

846 return ERR PTR(error); 

847 } 


在 block device 结构 中 有 个 指针 bd_op， 指 向 一 个 block_device_operations 数据 结构 ， 这 就 是 块 设 
备 驶 动 程序 的 函数 跳 转 表 。 所 以 ， 我 们 串 以 把 block_device 结构 比喻 为 块 设备 驱动 “总 线 ”， 而 使 其 指 
针 bd. op 指向 某 个 具体 的 block device operations 数据 结构 ， 就 好 像 是 将 .- 块 “接口 上 ”插入 了 总 线 的 
iit, XIR VFS 与 具体 文件 系统 的 关系 是 一 样 的 。 

那么 ， 这 里 要 把 什么 样 的 “接口 卡 ” 播 到 总 线 上 去 呢 ? 原来 ， 在 Linux 的 设备 驱动 方面 正在 进行 
者 ”项 称 为 “devfs” 的 改革 。 传 统 的 /dev 目录 是 一 种 “平面 ”结构 而 不 像 其 他 日 并 那样 是 树 状 结构 。 
每 一 个 设备 都 有 个 “ 主 设 备 号 ”和 一 个 “次 设备 号 ” 每 当 要 在 /devy 中 建立 一 个 节点 ( 即 设备 文件 ) 时 
就 要 将 主 、 次 设备 号 合成 “个 单一 的 “设备 号 ” 再 通过 系统 调用 mknod( ) 来 建立 ， 传 统 的 主 、 次 设备 
SUE 8 位 的 ， 所 以 每 种 设备 最 多 只 能 有 255 个 。 随 着 技术 的 发 展 ， 这 个 限制 开始 成 为 问题 了 。 所 以 
Linux 内 核 已 经 开始 使 用 16 位 的 主 、 次 设备 号 。 可 是 ， 另 有 一 派 意 见 认为 ，/dev 的 这 种 平 而 结构 和 主 、 
次 设备 号 的 使 用 根本 就 应 该 改革 。 也 就 是 说 ， 把 /dev 改 成 树 状 结构 ， 这 样 一 米 路 径 名 就 可 以 惟一 地 确 
定 一 个 设备 的 类 型 和 序号 ， 例 如 /dewhda/1 ， 这 样 就 可 以 把 主 、 次 设备 号 隐藏 在 路 径 名 的 背后 ， 不 需要 
在 用 户 界面 上 用 什么 主 设备 号 、 次 设备 号 了 。 上 月 前 这 项 改革 正在 进行 中 ， 对 有 些 设 备 〈 如 软盘 、 做 避 
等 ) 的 支持 已 开始 使 用 这 种 新 的 方案 。 但是, 内 核 必须 问 时 支持 新 、 旧 师 种 方案 , 这 里 对 devfs get ops() 
和 devfs get handle form inode( ) 就 是 出 于 对 devtfs 的 考虑 。 日 前 〈 以 及 在 林 来 相当 一 段 时 期 内 )， 对 多 
数 块 设备 的 支持 还 会 沿用 传统 的 模式 ， 如 果 尚 不 支持 devfs 则 这 两 个 函数 都 返 Inl NULL 而 不 起 作用 ， 
相当 十 让 插 模 暂时 空 着 。 我 们 看 “设备 驱动 ”一 章 中 还 要 回 到 devfs 这 个 话题 上 。 另 一 方面 ， 由 于 在 内 
核 中 己 经 开始 使 用 16 位 的 主 、 次 设备 号 , 而 在 大 多 数 文件 系统 中 都 还 是 8 位 的 ,所 以 要 通过 to_kdev 10) 
加 以 转换 。 

完成 了 上 面 的 这 些 准 备 以 后 , 现在 炎 进 行 实质 性 的 工作 , 就 是 找到 或 建立 待 安装 设备 的 super. block 
数据 结构 了 。 首 先 还 是 在 内 核 中 寻找 ， 内 核 中 维持 着 一 个 super block 数据 结构 的 队列 super. blocks, 
所 有 的 super block 结构 ， 包 括 空 闲 的 ， 玫 通 过 结构 中 的 一 个 队列 头 s list 链 入 到 这 个 队列 中 。 寻 找 时 
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就 通过 get_super( ) 从 队列 中 寻找 ， 其 代码 在 fs/super.c 中 : 


[sys mount( ) > do mount( ) > get_sb_bdev( ) > get. super( )] 


631 f 

632 * get super ~ get the superblock of a device 
633 * (dev: device to get the superblock for 

634 水 

635 * Scans the superblock list and finds the superblock of the file system 
636 * mounted on the device given. XNULL is returned if no match is found. 
637 x/ 

638 

639 struct super block * get super(kdev t dev) 

640 (| 

641 struct super block * s; 

642 

643 if (!dev) 

644 return NULL; 

645 restart: 

646 s = sb _entry(super_blocks. next) ; 

647 while (s != sb entry (&super blocks)) 

648 if (ss dev == dev) { 

649 wait on super(s): 

650 if (s->s_dev == dev) 

651 return s; 

652 goto restart; 

653 } else 

654 s = sb entry (ss list. next); 

655 return NULL; 

656 } 


这 里 的 sb_entry( ) 古 个 宏 操 作 ， 定 义 于 include/linux/fs.h: 


664 Hdefine sb entry(list) list entry((list), struct super block, s list) 


读者 也 许 会 问 ， 这 是 否 意味 着 同一 个 块 设备 可 以 安装 多 次 ? 答案 是 可 以 的 ， 例 如 我 们 在 前 面 曾 经 


讲 到 通过 “ 回 接 设备 ”进行 的 安装 ， 那 就 是 同一 设备 的 多 次 安装 。 


然而 ， 在 大 多 数 情况 下 get super( ) 实 际 上 都会 失败 ， 因 而 得 从 设备 读 入 其 超级 块 并 在 内 存 中 建立 
起 该 设备 的 super_block 数据 结构 。 为 了 这 个 目的 ， 先 得 要 “打开 ”这 个 设备 文件 ， 这 是 由 blkdev get() 


完成 的 ， 其 代码 在 fs/block dev.c 中 : 
[sys. mount( ) > do_mount( ) > get. sb. bdev( ) > blkdev. get( )] 


606 int blkdev get(struct block device *bdev, mode t mode, 
unsigned flags, int kind) 


607 { 
608 int ret = —ENODEV; 
609 kdev t rdev = to kdev_t (bdev->bd dev); /* this should become bdev */ 
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610 down (&bdev—>bd_sem) : 

611 if (!bdev->bd_op) 

612 bdev->bd_ op = get blkfops (MAJOR (rdev)); 

613 if (bdev—bd op) { 

614 f* 

615 * This crockload is due to bad choice of ->open( ) type. 
616 * [t will go away. 

617 * For now, block device -»open( ) routine must not 
618 * examine anything in 'inode' argument except ->i_rdev 
619 */ 

620 struct file fake file = {}; 

621 struct dentry fake dentry = (); 

622 struct inode *fake inode - get empty inode( ); 

623 ret = -ENOMEM; 

624 if (fake inode) { 

625 fake file.f mode - mode; 

626 fake file.f flags - flags; 

627 fake file.f dentry = &fake dentry; 

628 fake dentry.d inode = fake inode: 

629 fake inode-^i rdev = rdev; 

630 ret = 0; 

631 if (bdev—>bd_op->open) 

632 ret = bdev-^bd op-^open(fake inode, &fake file); 
633 if (ret) 

634 atomic, inc (&bdev->bd_openers) ; 

635 else if (latomic read(&bdev-»bd openers) ) 

636 bdev->bd op = NULL; 

637 iput (fake inode); 

638 } 

639 } 

640 up (&bdev—>bd sem); 

641 return ret; 

642 } 


由 于 block device 结构 中 的 bd dev 有 可能 还 在 使 用 8 位 的 主 、 次 设备 号 ， 或 者 说 16 位 的 设备 号 ， 
这 里 先 通过 to_kdev_t( ) 将 它们 换 成 16 位 (或 者 说 32 位 的 设备 号 )。 前 面 讲 过 ，block_device 结构 中 的 
指针 bd op 指向 个 block, device, operations 数据 结构 。 对 于 devfs 的 设备 这 个 指针 已 经 在 前 面 设置 好 
了 ， 而 对 才 传 统 的 块 设备 则 这 个 指针 尚未 设置 ， 暂 时 还 空 着 ， 所 以 要 通过 get_blkfops( ) 根 据 设 备 的 主 
设备 号 来 设置 这 个 指针 。 函 数 get blkfops( ) 的 代码 也 在 fs/block_dev.c F: 


[sys mount( ) > do mount( ) > get sb bdev( ) > blkdev_get( ) > get. blkfops( )] 


487 /* 

488 Return the function table of a device. 

489 Load the driver if needed 

490 */ 

491 const struct block device operations * get blkfops(unsigned int major) 
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492 d 

493 const struct block device operations *ret - NULL; 
494 

495 /* major 0 is used for non-device mounts */ 
496 if (major && major < MAX BLKDEV) { 

497 Hifdel CONFIG KMOD 

498 if (!blkdevs[major].bdops) 1 

499 char name[20]; 

500 sprintf(name, "block-major-*d', major); 
501 request module (name); 

502 } 

503 #endif 

504 ret = blkdevs[major]. bdops; 

505 } 

506 return ret; 

507 } 


内 核 中 设 冯 了 :个 以 让 设备 号 为 下 标的 结构 数组 blkdevsl j A KREIS RA 
block, device, operations 结构 的 指针 : 


468 static struct 1 

469 const char *name; 

470 struct block device operations *bdops; 
471  } blkdevs[MAX BLKDEV]; 


系统 在 初始 化 时 将 所 广 持 的 各 种 块 设备 的 block_device_operations 结构 指针 填 入 该 数 纠 中 的 相应 元 
素 中 。 以 可 安装 异 块 实现 的 设备 驱动 程序 则 在 装 入 模块 时 才 设 置 相 应 的 指针 。 所 以 ， 如 果 相 应 表 项 的 
bdops 指针 为 0, 则 表明 该 设备 可 能 是 以 可 安装 模块 实 坝 的 ,但 是 尚 本 装 入 ,因此 妆 调 用 request, module() 
将 其 装 入 。 在 正常 情况 下 ， 当 从 get blkfops( ) 返 回 时 指针 bdev->bd->op 已 经 设置 好 了 ， 就 好 像 “ 接 口 
卡 ” 已 经 插入 了 “总 线 ”。 

为 了 打开 设备 ， 还 需要 使 用 几 个 临时 的 数据 结构 ， 包 括 file 结构 、dentry 结构 以 及 inode 结构 。 这 
侍 要 指出 ， 我 们 现在 要 打开 的 是 作为 文件 的 设备 本 身 ， 而 不 是 这 个 设备 在 文件 系统 中 的 代表 如 

“jdev/hdal” 等 节点 ， 那 后 已 经 打开 了 ， 要 不 然 就 无 从 知道 其 主 设备 号 和 次 设备 号 了 。 打 开设 备 的 操 
作 是 通过 由 具体 设备 类 型 的 block, device, operations 结构 中 的 两 数 指针 open 提供 的 。 就 般 的 ide 磁盘 
而 言 ， 其 数据 结构 为 bd_fops， 而 相应 的 函数 指针 则 指 i bd open( )。 我 们 在 这 里 就 不 深入 到 打开 设备 
的 过 程 中 去 了 ， 读 者 可 参阅 打开 义 件 及 设备 驱动 等 有 关 章 节 。 

打 并 了 设备 ，blkdev_get( ) 也 就 完成 了 。 同 到 get_sb_bdev( ) 帆 ， 述 要 作 一 些 检 查 。 有 些 设备 的 介质 
是 活动 的 ， 吕 以 由 用户 蔡 换 的 〈 例 如 软盘 )， 对 丁 这 样 的 设备 此 检查 一 下 其 介质 是 否 已 经 灾 动 了 (如 果 
原 米 已 经 安装 的 话 )。 我 们 在 这 里 只 关心 固定 介质 磁盘 ， 所 以 就 不 深入 到 check_disk_change( ) 的 代码 中 
去 了 。 有 兴趣 或 有 需要 的 读者 可 以 自 心 阅读 。 节 后 ， 还 有 一 项 检查 ， 那 就 是 如 果 安 装 的 模式 不 是 “只 
读 ” 而 所 欲 安装 的 设备 却 已 经 设置 成 “只 读 ” 那 就 不 能 安装 了 。 

打开 了 基体 的 设备 以 后 , 就 要 通过 read_super( ) 从 设备 上 读 入 超级 块 并 在 内 存 中 建立 起 super. block 
结构 了 ， 其 代码 还 是 在 fs/super.c P: 
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[sys mount( ) > do mount( ) > get sb bdev( ) > read, super( )] 


721 static struct super block * read super(kdev t dev, struct block device *bdev, 
722 struct file system type *type, int flags, 
723 void *data, int silent) 
724 i 

125 struct super block * s; 

726 s = get_empty_super( ); 

727 if (ts) 

728 goto out; 

729 s->s_dev = dev; 

730 s->s_bdev = bdev; 

731 s->s_flags = flags; 

732 s-?s dirt = 0; 

733 sema_init(&s->s_vfs_rename_sem, 1) ; 

734 sema_init (&s->s_nfsd free path sem, 1): 

735 S-5s type = type; 

736 sema_init(&s—>s dquoi.dqio sem, 1); 

737 sema init(&s ^s dquot.dqoff sem, 1): 

738 s->s_dquot. flags = 0; 

739 lock super (s); 

740 if (!type->read_super(s, data, silent)) 
741 goto out fail; 

742 unlock super (s); 

743 /* tell bdcache that we are going to keep this one */ 
744 if (bdev) 

745 atomic inc(&bdev-^bd count); 

746 out: 

747 return s; 

748 

149 out fail: 

150 s-?»s dev = 0; 

751 s >s_bdev = 0; 

752 &-»s type - NULL: 

753 unlock_super (s) ; 

754 return NULL; 

755 } 


先 从 super. blocks 队列 中 找到 AAR super. block 结构 ， 进 行 一 些 简单 的 初始 化 以 后 就 些 根 据 
具体 设备 上 的 文件 系统 类 型 读 入 超级 块 。 如 前 所 述 ， 在 代表 着 具体 文件 系统 类 型 的 file system type 数 
据 结构 中 有 个 函数 指针 read_super( ) 指 向 具体 的 函数 。 对 于 Ext2 文件 系统 , 其 数据 结构 为 ext2_fs_type， 
而 相应 的 函数 指针 则 指向 ext2_read_super(). ei Xt ext2_read_super( ) 相 当 大 ， 有 250 S47, THEE 
和 过 程 则 相对 独立 ， 所 以 我 们 把 它 暂 时 放 一 下 ， 以 后 再 来 读 它 的 代码 ， 坝 在 先 继续 往 下 看 。 

从 设备 上 读 入 超级 块 江 设置 好 super block 结构 以 后 ，get_sb_bdev( ) 的 工作 就 完成 了 ， 只 是 返回 前 
可 能 偿 需要 递增 用 来 实现 此 种 文件 系统 类 型 的 可 安装 异 块 的 使 用 者 计数 : 


[sys mount( ) > do_mount( ) > get_sb_bdev( ) > get. filesystem( )] 
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81 /* WARNING: This can be used only if we already. own a reference */ 
82 static void get filesystem(struct file system type *fs) 


83 { 

84 if (fs—>owner) 

85 .. MOD INC USE COUNT (fs—>owner) ; 
86 } 


此 外 ， 还 恬 通 过 path_release( )FE JA E path_walk( ) 中 占用 的 dentry 结构 (代表 着 待 安装 设备 ) 和 可 能 
的 vfsmount 结构 。 
回 到 do_mount( ) 的 代码 中 继续 往 下 读 (fs/super.c)。 


[sys mount( ) > do mount( )] 


1385 /* Something was mounted here while we slept */ 
1386 while(d mountpoint(nd. dentry) && follow down(&nd.mnt, &nd.dentry)) 
1387 ] 

1388 

1389 /* Refuse the same filesystem on the same mouni point */ 
1390 retval = -EBUSY; 

1391 if (nd.mnt && nd.mnt-?mnt sb == sb 

1392 && nd.mnt-^mnt root == nd. dentry) 
1393 goto fail; 

1394 

1395 retval = -ENOENT: 

1396 if (!nd. dentry—>d_inode) 

1397 goto fail; 

1398 down (&nd. dentry-»d inode-^i zombie); 

1399 if (!IS DEADDIR(nd. dentry->d inode)) { 

1400 retval = -ENOMEM; 

1401 mnt = add vfsmnt(&nd, sb->s root, dev name); 
1402 ) 

1403 up (&nd. dentry->d_inode->i_zombie) ; 

1404 if (Imt) 

1405 goto fail; 

1406 retval = 0; 

1407 unlock_out: 

1408 up(&mount sem); 

1409 dput out: 

1410 path release (&nd) ; 

1411 fs out: 

1412 put filesystem(fstype); 

1413 return retval; 

1414 

1415 fail: 

1416 if (list empiy(&sb-^s mounts)) 

1417 kill super(sb, 0); 

1418 goto unlock out; 
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1419} 


符 安 装 设备 的 super block 结构 已 经 解决 了 ， 这 一 边 已 经 没有 什么 问题 ， 现 在 要 同 过 头 来 看 安装 
点 这 一 边 了 。 前 面 ， 在 处 理 待 安装 设备 的 超级 块 之 前 ， 已 经 通过 path_init( ) 和 path_walk( ) 找 到 了 安装 
点 的 dentry 结构 、inode 结构 以 及 vfsmount 结构 ， 通 过 局 部 量 nameidata 数据 结构 nd 就 可 以 访问 到 这 
些 数据 结构 。 但 是 还 有 -种 情况 需要 考虑 。 

首先 ， 前 面 从 设备 上 读 入 超级 块 的 过 程 弟 个 颇 为 漫长 的 过 程 ， 当 前 进程 在 等 待 从 设备 上 读 入 的 过 
旦 中 儿 乎 可 肯定 要 进入 睡眠 ， 这 样 就 串 能 会 有 另 “个 进程 捷足先登 抢先 将 另 一 个 设备 安装 到 了 后 -个 
安装 点 上 。 要 知道 是 否 发 生 了 这 种 情况 ， 可 以 通过 d mountpoint ) 来 检测 〔 见 文件 dcache.h); 


[sys mount( ) > do mount( ) > d mountpoint( )] 


259 static | inline | int d mountpoint (struct dentry *dentry) 


260  ( 
261 return !list_empty (&dentry->d_vfsmnt) : 
262  ] 


如 果 代 表 着 安装 点 的 dentry 结构 中 的 d. vfsmnt 队列 非 空 ， 那 就 说 明 已 经 有 设备 安装 在 上 面 了 。 看 
这 种 情况 下 怎么 办 呢 ? 我 们 从 代码 中 看 到 其 对 策 是 调用 follow. down ) 前 进 到 已 安装 设备 上 的 根 节点 ， 
并 且 要 通过 while 循环 进 “ 步 检测 新 的 安装 点 ， 训 到 尽头 , 即 前 进 到 不 再 有 设备 安装 的 某 个 设备 上 的 根 
节点 为 止 。 已 实 装 设备 的 根 日 录 下 面 一 般 都 业 有 内 容 的 ， 是 否 可 以 把 一 个 设备 安装 在 一 个 非 空 的 日 录 
PAER? 可 以 的 。 这 一 点 可 能 与 人 们 的 直觉 和 想像 不 同 。 但 是 ， 将 一 个 设备 安装 到 -个 有 内 容 的 日 
录 节 点 时 ， 该 节点 就 变 成 了 一 个 纯粹 的 安装 点 ， 原 米 目 录 中 的 内 容 就 变 成 不 可 访问 了 。 当 然 ， 从 管理 
的 角度 出 发 应 该 避免 发 和 这 种 情况 ， 但 是 就 技术 角度 而 言 这 是 可 以 的 。 


[sys_mount( ) > do_mount( ) > follow. down( )] 


375 int follow down(struct vfsmount **mnt, struct dentry **dentry) 
376 d 


377 return | follow down (mnt, dentry) ; 
378 ] 


这 个 函数 只 是 将 一 个 inline 函数 follow. down( ) 抽 出 来 作为 个 普通 的 函数 读者 应 该 明 白 二 者 
的 区 别 )。 以 前 ， 我 们 在 path wak ) 的 代码 中 也 看 到 过 对 这 个 inline 函数 的 引用 。 其 代 公 在 fs/namei.c 
rh; 


352 static inline int __follow_down (struct vfsmount **mnt, struct deniry **dentry) 
3538. { 


354 struct list head *p; 

355 spin lock(&dcache lock); 

356 p = (*dentry)-^d vfsmni. next: 

357 while (p != &(*dentry)—^d vfsmnt) { 

358 struct vfsmount *tmp; 

359 tmp - list entry(p, struct vfsmount, mni clash); 
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if (tmp->mnt_parent == *mnt) | 
*mnt - mntget (tmp); 
spin unlock(&dcache lock); 
mntput (tmp-^mnt parent); 
/* tmp holds the mountpoint, so... */ 


dput (kdentry) ; 
*dentry = dget(tmp-^mnt root); 
return 1; 

} 

p = p->next; 


} 
spin_unlock (&deache_lock) ; 
return 0; 


) 


把 一 个 设备 安装 到 一 个 目录 节点 时 要 用 个 vfsmount 数据 结构 作为 “连接 件 ”。 该 数据 结构 定义 于 


include/linux/mount.h: 


17 struct vfsmount 

18 | 

19 struct dentry *mnt mountpoint; /* dentry of mountpoint */ 

20 struct dentry *mnt root; /* root of the mounted tree */ 

21 struct vfsmount *mnt parent; /* fs we are mounted on */ 

22 struct list head mnt instances; /* other vfsmounts of the same fs */ 
23 struct list head mnt clash; /* those who are mounted on (other */ 

24 /* instances) of the same dentry */ 

25 struct super block *mnt sb; /* pointer to superblock */ 

26 struct list head mnt mounts; /* list of children, anchored here */ 
2T struct list head mnt child; /* and going through their mnt child */ 
28 atomic t mnt counl; 

29 int mnt flags; 

30 char *mnt devname; /* Name of device e.g. /dev/dsk/hdal */ 

3l struct list head mnt list; 

32 uid t mni owner; 

33 ha 

结构 中 主要 成 分 的 作用 为 : 

e ”指针 mnt_mountpoint 指向 安装 点 的 dentry 数据 结构 ， 而 指针 mount_root 则 指向 所 安装 设备 上 
根 上 月 录 的 dentry 数据 结构 ， 人 在 oH ZEE EE BER. 

e ”可 是 ,在 dentry 结构 中 却 没 有 直接 指向 vfsmount 数据 结构 的 指针 , 而 是 有 个 队列 头 d_vfsmounb 
这 是 因为 安装 点 利 设备 之 间 是 .对 多 的 关系 ， 企 同 ，' 个 安装 点 上 可 以 安装 多 个 设备 。 相 应 地 ， 
vfsmount 结构 中 也 有 个 队 州 头 mnt_clash， 通 过 它 链 入 到 安装 点 的 d_vfsmount 队列 中 。 不 过 ， 
从 所 安装 设备 上 根 日 录 的 dentry 数据 结构 出 发 却 不 能 直接 找到 其 vfsmount 结构 ， 侧 得 要 通过 
其 super. block 数据 结构 中 转 。 

e 指针 mnt_sb 指向 所 安装 设备 的 超级 块 的 super_block 数据 结构 。 反 之 ， 在 所 安装 设备 的 


super block 数据 结构 中 却 并 没有 直接 指向 vfsmount 数据 结构 的 指针 ， 人 而 是 有 个 队列 头 
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s_mounts， 因 为 设备 与 安装 点 之 间 也 是 一 对 多 的 关系 ， 同 一 个 设备 可 以 安装 到 多 个 安装 点 上 。 
相应 地 ，vfsmount 结构 中 也 有 个 队列 头 mnt_instances， 道 过 它 链 入 到 设备 的 s_mounts 队列 中 。 
€ 指针 mnt_parent 指向 安装 点 所 在 设备 当初 安装 时 的 vfsmount 数据 结构 ,就 是 上 - 层 的 vfsmount 
数据 结构 。 不 过 ， 在 根 设备 或 其 他 不 存在 上 一 层 vfsmount 数据 结构 的 情况 下 ， 这 个 指针 指向 
该 数据 结构 本 身 。 同 时 ，vfsmount 数据 结构 中 还 有 mnt child 和 mnt, mounts 两 个 队列 头 ， 只 
要 上 一 层 的 vfsmount 数据 结构 存在 ,就 通过 mnt_child $A E- - Ez vfsmount 结构 的 mnt. mounts 
队列 中 。 这样， 就 形成 一 种 设备 安装 的 树 形 结构 ， 从 一 个 vfsmount 结构 的 mnt mounts 队列 开 
始 可 以 找到 所 有 直接 或 间接 安装 在 这 个 设备 上 《的 文件 系统 中 ) 的 其 他 设备 。 
€ 此 外 ,系统 中 还 有 个 总 的 vfsmount 结构 队列 vfsmntlist, 相应 地 vfsmount 数据 结构 中 还 有 个 队 
列 头 mnt_list。 所 有 已 安装 设备 的 vfsmount 结构 都 通过 mnt. list HEA vfsmntlist 队列 中 。 
所 安装 设备 的 super block 数据 结构 与 作为 “连接 件 ” 的 vfsmount 数据 结构 之 问 可 以 是 - -对 多 的 关 
系 ， 这 容易 理解 ， 因 为 把 同 -物理 设备 安装 到 文件 系统 中 不 同 的 节点 上， 成 为 逻辑 上 相互 独立 的 子 树 
是 很 自然 的 事 。 可 是 ， 安 装点 的 dentry 结构 与 vfsmount 结构 之 问 也 可 以 是 -对 多 的 关系 ， 这 就 不 容易 
理解 了 。 很 难 想像 怎么 可 以 把 多 个 设备 安装 到 同一 个 节点 上 。 其 实 ， 这 二 者 是 联系 的 ， 有 了 前 者 就 会 
有 后 者 , 我们 通过 一 个 假想 的 情景 米 说 明 这 个 问题 : 假定 有 /dev/hdal、 /dev/hda2、/dev/hda3、 利 /dev/ihda4 
DUS Bee CHEE SPEC), /dev/hdal 为 根 设 备 〈 这 四 个 设备 文件 节点 都 在 /dewhdal 上 的 /dev 月 录 下 )， 并 
H, fE/dev/hdal 的 根 H 录 下 有 两 个 空闲 的 目录 节点 /d11 和 /d12， 而 在 /dewhda2 的 根 日 录 下 则 有 个 空闲 
WH RT d2。 现 在 把 /dev/hda2 分 别 安装 到 /d11 和 /di2 上 去 ， 这 当然 是 可 以 的 。 可 是 ， 这 样 一 来 就 有 
了 1d11/d2 和 /d12/d2 两 个 路 答 通 往 间 个 物理 的 目录 节点 。 然 后 ， 把 /dev/hda3 安装 到 /d11/d2 上 ， 这 样 
/d11/d2 就 代表 着 /dev/hda3 了 。 可 是 /d12/d2 UE? 显然 ， 它 应 该 还 是 空 的， 因为 /dl12 AGREE ERR Y 
T. BH/devihda4 安装 到 /d12/d2 上 |-， 这 当然 也 是 允许 的 。 好 ， 现 在 /dev/hda2 |: 的 目录 节点 d2 就 安 
装着 网 个 设备 了 ， 从 而 有 两 个 vfsmount 数据 结构 在 其 dentry 结构 的 d_vfsmount 队列 中 。 读 者 自然 就 会 
产生 一 个 问题 ， 这 样 ， 当 沿 着 路 径 名 搜索 ， 发 现 d2 是 个 安装 点 而 要 前 进 到 所 安装 的 设备 上 时 ， 怎 么 知 
道 到 底 是 要 前 进 到 /devwhda3 还 是 /dev/hda4 呢 ? 显 然 这 时 候 需 要 看 路 径 名 的 “上 下 文 ” 其 休 地， 要 看 是 
顺 着 /dev/hda2 的 哪 “次 安装 〈/d1Ld2 或 /412/d2) 搜索 下 来 的 ， 而 上 - 层 的 vfsmount 数据 结构 实际 上 就 
代表 着 这 个 上 下 文 。 所 以 ， 在 上 面 __follow_down( ) 的 代码 中 是 个 while 循环 ， 它 扫描 dentry 结构 中 
的 d_vfsmount 队列 中 的 所 有 vfsmount 数据 结构 ， 找 出 其 中 上 一 层 vfsmount 数据 结构 相符 的 那个 “连接 
ft^. 
PIEJ do. mout ORARE +. Ze LE ef E Wa, 剩 卜 的 就 是 把 待 安装 设备 的 super. block 数据 结 
构 与 安装 点 的 dentry 数据 结构 联系 在 一 起 ， 即 “安装 ”本 身 了 ， 这 是 通过 add_vfsmnt( ) 完 成 的 ， 其 代 
码 在 fs/super.c H: 





[sys_mount( ) > do mount( ) > add_vfsmnt( )] 


281 static LIST HEAD(vfsmntlist):; 

282 

283 fk 

284 * add vfsmnt ~ add a new mount node 

285 * (Gnd: location of mountpoint or «NULL if we want a root node 

286 * @root: root of (sub)tree to be mounted 

287 * dev name: device name to show in /proc/mounts or *NULL (for "none^). 
288 * 
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289 
290 
291 
292 
293 
294 
295 
296 
297 
298 
299 
300 
301 
302 
303 
304 
305 
306 
307 
308 
309 
310 
311 
312 
313 
314 
315 
316 
317 
318 
319 
320 
321 
322 
323 
324 
325 
326 
327 
328 
329 
330 
331 
332 
333 
334 
335 
336 
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This is YFS idea of mount. New node is allocated, bound to a tree 
we are mounting and optionally (OK, usually) registered as mounted 
on a given mountpoint. Returns a pointer to new node or %NULL in 
case of failure. 


Potential reason for failure (aside of trivial lack of memory) is a 
deleted mountpoint. Caller must hold -^i zombie on mountpoint 
dentry (if any). 


Node is marked as MNT VISIBLE (visible in /proc/mounts) unless both 
Gnd and @devname are “NULL. Tt works since we pass non-%NUII. @devname 
when we are mounting root and kern mount( ) filesystems are deviceless. 
If we will get a kern mount( ) filesystem with nontrivial @devname we 
will have to pass the visibility flag explicitly, so if we will add 
support for such beasts we il have to change prototype. 


static struct vfsmount *add vfsmnt (struct nameidata *nd, 


struct dentry *root, 
const char *dev name) 


struct vfsmount *mnt; 
struct super block *sb = root->d_inode->i sb; 
char *name; 


mnt = kmalloc(sizeof(struct vfsmount), GFP KERNEL): 
if (Imt) 

goto out; 
memset (mnt, 0, sizeof(struct vfsmount)); 


if (nd || dev name) 
mnt-?mnt flags = MNT VISIBLE; 


/* lt may be NULL, but who cares? */ 
if (dev name) { 
name = kmalloc(strlen(dev name)+1, GFP KERNEL): 
if (name) { 
strcpy(name, dev name); 
mnt-»mnt devname = name; 


} 

mnt-^mnt owner = current-?uid; 
atomic set(&mnt-^?mnt count, 1) ; 
mnt-^»mnt sb = sb; 


spin lock(&dcache lock); 
if (nd && !1S ROOT(nd-^»dentry) && d unhashed (nd->dentry) ) 
goto fail; 
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337 mnt->mnt_root = dget(root); 

338 mnt-^mnt mountpoint ~ nd ? dget(nd-^dentry) : dget (root); 
339 mnt-^mnt parent > nd ? mntget(nd->mnt) : mnt; 

340 

341 if (nd) { 

342 list_add(&mnt~>mnt_child, &nd-^mnt-^mnt mounts); 
343 list add(&mnt-^mnt clash, &nd->dentry—>d_vfsmnt) ; 
344 } else { 

345 INIT LTST HEAD(&mnt-^mnt child); 

346 INIT LTST HEAD(&mnt-^mnt clash); 

347 } 

348 INIT LIST_HEAD (&mnt->mnt_mounts) ; 

349 list_add(&mnt->mnt_instances, &sb->s mounts); 

350 list_add (&mnt-—>mnt_list, vfsmntlist. prev); 

351 spin_unlock (@dcache_ lock) : 

352 out: 

353 return mnt; 

354 [ail: 

355 spin unlock(&dcache lock); 

356 if (mnt-^mnt devnamc) 

357 kfree (mnt ->mnt_devname) ; 

358 kfree (mnt); 

359 return NULL; 

360  ] 


至 此 ， 设 备 的 安装 就 完成 了 。 


#56 T do_mount( ) 的 主流 ， 我 们 再 来 看 看 它 的 一 个 支流 do_loopback( )。 我 们 在 前 面谈 论 过 “ 回 接 


设备 "， 现 在 就 来 看 它 是 怎样 安装 的 。 函 数 do_loopback( ) 的 代码 也 在 文件 fs/super.c H: 


[sys. mount( ) > do mount( ) > do loopback( )] 


1182 [x 

1183 * do loopback mount. 

1184 */ 

1185 static int do_loopback (char ¥old_name, char *new name) 
1186 { 

1187 struct nameidata old nd, new nd; 

1188 int err = 0; 

1189 if (!old name |; !*old name) 

1190 return -EINVAL; 

1191 if (path init(old name, LOOKUP POSITIVE, &old nd)) 
1192 err - path walk(old name, &old nd); 

1193 if (err) 

1194 goto out; 

1195 if (path init(new name, LOOKUP POSITIVE, &new nd)) 
1196 err - path walk(new name, &new nd); 

1197 if (err) 


. 513. 


Linux 内 核 源 代 码 情景 分 析 EAO 


1198 goto outl; 

1199 err - mount is safe(&new nd); 

1200 if (err) 

1201 goto out2; 

1202 err = -EINVAL; 

1203 if (S ISDIR(new nd. dentry-^d inode-^i mode) != 
1204 S ISDIR(old nd.dentry-^?d inode-^i mode)) 
1205 goto out2; 

1206 

1207 err = -ENOMEM; 

1208 if (old_nd. mnt->mnt_sb->s type-^fs flags & FS SINGLE) 
1209 get filesystem(old nd.mnt-»mnt sb-5s type); 
1210 

1211 down (&mount sem); 

1212 /* there we go */ 

1213 down(&new nd.dentry-^d inode-5i zombie); 

1214 if (IS DEADDIR(new nd. dentry-^d inode)) 

1215 err = —ENQENT; 

1216 else if (add vfsmnt(&new nd, old nd.dentry, old_nd. mnt->mnt devname) ) 
1217 err = 0; 

1218 up (&new_nd. dentry->d_inode->i_zombie) ; 

1219 up(&mount scm); 

1220 if (err && old nd.mnt-^mnt sb-5s type-^fs flags & FS SINGLE) 
1221 put filesystem(old nd.mnt-?mnt sb-^s type); 
1222 out2: 

1223 path rclease(&new nd); 

1224 outl: 

1225 path release(&old nd); 

1226 out: 

1227 return err; 

1228} 


参数 old name 指向 设备 文件 的 路 径 名 ， 而 new. name 指向 安装 点 的 路 径 名 。 读 了 do_mount( ) 的 主 
流 代码 以 后 再 来 看 这 -- 段 代码 ， 下 能 会 觉得 比 想像 中 的 简单 。 实 际 上 也 确实 是 这 样 ， 原 因 在 十 通过 问 
接 设备 安装 之 前 事先 要 通过 对 回 接 设备 的 ioctl( ) 操 作 《〈 其 体 的 命令 为 LOOP_SET_FD)， 在 回 接 设 各 与 
日 标 设 备 (或 格式 化 成 文件 系统 的 普通 文件 ) 之 间 建 立 起 联系 ,， 有 些 准备 上 作 已 经 在 部 时 候 做 姥 了 (有 
兴趣 的 读者 可 疯 读 drivers/block/loop.c 中 的 loop. set. fd( ) 以 及 有 关 的 代 个 )。 

这 里 值得 注意 的 是 对 add_vfsmt( ) 的 调用 参数 , 我 们 不 妨 把 这 里 使 用 的 调 册 参数 与 do_mount( ) 中 使 
用 的 参数 作 一 比较 。 对 add_vfsmnt( ) 的 第 一 个 调用 参数 是 一 个 nameidata 结构 指 外 ， 代 表 着 对 竺 安装 设 
备 ， 在 这 里 是 回 接 设备 〈 如 /dewioop0) 攻 点 的 搜索 结果 ， 其 中 的 “个 成 分 指向 该 节点 的 dentry 结构 。 
第 一 个 参数 则 是 指向 安装 点 的 dentry 结构 的 指针 ， 这 一 点 在 两 种 情况 下 都 “ 样 。 从 概念 上 说 , 所谓“ 安 
装 ” 止 是 要 在 安装 点 和 待 安装 点 这 商 个 dentry 结构 之 问 架 设 起 桥梁 ， 从 而 建立 起 二 者 在 逻辑 上 的 等 价 
性 。 这 样 c, TE path_walk( ) 中 一 所 到 达 安 装 的 dentry 结构 就 会 道 过 follow_down( ) 进 入 回 接 设 备 的 
dentry， 就 好 像 进入 某 个 块 设备 根 目 录 的 dentry 结构 样 。 所 不 同 的 是 : 在 一 般 情况 下 进入 的 是 块 设备 
WERK dentry 结构 ， 它 的 inode 结构 是 通过 该 设备 的 驱动 程序 从 设备 上 读 入 其 根 目录 的 索引 节点 而 
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建立 起 来 的 。 而 如 果 进 入 的 是 回 接 设 备 的 dentry 结构 呢 ? 当 内 核 企 多 通过 同 接 设备 的 驱动 程序 从 该 虚 
拟 的 “ 块 设 备 ” 上 读 入 记录 块 时 ， 却 由 同 接 设备 的 驱动 程序 “ 偷 沼 换 柱 ” 转 到 了 原先 设置 好 的 目标 设 
备 ， 读 入 记录 块 的 工作 也 “ 转 包 ”给 了 目标 设备 的 驱动 程序 。 而 器 接 设备 本 身 的 驱动 程序 ， 则 变 成 了 
某 种 中 介 机 构 ， 并 且 从 而 可 以 在 中 间 对 过 往 的 所 有 记录 块 进 行 加 密 、 解 密 。 所 以 ， 从 “安装 ”本 身 的 
角度 看 ， 回 接 设 备 的 安装 确实 很 简单 ， 但 是 通 向 日 录 设 备 的 桥 染 实 际 上 是 由 回 接 设 备 的 驱动 程序 通过 
一 些 内 部 的 数据 结构 建立 起 来 的 。 如 有 果 说 由 普通 的 块 设备 安装 所 建立 的 是 直接 的 桥 粱 ， 孝 么 由 回 接 设 
备 安装 所 建立 的 则 是 间接 的 桥梁 ， 器 好 像 在 河中 心 有 个 小 岛 。 从 概念 上 说 ， 这 与 在 用 户 进程 层面 上 的 
输入 / 输出 重 定向 以 及 通过 管道 实现 的 中 间 过 滤 进 程 是 致 的 。 


看 完了 文件 系统 的 安装 ， 再 来 看 文 什 系 统 的 拆卸 , 这 是 山 sys umount( ) 完 成 的 , 其 代码 在 fs/super.c 


中 ， 

1109 /* 

1110 * Now umount can handle mount points as well as block devices 

Ilil * This is important for filesystems which use unnamed block devices 
1112 * 

1113 * We now support a flag for forced unmount like the other 'big iron’ 
1114 * unixes. Our API is identical to OSF/1 to avoid making a mess of AMD 
1115 */ 

1116 

1117 asmlinkage long sys umount (char * name, int flags) 

MIS  ( 

1119 struct nameidata nd; 

1120 char *kname; 

1121 int retval; 

1122 

1123 lock kernel( ); 

1124 kname = getname (name) ; 

1125 retval = PTR ERR(kname); 

1126 if (IS ERR(kname)) 

1127 goto out; 

1128 retval = 0; 

1129 if (path init (kname, LOOKLP POSITIVE|LOOKUP FOLLOW, &nd)) 

1130 retval = path walk(kname, &nd); 

1131 putname (kname) ; 

1132 if (retval) 

1133 goto out; 

1134 retval = -EINVAL; 

1135 if (nd.dentry != nd.mnt-^mnt root) 

1136 goto dput and out; 

1137 

1138 retval = -EPERM; 

1139 if (!capable(CAP SYS ADMIN) && current-^uid!-nd.mnt-^mnt owner) 
1140 goto dput and out; 

{141 

1142 dput (nd. dentry) ; 
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1143 /* puts nd.mnt */ 
1144 down(&mount sem); 
1145 retval = do umount(nd.mnt, 0, flags); 
1146 up(&mount sem); 
1147 goto out; 

1148 dput and out: 

1149 path release (&nd) ; 
1150 out: 

1151 unlock kernel( ); 
1152 return retval; 
1153. } 


由 于 path. init ) 的 调用 参数 中 的 LOOKUP. FOLLOW 标志 位 为 了, 不 论 给 定 的 是 安装 点 的 路 径 名 或 
是 设备 文件 的 路 径 名 ，path_walk( ) 的 结果 都 是 一 样 的 ，nd.dentry 总 是 指向 设备 文件 上 根 日 录 的 dentry 
结构 ,而 nd.mnt 总 是 指向 用 来 将 该 设备 安装 到 安装 点 上 的 vfsmount 数据 结构 。 人 在 安装 设备 的 时 候 , 总 
是 将 设备 上 的 根 日 录 作 为 该 设备 的 代表 安装 到 另 个 设备 上 的 某 个 节点 上 ， 所 以 如 果 nd.dentry 不 等 于 
nd.mnt->mnt_root 就 说 明 有 了 严重 的 错误 。 通 过 了 这 - 层 检 验 ， 先 把 这 个 dentry 结构 释放 ， 因 为 我 们 不 
再 肖 要 使 用 这 个 数据 结构 了 。 注 意 ， 这 里 的 nameidata 数据 结构 nd 症 局 部 量 ， 所 以 并 不 需要 释放 其 空 
间 。 全 于 nd.mnt 所 指向 的 vfsmount 结构 则 还 需要 在 do_umount( ) 中 使 用 ， 所 以 释放 这 个 数据 结构 的 责 
侍 就 转 给 了 do_umount( )。 完 成 文件 系统 拆 凤 操作 的 主体 do_umount( ) 也 在 fs/super.c 中 : 


[sys_umount( ) > do_umount( )] 


1013 static int do umount(struct vfsmount *mnt, int umount root, int flags) 
1014. ( 

1015 struct super block * sb = mnt-?mnt sb; 

1016 

1017 /* 

1018 * No sense to grab the lock for this test, but test itself looks 
1019 * somewhat bogus. Suggestions for better replacement? 

1020 * Ho-hum... Tn principle, we might treat that as umount ! switch 
1021 * 1o rootfs. GC would eventually take care of the old vfsmount. 
1022 * The problem being: we have to implement rootfs and GC for that ;-) 
1023 * Actually it makes sense, especially if rootfs would contain a 
1024 * /reboot - static binary that would close all descriptors and 
1025 * call reboot (9). Then init(8) could umount root and exec /reboot. 
1026 */ 

1027 if (mnt == current—>fs->rootmnt && !umount root) { 

1028 int retval = 0; 

1029 /* 

1030 * Special case for “unmounting” root .. 

1031 * we just try to remount it readonly 

1032 */ 

1033 mntput (mnt) ; 

1034 if (!(sb-»s flags & MS RDONLY)) 

1035 retval - do remount sb(sb, MS RDONLY, 0); 
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1036 return retval; 


1037 } 

1038 

1039 spin lock(&dcache lock); 

1040 

1041 if (mnt->mnt instances. next != mnt ->mnt_instances. prev) f 
1042 if (atomic_read(&mt->mnt count) > 2) { 

1043 spin unlock (&deache_lock) ; 

1044 mntput (mnt) ; 

1045 return -EBUSY; 

1046 ] 

1047 if (sb-s type—^fs flags & FS SINGLE) 

1048 put filesystem(sb 5s type); 

1049 /* We hold two references, so mntput( ) is safe x/ 
1050 mntput (mnt) ; 

1051 remove_vfsmnt (mnt); 

1052 return 0; 

1053 } 

1054 spin unlock(&dcache lock); 

1055 


调用 参数 umount_root 表示 所 要 拆卸 的 是 否 根 设备 , 我 们 在 前 面 的 代码 中 看 到 从 sys_umount( ) 中 调 
用 时 这 个 参数 为 0， 用 户 进程 是 个 能 道 过 umount ) 直 接 拆卸 根 设备 的 。 从 用 户 进 程 通过 umount( ) 系 统 
调用 拆 印 根 设 备 只 意味 着 将 它 重 安装 成 “内 读 ” 模 式 。 

在 vfsmount 数据 结构 中 也 有 个 使 用 计数 mnt_count， 在 add_vfsmnt( ) 中 设置 为 1。 从 那 以 后 ， 每 当 
要 使 用 这 个 数据 结构 时 就 通过 mntget( ) 递 增 其 使 用 计数 ， 用 完了 就 通过 mntput( ) 递 减 其 计数 。 例 如 ， 
ERR path. init( ) 中 就 调用 了 mntget( ) 而 在 path. release( ) 中 则 调用 了 mntput(); 又 如 在 follow up( ) 和 
follow. down( ) 中 都 既 调 用 了 mntget( ) 义 调用 了 mntput( )。 所 以 ， 在 do_umount( ) 中 所 处 理 的 vfsmount 
结构 中 的 使 用 计数 应 该 起 2， 如 果 大 十 这 个 数值 就 说 明 还 有 其 他 的 操作 过 程 还 正在 使 用 这 个 数据 结构 ， 
因此 不 能 完成 拆 跟 而 只 能 出 错 返 同 。 当 然 ， 在 出 错 返 回 之 前 也 要 通过 mntput( ) 递 减 这 个 使 用 计数 。 

前 面 讲 过 ，vfsmount 结构 在 安装 文件 系统 时 通过 其 队列 头 mnt, instances 挂 入 一 个 super_block 结构 
fJ s mounts 队列 。 通 常 一 个 块 设备 只 安装 一 次 ， 所 以 其 super block 结构 中 的 队列 s mounts 只 含有 … 个 
vfsmount 结构 ， 因 此 该 vfsmount 结构 的 队列 头 mnt, instances 中 的 两 个 指针 next 和 prev 相等 。 介 是， 在 
有 此 情况 下 同一 个 设备 是 可 以 安装 多 次 的 ,此 时 其 super_block 结构 中 的 s_mounts 队 齐 含有 多 个 vfsmount 
结构 ， 而 队列 中 的 每 个 vfsmount 结构 的 mnt instances 中 的 两 个 指针 就 不 相等 了 。 所 以 ， 此 时 代码 中 调 
用 remove vfsmnt( ) 所 拆 名 的 并 不 是 相应 设备 仅 存 的 安装 。 这 种 情况 下 的 拆 务 比较 简单 ， 因为 只 起 抓 除 
该 设备 多 次 安装 中 的 一 次 , MIELE HP. FAA EK remove_vfsmnt( ) 的 代码 (fs/super.c ): 


[sys umount( ) > do umount( ) > remove_vfsmnt( )] 


408 /* 

409 * Called with spinlock held, releases it. 

410 */ 

411 static void remove vfsmnt (struct vfsmount *mnt) 
412 { 
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413 /* First of all, remove it from all lists */ 
414 list del(&mnt-^mnt instances); 
415 list del(&mnt-^mnt clash); 

416 list del(&mnt-^mnt list); 

417 list del (&nnt-^mnt, child); 

418 spin unlock(&dcache lock); 

419 /* Now we can work safely */ 
420 if (mnt-^?mnt parent !- mnt) 
421 mntput (mnt—>mnt_ parent); 
422 

423 dput (mnt—>mnt_mountpoint) ; 

A24 dput (mut-^mnt root); 

425 if (mnt-^mnt devname) 

426 kfree(mnt-^mnt devname); 
421 kfree (mnt) ; 

428  ] 


对 这 些 代码 读者 应 该 不 会 感到 困难 。 函 数 dput( ) 递 增 一 个 dentry 结构 的 使 用 计数 ， 如 果 递 减 后 达 
到 了 0， 就 将 此 数据 结构 转移 到 dentry unused 队列 中 。 

[f do_umount( ) 的 代码 中 。 相 比 之 下 ， 如 果 vfsmount 数据 结构 代表 着 一 个 设备 的 惟一 安装 ， 那 
就 比较 复杂 一 点 了 。 我 们 在 这 里 并 不 关心 磁盘 空间 配额 的 问题 ， 所 以 此 过 DQUOT_OFF( ) 和 
acct. auto. close( ) 直 接 往 下 读 。 


[sys_umount( ) > do umount( )] 


1056 /* 

1057 * Before checking whether the filesystem is still busy, 

1058 * make sure the kerne! doesn’t hold any quota files open 

1059 * on the device. lf the umount fails, too bad -- there 

1060 * are no quotas running any more. Just turn them on again. 
1061 */ 

1062 DQUOT_OFF (sb) ; 

1063 acct auto close(sb-^s dev); 

1064 

1065 /水 

1066 * If we may have to abort operations to get out of this 

1067 * mount, and they will themselves hold resources we must 

1068 * allow the fs to do things. In the Unix tradition of 

1069 * 'Gee thats tricky lets do it in userspace’ the umount begin 
1070 * might fail to complete on the first run through as other Lasks 
1071 * must return, and the like. Thats for the mount program to worry 
1072 * about for the moment. 

1073 */ 

1074 

1075 if( (flags&MNT FORCE) && sb->s_op—>umount_begin) 

1076 sb-^s op-^umount begin (sb); 

1077 
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1078 /* 


1079 * Shrink dcache, then fsync. This guarantees that if the 
1080 * filesystem is quiescent at this point, then (a) only the 
1081 * root entry shouid be in use and (b) that root entry is 
1082 * clean. 

1083 */ 

1084 shrink dcache, sb(sb): 

1085 fsyne dev(sb-^s dev); 

1086 

1087 if (sb-^s root-^d inode-^i state) { 

1088 mntput (mnt) ; 

1089 return -EBUSY; 

1090 } 

1091 

1092 /* Something might grab it again - redo checks */ 

1093 

1094 spin lock(&dcache lock); 

1095 if (atomic read(&mnt-^mnt count) > 2) { 

1096 spin unlock(&dcache lock); 

1097 mntput (mnt) ; 

1098 return -EBUSY; 

1099 } 

1100 

1101 /* OK, that's the point of no return */ 

1102 mntput (mnt) ; 

1103 remove_vfsmnt (mnt) ; 

1104 

1105 kill super (sb, umount root); 

1106 return 0; 

1107 } 


有 些 设备 要 求 在 拆卸 时 先 调用 一 个 函数 处 理 拆卸 的 开始 ， 这 种 设备 通过 其 super. operations 函数 跳 
转 表 内 的 函数 指针 umount_begin 提供 相应 的 消 数 。 

把 一 个 设备 最 终 从 文件 系统 中 拆卸 下 来 ， 这 意味 着 从 此 以 后 这 个 子 系统 中 的 所 有 节点 都 不 再 是 可 
访问 的 了 。 以 前 讲 过 ， 每 当 某 个 过 程 开 始 使 用 一 个 节点 的 dentry 结构 时 都 要 通过 degt( ) 递 增 其 使 用 计 
数 ， 如 果 内 存 中 尚 无 此 节点 的 dentry 结构 存在 就 要 为 之 建立 并 将 其 使 用 计数 设 成 1。 与 其 相对 应 ， 每 
当 结 束 使 用 个 dentry 结构 时 就 要 通过 dput( ) 递 减 其 使 用 计数 ， 如 果 达 到 了 0 就 要 将 这 个 数据 结构 转 
移 到 dentry_unused 队列 中 。 之 所 以 不 马上 将 不 在 使 用 中 的 dentry 结构 释放 ， 而 将 它们 留 在 这 个 队列 中 
是 为 了 提供 “ 些 缓冲 ， 因 为 说 不 定 很 快 就 义 要 用 了 。 订 是 现在 既然 要 最 终 和 外 下 “个 设备 ， 则 属于 这 个 
设备 的 所 有 dentry 结构 青 没有 保留 的 必要 。 所 以 ， 此 时 要 扫描 dentry_unused 队列 ， 把 所 有 属于 这 个 队 
列 的 dentry 结构 都 释放 掉 ， 这 就 是 shrink dcache sb( ) 要 做 的 事情 。 其 代码 在 fs/dcache.c 中 : 


[sys_umount( ) > do umount( ) > shrink dcache. sb( )] 


378 fk 
379 * shrink dcache sb - shrink dcache for a superblock 
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380 * Gsb: superblock 


38l * 

382 * Shrink the dcache for the specified super block. This 
383 * js used to free the dcache before unmounting a file 
384 * system 

385 */ 

386 


387 void shrink dcache sb (struct super block * sb) 
388 { 


389 struct list head *tmp, *next; 

390 struct dentry *dentry; 

391 

392 /* 

393 * Pass one ... move the dentries for the specified 
394 * superblock to the most recent end of the unused list 
395 */ 

396 spin lock(&dcache lock); 

397 next = dentry unused. next; 

398 while (next != &dentry unused) | 

399 tmp = next; 

400 next = tmp->next; 

401 dentry = list_entry(tmp, struct dentry, d_lru); 
402 if (dentry->d_sb != sb) 

403 continue; 

404 list del (tmp) ; 

405 list_add(tmp, &dentry_unused) ; 

406 } 

407 

408 /* 

409 * Pass two ... free the dentries for this superblock. 
410 */ 

411 repeat: 

412 next = dentry_unused. next; 

413 while (next != &dentry_unused) { 

414 tmp = next; 

415 next = tmp-?next; 

416 dentry = list entry(tmp, struct dentry, d_lru); 
417 if (dentry-^d sb != sb) 

418 continue; 

419 if (atomic read(&dentry-^d count)) 

420 continue; 

421 dentry stat.nr unused--; 

422 list del(tmp): 

423 INIT LIST HEAD (tmp) ; 

424 prune one dentry(dentry); 

425 goto repeat; 

426 } 

427 spin_unlock (&dcache_lock) ; 
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这 段 代码 的 逻辑 比较 简单 ， 具 体 释放 … 个 dentry 结构 的 操作 是 由 prune_one_dentry( ) 完 成 的 ， 其 
RETR — X: fF(dcache.c)rP : 


[sys umount( ) > do umount( ) > shrink dcache sb() prone one dentry( )] 


298 /* 

299 * Throw away a dentry - free the inode, dput the parent. 
300 * This requires that the LRU list has already been 

301 * removed 

302 * Called with dcache lock, drops it and then regains 


303 */ 
304 static inline void prune one dentry (struct dentry * dentry) 
305 { 


306 struct dentry * parent; 

307 

308 list del init(&dentry-^d hash); 
309 list del(&dentry—^d child); 
310 dentry iput(dentry); 

311 parent = dentry->d_parent; 
312 d free(dentry); 

313 if (parent !- dentry) 

314 dput (parent) ; 

315 spin lock(&dcache lock); 
316 ) 


Bi [EIU] do, umount( ) 的 代 公 中 ， 下 - 件 事 是 fsync_dev( ). 

为 了 提高 效率 ， 块 设备 的 输入 / 输出 一 般 都 是 有 缓冲 的 ， 无 论 是 对 超级 块 的 改变 还 是 对 某 个 索引 
节点 的 改变 ， 或 者 对 某 个 数据 块 的 改变 ， 都 只 是 对 它们 在 内 存 中 映 象 的 改变 ， 而 不 eS ERS 
备 上 ， 现 在 设备 要 卸 趟 来 了 ， 当 然 要 先 把 已 经 改变 了 ， 但 是 尚未 号 回 设备 的 内 容 扎 回去 。 这 称 为 “ 同 
步 ” 是 由 fsync_dev( ) 完 成 的 ， 其 代码 在 fs/buffer.e 中 : 


[sys umount( ) > do umount( ) > shrink_dcache_sb( ) > fsync_dev( )] 


304 int fsync dev (kdev t dev) 


305 i 

306 sync buffers(dev, 0); 
307 

308 lock kernel( ); 

309 sync supers (dev): 

310 sync inodes(dev); 

31] DQUOT_SYNC (dev) ; 

312 unlock kernel ( ); 

313 

314 return sync_buffers(dev, 1); 
315 } 
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先 看 超级 块 的 同步 ， 函 数 sync_supers( ) 的 代 僻 在 fs/super.c T: 


[sys umount( ) > do umount( ) > shrink dcache sb( ) > fsync_dev( ) > sync_supers( )] 


605 /* 

606 * Note: check the dirty flag before waiting, so we don t 
607 * hold up the sync while mounting a device. (The newly 
608 * mounted device won't need syncing. ) 

609 */ 

610 void sync supers(kdev & dev) 

611 { 

612 struct super block * sb; 

613 

614 for (sb = sb entry(super blocks.next); 

615 sb != sb entry(&super blocks); 

616 sb = sb entry(sb->s list.next)) { 

617 if (!sb->s dev) 

618 continue; 

619 if (dev && sb-^s dev != dev) 

620 continue; 

621 if (!sb-»s dirt) 

622 continue; 

623 lock, super (sb) ; 

624 if (sb->s dev && sb->s dirt && (!dev ;| dev == sb-^s dev)) 
625 if (sb->s op && sb->s op->write super) 

626 sb-^s op-^»write super (sb); 

627 unlock, super (sb) ; 

628 } 

629 } 


每 当 改 变 一 个 super block 结构 的 内 容 时 都 要 将 结构 中 的 s dirt 标志 设 为 1， 表 示 这 个 结构 的 内 容 
BE NE" T. 也 就 是 与 设备 上 的 超级 块 不 一 致 了 : 而 在 将 超级 块 写 回 设 备 时 则 将 这 个 标志 清 0。 所 以 ， 
如 果 -- 个 super. block 结构 的 s dirt 标志 非 0 就 表示 应 该 加 以 同步 。 不 过 ， 如 前 所 述 ， 有 些 没 备 ， 主 要 
是 一 些 虚拟 设备 ， 本 来 就 没有 什么 “超级 块 ” 或 者 类 似 的 东西 ， 所 以 还 要 看 super block 结构 中 的 指针 
s op 是 否 指向 个 super. operations 结构 ， 以 及 这 个 结构 中 是 否 为 write. super IERI T -ARA 就 
Ext2 文件 系统 而 言 ， 这 个 函数 是 ext2_write_super( )。 读 者 可 以 在 下 和 耐看 了 ext2 read super( ) 以 后 自己 
阅读 ext2 write super( ). 

BRA ASTRO, PRX sync inodes( ) 的 代码 在 fs/inode.c 中 : 


sys umount( ) > do umount( ) > shrink dcache, sb( ) > fsync dev( ) > sync, inodes( )] 


237 / 

238 * sync inodes 

239 * @dev: device to sync the inodes from. 

240 * 

241 * sync inodes goes through the super block's dirty list, 
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242 * writes them out, and puts them back on the normal list. 
243 */ 

244 

245 void sync inodes(kdev t dev) 

246 f 

247 struct super block * sb = sb_entry(super_blocks. next) ; 
248 

249 /* 

250 * Search the super blocks array for the device(s) to sync. 
251 */ 

252 spin lock(&inode lock); 

253 for (; sb != sb entry(&super blocks); sb = sb entry(sb-»s list.next)) { 
254 if (!sb-»s dev) 

255 continue; 

256 if (dev && sb-^s dev !- dev) 

257 continue; 

298 

259 sync list(&sb-^s dirty); 

260 

261 if (dev) 

262 break; 

263 } 

264 spin_unlock (&inode_lock) ; 

265 } 


在 super. block 结构 中 还 有 个 队列 s. dirty. 凡是 已 经 改变 了 的 inode 结构 就 通过 它 的 i_list 队列 头 
挂 入 其 所 属 super block 结构 的 s dirty 队列 。 所 以 ， 要 同步 的 是 整个 队列 ， 这 是 由 sync. list 完成 的 ， 
有 关 的 代码 在 同一 文件 (fs/inode.c) 中 : 


[sys_umount( ) >do_umount( ) >shrink_dcache_sb( ) >fsync_dev( ) > sync. inodes( ) > sync_list( )] 


229 static inline void sync list(struct list head *hcad) 


230 { 

231 struct list head * tmp; 

232 

233 while ((tmp = head->prev) != head) 

234 sync one(list entry(tmp, struct inode, i list), 0); 
235 


[sys umount( ) > do_umount( ) > shrink_dcache_sb( ) > fsync_dev( ) > Sync_inodes( ) > sync. list( ) > 
sync. one( )] 


194 static inline void syne one(struct inode *inodo, int sync) 
195 { 


196 if (inode->i state & T_LOCK) { 
197 iget (inode) ; 
198 spin_unlock (&inode_lock) ; 
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199 | wait on inode(inodo); 

200 iput (inodo); 

201 spin lock(&inode lock); 

202 | else { 

203 unsigned dirty; 

204 

205 list del(&inode— i list); 

206 list add(&inode >i list, atomic read(&inode ^i count) 
207 ? &inode in use 

208 : &inode unused); 

209 /* Set T LOCK, reset I DIRTY */ 

210 dirty = inode-^i state & T DIRTY; 

211 inode-^i state |= I LOCK; 

212 inode i state &- "I DIRTY; 

213 spin unlock(&inode lock); 

214 

215 filemap fdatasync(inode-^i mapping); 

216 

217 /* Don't write the inode if only 1 DIRTY PAGES was set */ 
218 if (dirty & (T DIRTY SYNC | T DIRTY DATASYNO) ) 
219 write inode(inode, sync); 

220 

221 filemap fdatawait(inode-^i mapping); 

222 

223 spin lock(&inode, lock); 

224 inode- i state &- ^l LOCK; 

225 wake up(&inode-^i wait); 

226 } 

227 — 4 


[sys umount( ) > do umount( ) > shrink dcache sb( ) > fsync, dev( ) > sync, inodes( ) > sync. list( ) > 
sync one( ) > write inode( )] 


174 static inline void write inode(struct inode *inode, int sync) 

175 { 

176 if (inode >i_sb && inode->i_sb->s_op && inode-^i sb-^s op—^write inode) 
177 inode->i_sb->s_op—write_inode (inode, sync); 

178 } 


我 们 把 这 些 代码 留 给 谈 音 。Ext2 文件 系统 的 write_inode 操作 为 ext2_write_inode( )， 山 于 我 们 在 前 
面 读 过 ext2 read inode( ) 的 代码 ， 这 里 就 不 深入 进去 了 。 

由 十 我 们 对 磁盘 空间 屿 额 个 感 兴趣 ， 剩 下 的 只 是 数据 块 的 同步 了 ， 奢 就 是 sync_buffers( )， 我 们 将 
在 “文件 的 读 与 写 ” 一 节 由 读 这 个 函数 的 代 全 。 

经 过 这 么 些 代 码 的 阅读 ， 读 者 对 super_block 数据 结 爸 想 必 己 经 和 有 有 了 个 天敏 的 印象 ， 现 在 来 看 它 的 
定义 应 该 容易 理解 了 。 这 是 在 include/linux/fs.h 中 定义 的 : 


665 struct super block { 


- 824 . 


666 
667 
668 
669 
670 
671 
672 
673 
674 
675 
676 
677 
678 
679 
680 
681 
682 
683 
684 
685 
686 
687 
688 
689 
690 
691 
692 
693 
694 
695 
696 
697 
698 
699 
700 
701 
702 
703 
704 
705 
706 
707 
708 
709 
710 
711 
712 
713 


第 5 章 文件 系统 


struct list head s list; 


/* Keep this first */ 


kdev t s dev; 

unsigned long s blocksizo; 
unsigned char s blocksize bits; 
unsigned char s lock; 

unsigned char S dirt; 


struct file system type *s t 


ype; 


struct super_operations *s op; 
struct dquot operations *dq_op; 


unsigned long s flags; 
unsigned long s magic; 
struct dentry *s root; 


wait queue head t s wait; 


struct list head s dirty; 
struct list head s files; 


struct block device *s hdev; 
struct list head s mounts 


union ( 
struct minix sb info 
struct ext2 sb info 
struct hpfs sb info 
struct ntfs sb info 
struct msdos sb info 
struct isofs sb info 
struct nfs sb info 
struct sysv sb info 
struct affs sb info 
struct ufs sb info 
struct efs sb info 
struct shmem sb info 
struct romfs sb info 
struct smb sb info 
struct hfs sb info 
struct adfs sb info 
struct qnx4 sb info 
struct bfs sb info 
struct udf sb info 
struct ncp sb info 
struct usbdev sb info 
void 

} u; 

/* 


* The next field is for VFS *only*. No filesystems have any business 
* even looking at it. You had been warned. 


/* dirty inodes */ 


:  /* vfsmount(s) of this one */ 
struct quota mount options s dquot; /* Diskquota specific options */ 


minix sb; 
ext2 sb; 
hpfs sb; 
ntfs. sb; 
msdos sb; 
isofs sb; 
nfs sb; 
Sysv sb; 
affs sb; 
ufs sb; 
efs sb; 
shmem sb; 
romfs sb; 
smbfs sb; 
hfs sb; 
adfs sb; 
qnx4 sb; 
bfs sb; 
udf sb; 
ncpfs sb; 
usbdevfs sb; 
*generic, sbp; 
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43 
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struct semaphore s vfs rename sem; /* Kludge */ 


/* The next field is used by knfsd when converting a (inode number based) 


* * 关 * * 


*/ 


file handle into a dentry. As it builds a path in the dcache tree from 

the bottom up, there may for a time be a subpath of dentrys which is not 
connected to the main tree. This semaphore ensure that there is only ever 
one such free path per filesystem. Note that unconnected files (or other 
non-directories) are allowed, but not unconnected diretories. 


struct semaphore s nfsd free path sem; 


Ja 


对 于 Ext2 文件 系统 ， 将 super block 结构 中 的 union 解释 为 一 个 ext2 sb info 结构 ， 这 是 在 
include/linux/ext2 fs sb.h 中 定义 的 : 


/来 


* second extended-fs super-block data in memory 


*/ 


struct ext2 sb info | 


unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 


unsigned 
unsigned 


unsigned 


long 
long 
long 
long 
long 
long 
long 


long 
long 


long 


s frag size; /* Size of a fragment in bytes */ 
s frags per block;/* Number of fragments per block */ 
s inodes per block;/* Number of inodes per block */ 
s frags per _ group;/* Number of fragments in a group */ 
s blocks, per group;/* Number of blocks in a group */ 
s inodes per group;/* Number of inodes in a group */ 
s itb per group; /* Number of inode table blocks 

per group */ 
s gdb count; /* Number of group descriptor blocks */ 
s desc per block; /* Number of group descriptors 

per block */ 
s groups count;  /* Number of groups in the fs */ 


struct buffer head * s sbh; /* Buffer containing the super block */ 
struct ext2 super block * s es; /* Pointer to the super block 


in the buffer */ 


struct buffer head ** s group desc; 

unsigned short s loaded inode bitmaps; 

unsigned short s loaded block bitmaps; 

unsigned long s inode bitmap number[EXT2 MAX GROUP LOADED] ; 
struct buffer head * s inode bitmap[EXT2 MAX GROUP LOADED]; 
unsigned long s block bitmap number([EXT2 MAX GROUP LOADED]; 
struct buffer head * s block bitmap[EXT2 MAX GROUP LOADED]:; 


unsigned 


long 








s mount opt; 


uid t s resuid; 

gid t s resgid; 

unsigned short s mount state; 
unsigned short s pad; 
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int s addr per block bits; 
int s desc per block bits; 
int s inode size; 

int s first ino; 


s 


如 前 所 述 ，super_block 是 内 存 中 的 数据 结构 ， 其 内 容 通常 《但 并 不 总 是 ) 来 自 具 体 设备 上 特定 文 
件 系 统 的 超级 块 。 就 Ext2 文件 系统 而 言 ， 设 备 上 的 超级 快 为 ext2_super_block 结构 ， 定 义 于 
include/linux/ext2_fs.h 中 


/* 


* Structure of the super block 


*/ 


struct ext2 super block { 


__us2 
__u32 
__u32 
__u32 
__u32 
__u32 
__u32 
__s32 
__u32 
__u32 
|... u32 

u32 
. u32 
.. ul6 
|. SÍ6 
... u16 
. ul6 
. .ul6 
.. ul 
|. u32 
...u32 
|. u32 
.. u32 
__ul6 

ul6 


/* 


s inodes count; 
S blocks count; 
s r blocks count; 


s. free blocks count; 
S8 free inodes count; 


s first data block; 
s log block size; 

s log frag size; 

S blocks per group; 
S frags per group; 
S inodes per group; 
s mtime; 

s wiime; 

s mnt count; 

s max mnt count; 

S magic; 

S state; 

S errors; 

s minor rev level; 
s lastcheck; 

s checkinterval; 

S creator os; 

s rev level; 

S def resuid; 

S def resgid; 


/* 
fk 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 


Inodes count */ 

Blocks count */ 

Reserved blocks count */ 

Free blocks count */ 

Free inodes count */ 

First Data Block */ 

Block size */ 

Fragment size */ 

# Blocks per group */ 

# Fragments per group */ 

# Inodes per group */ 

Mount time */ 

Write time */ 

Mount count */ 

Maximal mount count */ 

Magic signature */ 

File system state */ 

Behaviour when detecting errors */ 
minor revision level */ 

time of last check */ 

max. time between checks */ 

OS */ 

Revision level */ 

Default uid for reserved blocks */ 
Default gid for reserved blocks */ 


* These fields are for EXTI2 DYNAMIC REV superblocks only. 


* 


* X X X X 


know about, 


Note: the difference between the compatible feature set and 
the incompatible feature set is that if there is a bit set 
in the incompatible feature set. that the kernel doesn't 

it should refuse to mount the filesystem. 


- 527 . 


Linux 内 核 源 代码 情景 分 析 CLD 


373 * e2fsck's requirements are more strict; if it doesn't know 

374 * about a feature in either the compatible or incompatible 

375 * feature set, it must abort and not try to meddle with 

376 * things it doesn’t understand... 

371 */ 

378 u32 s first ino; /* First non-reserved inode */ 
379 | ul6 s inode size; /* size of inode structure */ 

380 _ ul6 s block group nr; /* block group # of this superblock */ 
381 . u32 s feature compat; /* compatible feature set */ 

382 __u32 s feature incompat; /* incompatible feature set */ 
383 __u32 s feature ro compat; /* readonly-compatible feature set */ 
384 = u8 s uuid[16]; /* 128-bit uuid for volume */ 

385 char s volume name[16]; /* volume name */ 

386 char s last mounted[64] ; /* directory where last mounted */ 
387 | u32 s algorithm usage bitmap;  /* For compression */ 

388 /* 

389 * Performance hints. Directory preallocation should only 

390 * happen if the EXT2 COMPAT PREALLOC flag is on. 

391 */ 

392 __u8 s prealloc blocks; /* Nr of blocks to try to preallocate*/ 
393 __u8 s prealloc dir blocks; /* Nr to preallocate for dirs */ 

394 __ul6 s paddingl; 

395 __u32 s reserved[204] ; /* Padding to the end of the block */ 

396 


这 个 数据 结构 的 定义 与 Ext2 MHRA SEULS, PARR. KEDUSCECRHOULT SOR fS 
构 的 内 容 与 下 面 ext2_read_super( ) 的 代码 相 二 参照 印证 ,再 回顾 一 下 以 前 读 过 的 代码 , 以 求 真正 的 理解 。 
最 后 ， 我 们 来 看 ext2_read_super( ) 的 代码 。 这 个 函数 在 fs/ext2/super.c 中 ， 由 于 比较 长 ， 我 们 分 段 


[sys_mount( ) > do_mount( ) > get sb bdev( ) > read. super( ) > ext2 read. super( )] 


384 struct super block * ext2 read super (struct super block * sb, void * data, 


385 int silent) 

386 { 

387 struct buffer_head * bh; 

388 struct ext2 super block * es; 

389 unsigned long sb block = 1; 

390 unsigned short resuid = EXT2 DEF RESUTD; 
391 unsigned short resgid - EXT2 DEF RESGID; 
392 unsigned long logic sb biock = 1; 

393 unsigned long offset = 0; 

394 kdev t dev = sb-»s dev; 

395 int blocksize = BLOCK SIZE; 

396 int hblock; 

397 int db count; 

398 int i, j; 
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399 


400 /* 

401 * See what the current blocksize for the device is, and 
402 * use that as the blocksize. Otherwise (or if the blocksize 
403 * is smaller than the default) use the default. 

404 * This is important for devices that have a hardware 
405 * sectorsize that is larger than the default 

406 */ 

407 blocksize = get hardblocksize (dev); 

408 if( blocksize == 0 || blocksize < BLOCK SIZE ) 

409 { 

410 blocksize = BLOCK SIZE; 

411 } 

412 

413 Sb->u. ext2 sb. s mount opt = Q; 

414 if (!parse options ((char *) data, &sb block, &resuid, &resgid, 
415 &sb-»u. ext2 sb.s mount opt)) | 

416 return NULL; 

417 } 

418 

419 set blocksize (dev, blocksize): 

420 

421 /* 

422 * If the superblock doesn’t start on a sector boundary, 
423 * calculate the offset. FIXME(eric) this doesn't make sense 
424 * that we would have to do this. 

425 */ 

426 if (blocksize != BLOCK SIZE) | 

427 logic sb block - (sb block*BLOCK SIZE) / blocksize; 
428 offset = (sb block*BLOCK SIZE) % blocksize; 

429 } 

430 

431 if (!(bh = bread (dev, logic sb block, blocksize))) { 
432 printk (“EXT2-fs: unable to read superblock\n’) : 

433 return NULL; 

434 } 


参数 sb 是 指向 super_block 数据 结构 的 指针 ， 在 调用 这 个 函数 之 前 对 该 结构 已 经 作 了 一 些 初始 化 ， 
例如 其 s dev 字段 已 经 持 有 具体 设备 的 设备 号 。 但 是 ， 结 构 中 的 大 部 分 内 容 都 还 没有 设置 ， 而 这 里 要 
做 的 正 是 从 设备 上 上 读 入 超级 块 并 根据 其 内 容 设 置 这 个 super block 数据 结构 。 另 一 个 指针 data 的 使 用 ， 
则 因 文 件 系统 而 异 ， 对 于 Ext2 文件 系统 它 古 指向 一 个 表示 安装 可 选项 的 字符 串 。 至 于 参数 silent， 则 
表示 人 在读 超级 块 的 过 程 中 是 否 详细 地 报告 出 错 信息 。 

首先 是 确定 设备 上 记录 块 的 大 小 。Ext2 文件 系统 的 记录 块 人 小 ”- 般 是 IK 字 节 ， 但 是 为 提高 读 写 
效率 也 可 以 采用 2K 字 节 或 4K 字 节 。 变 量 blocksize 先 设置 成 常数 BLOCK SIZE, BI IK 字 节 。 介 是， 
内 核 中 有 一 个 以 主 设备 号 为 下 标的 指针 数组 hardsect_size[ ]。 如 果 这 个 数组 中 相应 的 元 素 指 向 另 个 以 
次 设备 号 为 下 标的 整数 数组 ， 其 中 提供 了 该 设备 的 记录 块 大 小 ， 并 且 这 个 数值 大 于 BLOCK_SIZE, M 
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以 此 为 准 。 这 样 ， 如 果 某 种 设备 上 的 记录 块 大 于 BLOCK_SIZE， 便 只 要 在 系统 初始 化 时 设置 这 个 数组 
中 的 相应 元 素 就 可 以 了 。 不 过 ， 从 hardsect_sizel | 中 读 时 应 通过 为 此 而 设 的 函数 get. handblocksize( ) 进 
行 。 此 外 ， 在 人 确定 了 某 项 设备 的 记录 块 大 小 以 后 要 通过 set blocksize( ) 将 确定 了 的 记录 块 大 小 写 回 到 这 
个 数组 中 去 ， 这 样 即 使 开始 时 数组 是 空 的 也 会 慢 慢 地 得 到 设置 。 这 些 操作 的 逻辑 比较 简单 ， 我 们 就 不 
深入 阅读 这 两 个 函数 的 代 公 了 。 值 得 注意 的 是 BLOCK_SIZE 实际 上 是 记录 块 大 小 的 最 小 值 。 

另 一 个 函数 parse_options( ) 是 用 来 分 析 可 选项 字符 串 并 根据 其 内 容 设置 一 些 变量 。 每 种 文件 系统 
都 有 它 自己 的 parse_options( )， 所 以 这 些 函 数 都 是 静态 〈static) 泉 数 ， 其 作用 域 只 是 同一 文件 ， 如 Exe 
的 parse options( ) 就 在 fs/ext2/super.c P. 函数 parse_options( ) 通 常 都 是 既 简 单 又 元 长 , 所 以 我 们 不 在 这 
时 列 出 其 代码 了 。 

超级 块 通常 是 设备 上 的 1 号 记录 块 ( 即 第 2 个 记录 块 ;， 所 以 变量 sb block size 设置 为 1， 在 记录 
块 大 小 为 BLOCK. SIZE 的 设备 上 其 迪 辑 块 号 logie sb block 也 是 1。 但 在 记录 块 大 于 BLOCK, SIZE 的 
设备 上 ， 由 十 超级 块 的 大 小 仍 为 BLOCK_SIZE， 就 要 通过 计算 来 确定 其 所 在 的 记录 块 ， 以 及 在 块 内 的 
位 移 。 此 时 虽然 仍 称 为 超级 “ 块 ”” 但 实际 上 只 是 记录 块 中 的 一 部 分 了 。 确 定 了 这 两 个 参数 以 后 ， 就 可 
以 通过 bread ) 将 超级 块 所 在 的 记录 块 读 入 内 存 了 。 函数 bread ) 属 十 设备 驱动 的 范畴, 读者 可 参阅 下 一 
章 中 的 有 关内 容 。 我 们 继续 往 下 看 (fs/ext2/super.c): 


[sys_mount( ) > do_mount( ) > get_sb_bdev( ) > read. super( ) > ext2_read_super( )] 


435 /* 

436 * Note: s es must be initialized s es as soon as possible because 
437 * some ext2 macro-instructions depend on its value 

438 */ 

439 es = (struct ext2 super block *) (((char *)bh->b_data) + offset); 
440 Sb-^u.ext2 sb.s es = es; 

441 sb->s magic = lel6 to cpu(es-5s magic); 

442 if (sb-^s magic !- EXT2 SUPER MAGIC) { 

443 if (!silent) 

444 printk ('"VFS: Can't find an ext2 filesystem on dev ^ 

445 "Ns. Nn", bdevname (dev) ; 

446 failed mount: 

447 if (bb) 

448 brelse (bh) ; 

449 return NULL; 

450 } 

451 if (le32 to cpu(es->s rev level) == EXT2 GOOD OLD REV && 

452 (EXT2 IAS COMPAT FEATURE (sb, ~OU) || 

453 EXT2 HAS RO COMPAT FEATURE(sb, ~OU) || 

454 EXT2 HAS TNCOMPAT FEATURE (sb, ~OU)}) 

455 printk('EXT2-fs warning: feature flags set on rev 0 fs, ^ 

456 “running e2fsck is recommended\n”) ; 

457 /* 

458 * Check feature flags regardless of the revision level, since we 
459 * previously didn't change the revision level when setting the flags, 
460 * so there is a chance incompat flags are set on a rev 0 filesystem. 
461 */ 
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if ((i = EXT2 HAS TNCOMPAT FEATURE(sb, ~EXT2 FEATURE INCOMPAT SUPP))) { 


} 


printk("EXT2-fs: %s: couldn't mount because of ^ 
“unsupported optional features (%x). \n”, 
bdevname (dev), i); 

goto failed mount; 


if (!(sb-»s flags & MS RDONLY) && 


(i = EXT2 HAS RO COMPAT FEATURE(sb, "EXT2 FEATURE RO COMPAT SUPP))) | 


) 


printk( EXT2-fs: %s: couldn't mount RDWR because of ^ 
“unsupported optional features (Xx). Wn", 
bdevname(dev), i); 

goto failed mount; 


sb-5s blocksize bits = 


le32 to cpu(EXTI2 SB(sb)-5»s es 5s log block size) + 10; 


sb s blocksize = 1 << sb-?s blocksize bits; 
if (sb->s_blocksize !- BLOCK SIZE && 


(sb->s blocksize == 1024 || sb->s blocksize == 2048 || 
sb->s_blocksize == 4096)) { 
/* 
* Make sure the blocksize for the filesystem is larger 
* than the hardware sectorsize for the machine. 
*/ 
hblock = get hardblocksize(dev); 
if( (hblock != 0) 
&& (sb->s blocksize < hblock) ) 
{ 


printk(“EXT2-fs: blocksize too small for device. \n’); 


goto failed_mount; 


} 


brelse (bh); 
set blocksize (dev, sb 5s blocksize) ; 


logic sb block = (sb block*BLOCK SIZE) / sb->s blocksizo; 


offset = (sb bloclk*BLOCK SIZE) % sb-^s blocksize; 
bh = bread (dev, logic sb block, sb-^s blocksize); 
if(!bh) { 
printk (CEXT2-£s: Couldn't read superblock on ^ 
"2nd try. n^); 
goto failed mount; 


} 


es = (struct ext2 super block *) (((char *)bh->b data) + offset); 


Sb->u, ext2 sb.s es = es; 

if (es-^s magic != lel6 to cpu(EXT2 SUPER MAGIC)) { 
printk (EXT2-fs: Magic mismatch, very weird !WAn^); 
goto failed mount; 
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函数 bread( )i& [B]: -个 buffer head 结构 指针 bh, Mi bh-»data 就 指向 缓冲 区 ，offset 则 为 超级 块 的 起 
点 在 缓冲 区 中 的 位 移 。 对 于 Ext2 文件 系统 ， 从 设备 读 入 的 超级 块 为 “个 ext2_super_block 数据 结构 。 
从 439 行 以 后 ， 指 针 es 就 指向 这 个 数据 结构 。 另 一 方面 ，Ext2 文件 系统 采用 “little ending”， 所 以 一 
般 而 言 对 于 超级 块 中 的 整数 都 要 通过 le32_to_cpu( ) 或 le16_to_cpu( ) 变 换 成 CPU 所 采用 的 制式 。 不 过 ， 
由 于 1386 结构 本 来 就 是 采用 “flittle ending”， 所 以 这 些 函 数 实际 上 个 起 作用 。 这 样 ， 结 合 前 面 二 个 数据 
结构 的 定义 ， 这 个 次数 中 的 大 部 分 代码 都 是 不 难 理解 的 ， 我 们 只 择 瞩 讲 儿 个 问题 。 

从 475 行 至 508 行 是 对 记录 抉 大 小 的 修正 。 前 面 我 们 已 经 确定 了 设备 上 的 记录 块 大 小 ， 但 是 那 未 
必 是 来 自 设备 本 身 的 第 - 手 信 息 。 现 在 已 经 有 了 来 白 该 设备 的 超级 块 ， 则 超级 块 中 提供 的 信息 可 能 更 
为 准确 。 如 果 发 现 超 级 抉 中 提供 的 记录 块 大 小 与 原来 认为 的 不 同 ( 只 能 大 ， 不 能 小 )， 则 -来 要 更 正 
hardsect_size[ ] 数 组 中 的 内 容 ， 二 来 要 把 已 经 读 入 的 buffer. head 结构 连同 缓冲 区 释放 CM 497 行 ) 而 根 
据 新 计算 的 参数 再 通过 bread( ) 读 入 一 次 。 

读者 也 许 会 感到 奇怪 , 既然 原来 的 参数 不 对 , 那 怎么 根据 不 正确 的 参数 读 入 的 超级 块 倒是 对 的 呢 ? 
既然 已 经 读 入 的 超级 块 是 对 的 ， 那 何必 又 重新 读 : 遍 呢 ?原因 就 在 于 不 管 原来 的 参数 是 否 正确 ， 在 
sb block 等 于 1 的 前 提 下 计算 出 来 的 logic sb block 和 offset 只 有 两 组 结果 。 当 sb->s_blocksize 大 于 
BLOCK. SIZE Hj, logic sb block 总 是 0 而 offset 总 是 BLOCK_SIZE， 而 与 sb->s_blocksize 的 其 体 数值 
无 关 。 当 sb->s_blocksize 等 于 BLOCK. SIZE 时 ， 则 logic sb block 为 1 而 offset 为 0。 所以， 上 只 娄 在 记 
录 块 大 小 等 于 BLOCK_SIZE 时 将 超级 块 放 在 第 二 块 《〈 块 号 为 1)， 而 在 记录 块 大 于 BLOCK. SIZE 时 ， 
则 除 将 超级 块 放 在 第 二 块 的 开头 处 以 外 再 在 第 一 块 中 位 移 为 BLOCK_SIZE 处 放 上 一 个 副本 ， 就 不 会 错 
了 。 这 里 重新 读 一 遍 , 只 不 过 是 让 缓冲 区 中 含有 整个 记录 块 , 而 不 只 是 超级 块 而 已 。 同 时 , 在 super. block 
结构 中 也 保留 着 两 个 指针 ， 一 个 指向 缓冲 区 中 超级 块 的 起 点 〈 见 440 行 和 504 行 )， 另 一 个 则 指向 缓冲 
DUKE CIL 538 行 )。 

记录 块 的 大 小 是 个 重要 的 参数 。 从 读 / 写 的 效率 考虑 ， 记 录 块 大 一 些 较 好 ， 但 是 ， 记 录 块 人 了 往 
往 造成 空间 的 浪费 ， 因 为 记录 块 是 设备 上 存储 空间 分 配 的 单位 。 据 统计 ， 企 Unix( 以 及 Linux) 环 境 下 大 
多 数 文件 都 是 比较 小 的 ， 这 样 ， 浪 费 的 晶 分 之 比 就 更 大 了 。 权 衡 之 下 ，EBxt2 选择 IK 学 节 为 默认 的 沁 
录 块 大 小 ， 但 是 也 可 以 在 格式 化 时 给 定 更 大 的 数值 ， 这 就 是 前 面 有 关 记 录 块 大 小 的 处 理 的 来 历 。 由 十 
时 间 . 上 和 空间 上 的 效率 难于 兼顾 ， 有 些 文件 系统 进一步 把 记录 块 划分 成 若 王 “片断 ”(fragment)， 当 需 
要 的 空间 较 小 时 就 以 “片断 ”为 分 配 单位 ，Ext2 也 准备 采用 这 项 技术 ， 并 上 用 在 数据 结构 等 方面 为 此 作 
好 了 准备 《所 以 超级 块 中 有 “片断 大 小 ”等 字段 )， 但 是 从 总 体 来 说 尚未 实现 ， 因 此 目前 “片断 大 小 ” 
总 是 等 于 “记录 块 大 小 ”。 

超级 块 的 内 容 反 映 了 按 特定 格式 建立 在 特定 设备 上 的 文件 系统 多 方面 的 信 必 ， 主 要 是 结构 和 管理 
两 方面 的 信息 。 其 中 结构 方面 的 信息 是 与 具体 文件 系统 的 格式 密切 相关 的 ， 所 以 要 了 解 Ext2 义 件 系 统 
的 格式 才能 理解 其 超级 块 的 内 容 。 以 前 提 人 到 过 ，Ext2 文件 系统 的 第 一 个 记录 块 为 引导 块 ， 第 二 个 记录 
块 为 超级 块 ， 然 后 是 索引 节点 区 ， 接 着 是 数据 区 。 但 是 ， 那 只 是 从 概念 上 讲 ， 是 人 人 简化 了 的 ， 实 际 
上 要 复杂 得 多 。 现代 的 磁盘 驱动 器 都 是 多 片 的 ， 所 以 不 同 玲 而 上 的 相同 磁道 合 在 一 起 就 形成 了 “ 柱 面 ” 
(cylinder) 的 概念 。 从 磁盘 读 出 多 个 记录 块 时 ， 如 果 是 从 同 柱 负 中 读 出 就 比较 快 ， 因 为 在 这 种 情况 
下 不 需要 移动 磁头 〈 实 际 上 是 磁头 组 )。 互 相连 续 的 记录 块 实际 上 分 布 在 同一 柱 面 的 各 个 舟 面 上 ， 只 有 
在 个 柱 面 用 满 后 方 进入 让 一 个 梓 面 。 所 以 ， 在 许多 文件 系统 中 都 把 整个 设备 划分 成 若 十 “ 柱 面 组 ” 
将 反映 着 盘面 存储 堂 闻 的 组 织 与 管理 的 信 总 分 数 后 就 近 人 存储 于 各 个 柱 面 组 中 。 相 比 之 下 ， 早 期 的 文件 
系统 往往 将 这 些 信 息 集 中 存储 在 一 起 ， 使 得 磁头 在 文件 访问 时 来 回 “ 疲 十 奔 俞 ”而 降低 了 效率 。 

但 是 ， 柱 而 组 的 划分 也 带 来 了 一 些 新 的 、 附 加 的 要 求 。 首 先是 关于 这 些 柱 面 组 本 壬 的 结 梅 信息 ， 
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如 此 就 要 用 一 些 记录 块 米 保存 所 有 的 柱 面 给 的 描述 ， 即 所 谓 “ 组 描述 结构 ”(group descriptor). 51--7j 
面 ， 有 些 信息 是 对 于 整个 设备 的 而 不 具 是 针对 一 个 柱 面 组 的 ， 所 以 不 能 把 它 拆散 ， 庙 只 能 重复 地 存储 
于 每 个 性 面 组 小 。 从 另 一 个 角度 来 讲 ， 将 某 些 重 此 的 信息 重复 存储 十 每 个 柱 而 组 为 这 些 信息 提供 了 后 
备 ， 从 而 增加 了 可 靠 人 性。 对 于 文件 系统 来 说 ， 最 重要 的 莫 过 于 其 超级 块 了 了， 所 以 一 些 文件 系统 的 设计 
要 求 设 备 上 不 管 哪 一 个 记录 块 、 哪 一 个 盘面 、 哪 一 个 磁道 坏 了 部 仍然 能 恢复 其 超级 块 ( 通 过 运行 fsck )。 
Ext2 也 采用 了 这 样 的 结构 ， 不 过 不 称 为 “ 柱 而 组 ” 调 称 为 “记录 块 组 风 并 有 将 超级 块 和 所 有 的 块 组 描 
述 结构 重复 存储 十 每 个 块 组 。 此 外 ，Ext2 通过 “位 图 ”来 管理 伍 个 块 给 中 的 记 逮 块 和 索引 节点 ， 所 以 
在 每 个 块 组 中 有 两 个 位 图 ， 个 用 十 记 录 块 ， “个 用 证 索引 节点 。 这 样 ，Ext2 文件 系统 的 格式 就 变 成 
了 如 图 5.5 所 示 的 形式 。 

图 5.5 中 的 组 描述 块 为 记 漆 着 全 部 组 描述 结构 的 记录 块 ， 具 体 的 块 数 取 决 十 设备 的 大 小 。 记 录 块 
位 图 则 是 本 块 组 的 位 图 (每 1 位 对 应 着 块 弓 中 的 一 个 记录 块 ，1 表示 已 分 配 ，0 表示 空间 )， 占 用 的 块 
数 取决 十 块 组 的 大 小 。 当 记录 块 人 小 为 1K 字 节 而 块 组 的 大 小 为 8192 时 ， 该 位 图 恰好 占 一 个 记录 块 。 
用 于 索引 节点 的 记录 块 数量 取决 于 文件 系统 的 参数 ， 而 索引 节点 的 位 图 则 不 会 超出 一 个 记录 块 。 





,| 索引 节点 区 





em 
图 5.5 Ext2 文 件 系统 格式 示意 图 


当 整 个 设备 上 只 有 一 个 块 组 时 ， 就 简化 成 了 以 前 讲 过 的 那 种 结构 。Ext2 的 块 组 描述 结构 定义 十 


include/linux/ext2_fs.h: 


145 /* 
146 * Structure of a blocks group descriptor 
147 */ 
148 Struct ext2 group desc 
149 { 
150 ..u32 bg block bitmap; /* Blocks bitmap block */ 
151 . u32 bg inode bitmap; /* |nodes bitmap block */ 
152 . u32 bg inode table; /* Inodes table block */ 
153 ...ul6 bg free blocks count; /* Free blocks count */ 
154 . ul6 bg free inodes count; /* Free inodes count */ 
155 ul6 bg used dirs count; /* Directories count */ 
156 .ul6 bg pad; 
157 . u32 bg reserved[3]; 
158 Ji 

超级 快 的 内 容 可 以 用 “/sbin/tune2fs -1”、”/sbin/dumpe2fs” 等 命令 来 显示 。 下 而 我 们 通过 -个 实例 米 


看 个 伺 吾 设备 的 组 织 ， 以 便 读者 加 深 垣 解 。 这 个 设备 就 起 笔者 机 器 上 的 /dev/hda2。 先 用 “tune2fs -I 
/devhda2” 观 察 该 设备 上 超级 块 的 内 容 ， 我 们 关心 的 有 下 面 这 些 ; 
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Inode count: 386528 
Block count: 1540097 
Reservad block count: 71011 
Free blocks: 221060 
First block: 1 
Block size: 1024 
Blocks per group: 8192 
Inodes per group: 2056 
Inode blocks per group: 257 


让 我 们 看 看 这 些 数字 是 怎样 互相 联系 的 。 

首先 ， 这 个 设备 上 可 用 的 记录 块 数量 为 1540097， 也 就 是 大 约 1.5G 字 节 (在 格式 化 时 可 能 会 浪费 
少量 记录 块 )， 而 每 个 块 组 的 大 小 为 8192， 所 以 设备 上 共有 1540097+8192=188 个 块 组 。 但 是 8192 x 
188=1540096， 这 多 余 的 一 个 记录 块 就 是 引导 块 ， 而 第 一 个 实际 属于 该 文件 系统 的 记 寻 块 的 块 写 为 1。 
其 次 ， 每 个 块 组 含有 2056 个 索引 节点 ， 所 以 总 共有 2056X 188=386528 个 索引 节点 。 出 于 记录 块 大 小 
为 1K 字 节 ,而 索引 节点 的 大 小 为 128 字 节 ， 所 以 每 个 记录 抉 可 容纳 8 个 索引 节点 ， 这 样 ， 每 个 块 组 将 
2056+8=257 个 记录 块 用 于 索引 节点 。 月 前 设备 上 尚 有 221060 个 空闲 的 记录 块 ， 但 是 其 中 77011 个 是 
保留 的 ， 保 留 的 记录 块 通常 占 总 容量 的 $% 左 右 ， 当 某 些 记录 块 损坏 时 就 用 保留 的 记录 块 作为 蔡 换 。 

肯 通 过 “df” 命令 来 印证 一下， 显示 的 结果 表明 该 设备 共有 1490088 个 IK 字 节 的 记录 块 ， 其 中 已 
用 去 1269028 个 ， 尚 有 144049 个 记录 块 。 这 些 数字 怎样 与 上 面 的 数字 相 联 系 呢 ? 这 里 的 1490088 ME 
设备 上 真正 用 于 数据 块 的 记录 块 数量 ， 也 就 是 每 个 块 组 有 1490088-18827926 个 数据 块 。 我 们 知道 舍 
个 块 组 还 有 257 iE EUR T RO, BOE EIE 8183 7, MURS 9 个 记录 块 干 什么 用 了 呢 ? 请 看 : 

1 (BBR) + 6〔 块 组 描述 结构 十 1 (记录 块 位 图 ) 十 1 (索引 节点 位 图 ) =9 

每 个 Ext2 记录 块 描述 结构 的 大 小 是 32 字 节 ， 每 1K SE Tia SEXE 32 个 块 描述 结构 ， 因 此 
KE (188/32) 26 个 记录 块 〈 经 过 取 整 )》 几 于 块 组 描述 结构 。 

再 看 可 分 配 使 用 的 记录 块 数量 。 总 共 1490088 ERR, 已 用 去 1269028 个 , 应 该 还 有 221060 个 ， 
怎么 说 只 剩 144049 TTE? 这 是 因为 有 77011 个 记录 块 是 保留 的 ， 而 221060 一 77011=144049。 

最 后 还 可 以 通过 命令 “dumpe2fs ”/dev/hda2” 观 察 每 个 块 组 的 详情 。 

现在 读者 对 Ext2 义 件 系统 的 结构 已 经 有 了 个 比较 直观 的 了 解 ， 再 回 过 去 读 ext2_read_super( ) 中 余 
下 的 代码 就 容易 一 些 了 。 

代码 中 用 到 的 一 些 宏 定 义 基本 上 是 不 言 自 明 的 , 这 里 值得 WIE. 在 ext2_sb_info 结构 中 的 数组 
s_inode_bitmap_number[ ] 和 s block numer[ ] 玫 是 固定 大 小 的 ， 呈 体位 图 数组 也 是 加 定 大 小 的 ， 大 小 为 
EXT2 MAX_GROUP_LOADED。 常 数 EXT2_MAX_GROUP_LOADED 在 include/linux/ext2. fs.h 中 定 
308 8, 与 块 组 的 总 数 一 比 只 占 很 小 的 比例 ,所 以 运行 时 并 不 是 将 所 有 块 组 的 位 图 都 装 入 到 这 些 数组 中 ， 
而 是 只 装 入 其 中 很 小 一 部 分 ， 根 据 具体 运行 的 需要 周转 。 这 里 只 是 把 这 些 数 组 以 及 有 关 的 当量 都 初始 
化 成 空白 ， 也 并 没有 为 位 图 数组 本 续 分 配 空 间 。 

继续 往 下 看 ext2_read_super( Ife: 








[sys mount( ) > do mount( ) > get sb. bdev( ) > read. super( ) > ext2 read super( )] 


510 if (le32 to cpu(es-^s rev level) == EXT2 GOOD OLD REV) { 
511 sb->u. ext2 sb. s_inode_size = EXT2 GOOD OLD INODE STZE; 
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sb->u. ext2 sb.s first ino + EXT2 GOOD OLD FIRST INO; 
} eise { 


sb->u. ext2 sb.s inode size = lel6 to_cpu(es—>s_inode size); 
Sb-2u.ext2 sb.s first ino = 1e32 to cpu(es-^s first ino); 
if (sb-^u.ext2 sb.s inode size != EXT2 GOOD OLD INODE SIZE) { 


printk ("EXT2-fs: unsupported inode size: %d\n” 
sb-^u.ext2 sb.s inode size); 
goto failed mount; 


} 
Sb->u, ext2_sb. s frag size = EXT2 MIN FRAG SIZE << 
le32 to cpu(es-^s log frag size); 
if (sb-»u.ext2 sb.s frag size) 
sb-^u.ext2 sb.s frags per block = sb-»s blocksize / 
sb->u. ext2 sb.s frag size; 
else 
sb-^5s magic = 0; 


sb~>u, ext2_sb. s blocks per group = le32 to cpu(es-»s blocks per group); 


Sb->u, ext2 sb.s frags per group = le32 tio cpu(es— s frags per group); 


sb->u. ext2 sb.s inodes per group = 1e32_to_cpu(es—>s inodes per group); 


sb->u. ext2 sb.s inodes per block = sb—s_blocksize / 
EXT2 INODE STZE (sb); 





Sb-^u.ext2 sb.s itb per group = sb-^u.ext2 sb.s inodes per group / 


sb-?u.ext2 sb.s inodes per block; 
sb-^u.ext2 sb.s desc per block = sb->s_blocksize / 
sizeof (struct ext2 group desc); 

sb->u. ext2 sb.s sbh = bh; 
if (resuid !- EXT2 DEF RESUID) 

Sb-^u.ext2 sb.s resuid = resuid; 
else 

Sb->u. ext2 sb.s resuid = lel6 to cpu(es— s def resuid); 
if (resgid != EXT2 DEF RESGID) 

sb-^u.ext2 sb.s resgid = resgid; 
else 

sb->u. ext2_sb. s_resgid ~ lel6 to cpu(es-5s def resgid); 
sb-^u.ext2 sb.s mount state = lel6 to cpu(es-^s state); 
sb-^u.ext2 sb.s addr per block bits = 

log2 (EXT2 ADDR PER BLOCK (sb)); 
Sb- >u, ext2 sb.s desc per block bits = 

log2 (EXT2 DESC PER BLOCK(sb)); 
if (sb-^s magic !- EXT2 SUPER MAGIC) { 

if (!silent) 


printk ("VFS: Can't find an ext2 filesystem on dev ^ 


"9s. NXn^, 
bdevname (dev) ) ; 
goto failed mount; 
} 
if (sb->s_blocksize != bh->b_size) { 
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560 if (!silent) 
561 printk ("VFS: Unsupported blocksize on dev ^ 
562 "ýs. Xn", bdevname (dev) ); 
563 goto failed mount; 
564 } 
565 
566 if (sb—->s_blocksize != sb—u. ext2_sb.s_frag_size) { 
567 printk ('EXT2-fs: fragsize iu != blocksize %lu (not supported yet) \n’, 
568 sb->u. ext2 sb.s frag size, sb->s_blocksize) ; 
569 goto failed_mount; 
570 } 
571 
572 if (sb—>u. ext2_sb.s blocks per group > sb-^s blocksizo * 8) { 
573 printk (“EXT2-fs: #blocks per group too big: %lu\n’, 
514 sb->u. ext2_sb. s blocks per group); 
575 goto failed mount; 
576 } 
577 if (sb->u. ext2_sb.s frags per group > sb->s_blocksize * 8) { 
578 printk (“EXT2-fs: #fragments per group too big: %lu\n’, 
579 sb->u. ext2_sb. s frags per group); 
580 goto failed mount; 
581 j 
582 if (sb->u, ext2 sb.s inodes per group > sb->s_blocksize * 8) | 
583 printk (“EXT2-fs: &inodes per group too big: %lu\n’, 
584 sb-^u.ext2 sb.s inodes per group); 
585 goto failed mount; 
586 } 
587 
588 sb->u. ext2_sb. s_groups count = (le32_to_cpu(es->s blocks count) - 
589 1e32 to cpu(es-^s firsi data block) + 
590 RXT2 BLOCKS PER GROUP(sb) - 1) / 
591 EXT2 BLOCKS PER GROUP (sb); 
592 db count = (sb->u. ext2 sb.s groups count + EXT2 DESC PER BLOCK(sb)-1) / 
593 EXT2 DESC PER BLOCK (sb) ; 
594 sb->u. ext2 sb.s group desc = 
kmalloc (db count * sizeof (struct buffer head *), GFP KERNEL); 
595 if (sb-^u.ext2 sb.s group desc == NULL) ( 
596 printk (“RXT2-fs: not enough memory\n”) ; 
597 goto failed mount; 
598 } 
599 for (i = 0; 1 < db count; i++) d 
600 sb-?u.ext2 sb.s group descli] = bread (dev, logic sb block + i + 1, 
601 sb->s blocksize) ; 
602 if (!sb-^u.ext2 sb.s group desc[il) { 
603 for (20; j< i; j++) 
604 brelse (sb-^u.cxi2 sb.s group desc[j]); 
605 kfree(sb-»u.ext2 sb.s group desc); 
606 printk (^EXT2-fs: unable to read group descriptors W^); 
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607 goto failed_mount; 

608 } 

609 } 

610 if (lext2 check descriptors (sb)) 1 

611 for (j = 0; j < db count; j++) 

612 brelse (sb-^u.ext2 sb.s group desc[j]); 

613 kfree(sb-^u.ext2 sb.s group desc): 

614 printk (“EXT2-fs: group descriptors corrupted ! W^); 
615 goto failed mount; 

616 } 

617 for (i = 0; i < EXT2 MAX GROUP LOADED; i++) { 

618 sb->u. ext2_sb. s_inode bitmap number[i] = 0: 

619 sb->u. ext2_sb. s_inode bitmapli] = NULL: 

620 sb-^u.ext2 sb.s block bitmap number[i] = 0; 

621 sb->u. ext2_sb. s_block bitmap[i] - NULL: 

622 } 

623 Sb-?u.ext2 sb.s loaded inode bitmaps = 0: 

624 sb->u. ext2 sb.s loaded block bitmaps = 0: 

625 sb->u. ext2_sb. s gdb count = db count; 

626 /* 

627 * set up enough so that it can read an inode 

628 */ 

629 sb->s_op = &exi2 sops; 

630 sb->s root = d alloc root(iget(sb, EXT2 ROOT INO); 
631 if (!sb-5s root) { 

632 for (i = 0; i € db count; i++) 

633 if (sb-^»u.ext2 sb.s group desc[i]) 

634 brelse (sb->u. ext2_sb.s group desc(il): 
635 kfree(sb-^u.ext2 sb.s group desc); 

636 brelse (bh); 

637 printk (“EXT2-fs: get root inode failed\n”): 
638 return NULL; 

639 } 

640 ext2 setup super (sb, es, sb->s flags & MS RDONLY); 
641 return sb; 

642 } 


这 段 代码 虽然 比较 长 ， 却 并 不 复杂 (对 十 读者 已 有 的 基础 来 说 )， 所 以 我 们 基本 上 把 它 贸 给 读者 ,而 
只 注意 其 尾部 。 

超级 块 内 是 反映 具体 设备 上 文件 系统 的 组 织 和 管理 的 信息 ， 调 并 个 涉及 该 文 什 系 统 的 内 容 ， 设 备 
ERAR” WRI 站 点 才 丰 打开 这 个 文件 系统 的 钥 此 。 文 件 系统 中 的 每 :个 文件 ， 包 括 月 录 ， 都 有 
一 个 索 中 节点， 其 节点 号 必然 存在 于 该 文件 所 在 的 目录 项 之 中 ， 唯 有 根 月 录 的 索引 节点 号 是 固定 的 ， 
MÆ EXT2_ROOT_INO， 即 2 号 索引 节点 。 代 码 中 的 第 598 行 先 通过 iget( ) 将 这 个 索引 节点 读 入 内 
存 并 为 之 建立 inode 数据 结构 ， 再 通过 d_alloc_root( ) 在 内 存 中 为 之 建立 起 一 个 dentry BURA, FE 
super. block 结构 中 的 指针 s root 指向 这 个 dentry 结构 。 这 样 ， 通 向 这 个 文件 系统 的 途 么 就 可 以 建立 起 
RS. KAŽ d_alloc_root( ) 的 代码 见 下 。 
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[sys mount( )»do mount( )>get_sb_bdev( ) > read_super( ) > ext2, read. super( ) > d. alioc. root( )] 


672 /** 

673 * d alloc root - allocate root dentry 

674 * Groot inode: inode to allocate the root for 

675 * 

676 * Allocate a root (//^) dentry for the inode given. The inode is 
671 * instantiated and returned. *NULL is returned if there is insufficient 
678 * memory or the inode passed is %NULL. 

679 */ 

680 

681 struct dentry * d alloc root(struct inode * root inode) 

682 | 

683 struct dentry *res = NULL; 

684 

685 if (root_inode) { 

686 res = d alloc(NULL, &(const struct qstr) { ^/^, 1, 0 }): 
687 if (res) { 

688 res-»d sb = root inode-^i sb; 

689 res-»d parent = res; 

690 d instantiate(res, root inode); 

691 } 

692 } 

693 return res; 

604  ] 


如 前 所 述 ， 根 昌 录 的 索引 节点 号 是 问 定 的 ， 它 也 不 出 现在 哪个 目录 中 。 所 以 ， 根 日 录 是 无 名 的 ， 
而 为 根 月 录 建 立 的 dentry 数据 结构 则 都 以 “/” 为 名 。 代 码 中 的 &(const struct gst) { “/”, 1,0 ]} 表 示 一 
个 qstr 结构 指针 ， 它 所 指向 的 qstr 结构 为 { “/”, 1,0 }， 即 节点 名 为 “/” 节点 名 长 度 为 1 数据 结构 
的 内 容 为 常量 ， 不 允许 改变 。 

最 后 《640 行 ) 是 调用 ext2_setup_super( ) 设 置 一 些 与 管理 有 关 的 信息 ， 包括 此 次 安装 的 时 间 以 及 
递增 安装 计数 ， 当 安装 计数 达到 某 个 最 大 值 时 ， 就 应 该 对 这 个 文件 系统 运行 e2fsck 加 以 检验 了。 为 一 
方面 ， 由 于 每 安装 一 次 ， 超 级 块 的 内 容 就 -- 定 有 些 变化 〈 至 少 是 安装 计数 )， 所 以 要 将 超级 妃 的 缓冲 区 
标志 记 成 “及 ”。 函 数 ext2_setup_super( ) 的 代码 在 fs/ext2/super.c 中 ， 代 码 很 简单 ， 我 们 束 不 解释 了 ， 
请 读者 日 行 阅读 。 


[sys mount( ) > do mount( ) > get_sb_bdev( ) > read super( ) > ext2 read super( ) > ext2 setup. super( )] 


283 static int ext2 setup super (struct super block * sb, 


284 struct ext2 supor block * es, 

285 int read only) 

286 i 

287 int res = 0; 

288 if (1e32 to_cpu(es->s_rev level) > EXT2 MAX SUPP REV) { 
289 printk ('EXI2-fs warning: revision level too high, ^ 
290 "forcing read-only mode\n”) ; 
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res = MS RDONLY; 
} 
if (read_only) 
return res; 
if (! (sb >u. ext2_sb. s_mount state & EXT2 VALID FS)) 
printk (^EXT2-fs warning: mounting unchecked fs, 
"running e2fsck is recommendedWn^); 
else if ((sb-»u.ext2 sb.s mount state & EXT2 ERROR FS)) 
printk (“EXT2-fs warning: mounting fs with errors, ^ 
"running e2fsck is recommended Wn"); 
else if (( s16) lel6 to cpu(es-^s max mt count) >= 0 && 
lel6 to ecpu(es—^s mnt count) >= 
(unsigned short) (  s16) lel6 to cpu(es—s max mnt count)) 
printk (CEXT2-fs warning: maximal mount count reached, 


^" 


"running e2fsck is recommended Wn"); 
else if (1e32 to cpu(es >s_checkinterval) && 
(le32 to cpu(es-»s lastcheck) + 1e32 to cpu(es ^s checkinterval) 
<= CURRENT TIME)) 
printk (CEXT2-fs warning: checktime reached 
"running e2fsck is recommended\n’) ; 
es-^s state = cpu to lel6(1el6 to cpu(es-^s state) & “EXT2 VALID FS); 
if (!( s16) lel6 to cpu(es ?s max mnt count)) 
es:2?s max mnt count = (  s16) cpu to lel6(EXT2 DFL MAX MNT COUNT); 
es-^s mnt count-cpu to lel6(lel6 to cpu(es-^s mnt count) + 1); 
es-?s mtime = cpu to le32(CURRENT TIME); 
mark buffer dirty(sb >u. ext2 sb. s_sbh). 
sb-?s dirt = 1; 
if (test opt (sb, DEBUG)) 
printk (^[EXT II FS Ws, 9s, bs=%lu, fs-*1u, gc=%lu, 
“bpg=%lu, ipg-*1u, mo-*041x]Wn^, 
EBXT2FS VERSION, EXT2TS DATE, sb->s blocksize, 
sb->u. ext2 sb.s frag size, 


^ 


sb->u, ext2 sb.s groups count, 
EXT2 BLOCKS PER GROUP (sb), 
EXT2 INODES PER GROUP (sb), 
sb->u. ext2 sb. s mount opt); 
#ifdet CONFIG EXT2 CHECK 
if (test opt (sb, CHECK)) { 
ext2 check blocks bitmap (sb); 
ext2 check inodes bitmap (sb); 
} 
Hendif 
return res; 


} 


PH, ext2_read_super( UCP RAE TEAT . eK BURLEY IS I super. block 数据 结构 的 指针 。 
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55 文件 的 打开 与 关闭 


用 户 进程 在 能 够 读 / 写 一 个 文件 之 前 必须 要 先 “ 打 开 ” 这 个 文件 。 对 文件 的 读 / 写 从 概念 上 说 起 
一 种 进程 与 文件 系统 之 间 的 一 种 “有 连接 ”通信 ， 所 谓 “ 打 开 文 件 ” 实 质 上 就 是 和 在 进程 与 文件 之 间 建 
立 起 连接 ， 而 “打开 文件 号 ”就 惟一 地 标识 着 这 样 一 个 连接 。 不 过 ， 严 格 意义 上 的 “连接 ”意味 者 一 
个 独立 的 “上 下 文 ”%” 如 果 一 个 进程 与 某 个 目标 之 问 重 复 建 立 起 多 个 连接 ， 则 每 个 连接 部 应 该 足 互 相 独 
立 的 。 在 文件 系统 的 处 理 中 ， 每 当 个 进程 重复 打开 同一 个 文件 时 就 建立 起 个 由 file 数据 结构 代表 
的 独立 的 上 下 文 。 通 常 ， 一 个 file 数据 结构 ， 即 一 个 读 / 写 文件 的 上 下 文 ， 都 由 一 个 “打开 文件 号 ” 
加 以 标识 ， 但 是 通过 系统 调用 dup( ) 或 dup2( ) 却 可 以 使 同一 个 file 结构 对 应 到 多 个 “打开 文件 号 。” 

打开 文件 的 系统 调用 是 open( )， 在 内 核 中 通过 sys_open( ) 实 现 ， 其 代码 在 fs/open.c 'P: 


743 asmlinkage long sys open(const char * filename, int flags, int mode) 
144 { 

745 char * tmp; 

746 int fd, error; 

747 

748 &if BITS PER LONG != 32 

149 flags |= O_LARGEFLLE; 

750 #endif 

751 tmp = getname (filename) ; 
752 fd = PTR_ERR (tmp) ; 

753 if (!TS ERR(tmp)) | 

754 fd = get unused fd( ); 
755 if (fd »- 0) | 

156 struct file *f - filp open(tmp, flags, mode); 
757 error = PTR ERR(f) ; 
758 if (IS ERR(f)) 

759 goto out_error; 
760 fd install(fd, f); 
761 } 

762 out: 

163 putname (tmp); 

764 } 

765 return fd; 

766 

767 out_error: 

768 put unused fd(fd); 

769 fd - error; 

770 goto out; 

T 24 


调用 参数 filename 实际 上 是 文件 的 路 径 名 (绝对 路 从 名 或 相对 路 径 名 ); mode 表示 打开 的 模式 ， 
如 “只 读 ”等 等 ， 而 flag 则 包含 了 许多 标志 位 ， 川 以 表示 打开 借 碟 以 外 的 一 些 属性 和 要 求 。 函 数 通 
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过 getname( ) 从 用 户 空间 把 文件 的 路 径 名 拷贝 到 系统 空间 ， 并 通过 get_unused_fd( ) 从 当前 进程 的 “ 打 
开 文 件 表 ”中 找到 一 个 空闲 的 志 项 ， 该 表 项 的 下 标 即 为 “打开 文件 号 ”。 然 后， 根据 文件 名 通过 
file open( ) 找 到 或 创建 一 个 “连接 ”， 或 者 说 读 / 写 该 文件 的 上 下 文 。 文 件 读 写 的 上 下 文 是 由 file & 
据 结构 代表 和 描绘 的 ， 其 定义 见 include/linux/fs.h: 


498 
499 
500 
501 
502 
503 
504 
505 
506 
507 
508 
509 
510 
511 
512 
513 
514 
515 
516 


struct file { 


struct list head f list; 
struct dentry *f dentry; 
struct vfsmount *f vfsmnt; 
struct file operations *f op; 
atomic t f count; 

unsigned int f flags; 

mode t f mode; 

loff t f pos; 

unsigned long f reada, f ramax, f raend, f ralen, f rawin; 
struct fown struct f owner; 

unsigned int f uid, f gid; 

int f error; 

unsigned long f version; 


/* needed for tty driver, and maybe others */ 
void *private data; 


IE 


数据 结构 中 不 但 有 指向 文件 的 dentry 结构 的 指针 f_dentry， 指 向 将 文件 所 在 设备 安装 在 文件 系 


统 中 的 vfsmnt 结构 的 指针 ， 有 共享 计数 f_count， 还 有 一 个 在 文件 中 的 当前 读 写 位 置 f_pos， 这 就 是 
“上 下 文 ”。 找 到 或 者 创建 了 代表 着 目标 文件 的 file 结构 以 后 ， 就 通过 fd_install ) 将 指向 这 个 结构 的 
指针 填 入 当前 进程 的 打开 文件 表 , 即 由 其 task_sturct 结构 中 的 指针 file 所 指向 的 files struct 数组 中 并 
返回 其 数组 中 的 下 标 。 


PRAL get_unused_fd( ) 的 代码 也 在 fs/open.c 中 :: 


[sys open( ) > get unused fd( )] 


681 
682 
683 
684 
685 
686 
687 
688 
689 
690 
691 
692 


/* 
* Find an empty file descriptor entry, and mark it busy. 
*/ 
int get_unused_fd (void) 
{ 
struct files struct * files = current->files: 
int fd, error; 


error = -EMFILE; 
write lock(&files-^file lock); 


repeat: 
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Hif 
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fd = find_next_zero_bit(files->open fds, 
files->max_fdset, 
files->next_fd). 


/* 
* N.B. For clone tasks sharing a files structure, this test 
* will limit the total number of files that can be opened. 
*/ 
if (fd >= current rlim([RLTMIT NOFILE]. riim cur) 

goto out; 


/* Do we need to expand the fdset array? */ 
if (fd >= files max fdset) | 
error = expand fdset(files, fd); 
if (‘error) | 
error = —EMFILE; 
goto repeat; 
} 
goto oul; 


} 


/* 
* Check whether we need to expand the fd array. 
*/ 
if (fd >= files->max fds) { 
error = expand fd array(files, fd); 
if (lerror) | 
error - -EMFILE; 
goto repeat; 
} 


goto out; 


) 


FD SET (fd, files »open fds); 

FD CLR(fd, files—>close on exec); 

files-^next fd = fd + 1; 

1 

/* Sanity check */ 

if (files->fd[fd] !- NULL) { 
printk(^get unused fd: slot *d not NULL!\n”, fd); 
files-»fd[fd] = NULL; 

} 


#endi f 


out: 
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error = fd; 


write unlock(&files-^file lock); 
return error; 
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741 } 


进程 的 task struct 结构 中 有 个 指针 files， 指 向 本 进程 的 files struct 数据 结构 。 与 打开 文件 有 关 
的 信息 都 保存 在 这 个 数据 结构 中 ， 其 定义 在 include/linux/sched.h tH: 


159 /* 

160 * The default fd array needs to be at least BITS PER LONG, 
161 * as this is the granularity returned by copy. fdset( ). 
162 */ 

163 &define NR OPEN DEFAULT BITS PER LONG 

164 

165 /* 

166 * Open file table structure 

167 */ 

168 struct files struct { 

169 atomic t count; 

170 rwlock t file lock; 

171 int max fds; 

172 int max fdset; 

173 int next fd; 

174 struct file ** fd; /* current fd array */ 
175 fd set *close on exec; 

176 fd set *open fds; 

177 fd set close on exec init; 

178 fd set open fds init; 

179 struct file * fd array[NR OPEN DEFAULT]; 
180}; 


这 个 数据 结构 中 最 主要 的 成 分 是 一 个 file 结构 指针 数组 fd. array[ ], IX AB RCD IAL, HI 
32， 其 下 标 即 为 “打开 文件 导 ”。 另 外 ， 结 构 中 还 有 个 指针 fd ， 最 初时 指向 fa_armray[]。 结 构 中 还 有 两 
个 位 图 close on exec init 和 open_fds_init， 这 些 位 网 大 致 对 应 着 file 结构 指针 数组 的 内 容 ， 但 是 比 
fd array[ ] 的 大 小 要 大 得 多 。 同 时 ， 又 有 两 个 指针 close on exec 和 open_fds， 最 初时 分 别 指 向 上 述 两 个 
位 图 。 每 次 打开 文件 分 配 一 个 打开 文件 号 时 就 将 由 open_fds 所 指向 位 图 中 的 相应 位 设 成 1。 此 外 ， 该 
数据 结构 中 还 有 两 个 参数 max_fds 和 max_fdset， 分 别 反映 着 当前 file 结构 指针 数组 与 位 图 的 容量 。--- 
个 进程 可 以 有 多 少 个 已 打开 文件 只 取决 于 该 进程 的 task. struct. 结构 中 关于 可 用 资源 的 限制 ( 见 上 面 代 
码 中 的 第 701 行 )。 在 这 个 限制 以 内 ， 如 果 超 出 了 其 file 结构 指针 数组 的 容量 就 通过 expand_fd_array( ) 
扩充 该 数组 的 容量 ， 并 证 指针 fa 指向 新 的 数组 ;如果 超出 了 位 图 的 容量 就 通过 expand. fdset( ) 扩 充 两 
个 位 图 的 容量 , 并 使 两 个 指针 也 分 别 指向 新 的 位 图 。 这 样 , 就 克服 了 早期 Unix 因 只 采用 固定 人 小 的 file 
结构 指针 数组 而 使 每 个 进程 可 以 同时 打开 文件 数量 受到 限制 的 缺陷 。 

打开 文件 时 ， 更 确切 地 说 是 分 配 空闲 打开 文件 号 时 ， 首 过 宏 操 作 FD_SET( ) 将 open fds 所 指向 的 
位 图 中 的 相应 位 设 成 1, 表示 这 个 打开 文件 号 己 不 再 字 闲 ,这 个 位 图 代表 着 已 经 在 使 用 中 的 打开 文件 号 。 
同时 ， 述 通过 FD CLR( ) 将 由 指针 close on exec 所 指向 的 位 疼 中 的 相应 位 清 0， 表 示 如 果 当 前 进程 通 
过 exec( ) 系 统 调用 执行 -个 可 执行 程序 的 话 无 需 将 这 个 文件 关闭 。 这 个 位 图 的 内 容 可 以 通过 ioctl( ) 系 
统 调 用 来 设置 。 
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动态 地 调整 可 同时 打开 的 文件 数量 对 于 现代 、 特 别 是 面向 对 象 的 环境 具有 重 辫 意义 ， 因 为 在 这 些 
环境 下 常常 此 求 间 时 打开 数量 众多 《但 是 每 个 文件 却 很 小 》 的 文件 。 
显然 ，sys_open( ) 的 主 休 是 fip_open( )， 其 代码 也 在 fs/open.c HP: 


[sys_open( ) > filp open( )] 


600 /* 

601 * Note that while the flag value (low two bits) for sys open means: 
602 * 00 - read-only 

603 x 01 - write-only 

604 * 10 - read-write 

605 * ll - special 

606 * it is changed into 

607 * 00 - no permissions needed 

608 * 0l - read-permission 

609 * 10 - write-permission 

610 * ]l - read-write 

611 * for the internal routines (ie open namei( )/follow link( ) etc). 00 is 
612 * used by symlinks. 

613 */ 


614 struct file *filp open(const char * filename, int flags, int mode) 
615 { 


616 int namei flags, error; 

617 struct nameidata nd; 

618 

619 namei flags - flags; 

620 if ((amei flags*1) & O0 ACCMODE) 

621 namei flagst*; 

622 if (namei flags & O0 TRUNC) 

623 namei flags |= 2; 

624 

625 error = open namei(filename, namei flags, mode, &nd); 
626 if (lerror) 

627 return dentry open(nd.dentry, nd.mnt, flags); 
628 

629 return ERR PTR (error); 

630 } 


这 里 的 参数 flags 就 是 系统 调用 open ) 传 下 来 的 ， 它 遵循 open( ) 界 面 上 -对 flags 的 约定 ， 但 是 这 里 
调用 的 open namei( ) 却 对 这 些 标志 位 有 不 同 的 约定 〈 见 600 行 至 613 行 中 的 注释 )， 所 以 要 在 调用 
open. namei( ) 前 先 加 以 变换 ,对 丁 i386 处 理 器 ,用 十 open ) 界 而 上 的 标志 位 是 在 include/asm_i386/fentl.h 
中 定义 的 : 


4 /* open/fent] 0 SYNC is only implemented on blocks devices and on files 
located on an ext2 file system */ 
6 define O_ACCMODF 0003 


[91] 
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7 #define O RDONLY 00 

8 define O WRONLY 01 

9 define O RDWR 02 

10 define O CREAT 0100 /* not fent] */ 

11 define O EXCL 0200 /* not fenti */ 

12 #define O NOCTTY 0400 /* not fentl */ 

13 #define O TRUNC 01000 /* not fentl */ 

14 #define O APPEND 02000 

15 #define O_NONBLOCK 04000 

16 #define O_NDELAY 0 NONBLOCK 

17 #define O0 SYNC 010000 

18 H#define FASYNC 020000 /* fcntl, for BSD compatibility */ 
19 define O DIRECT 040000 /*direct disk access hint-currently ignored*/ 
20 #define O LARGEFILE 0100000 

21 define 0 DIRECTORY 0200000 /* must be a directory */ 

22 Hdefine O0 NOFOLLOW 0400000 /* don't follow links */ 


对 于 flags 中 最 低 两 位 所 在 的 变换 是 由 620—621 行 完成 的 ， 具 体 的 变换 如 下 : 


00， 表 示 励 写 要 求 ， 也 就 是 “内 读 ” 变换 成 : 01， 表 未 要 求 读 访问 权 。 


01， 表 示 “ 内 写 ” 变换 成 ，10， 表 水 更 求 写 访问 权 。 
10, ER "ERES" AEPRIE: 11, GXRCEDKIAUHUSSUSRDEU. 


11, WEEK. C0 RDWRIO WRDNLY) ARH: 11, PRERE E UP BEL. 

此 外 ， 如 果 0. TRUNC 标志 位 为 1 (表示 要 求 截 尾 〉 则 意味 着 要 求 写 访问 权 。 这 些 代码 确实 是 很 精 
练 的 。 

Pii AE UH] open_namei( )， 其 代码 在 fs/namei.c 中 ， 我 们 分 段 来 看 。 


[sys_open( ) > filp open( ) > open, namei( )] 


925 — /* 

926 * open namei( ) 

927 * 

928 * namei for open - this is in fact almost the whole open-routine. 
929 * 

930 * Note that the low bits of "flag" aren't the same as in the open 
931 * system call - they are 00 - no permissions needed 

932 * 0l - read permission needed 

933 * 10 - write permission needed 

934 * 11 - read/write permissions needed 

935 * which is a lot more logical, and also allows the ^no perm" needed 
936 * for symlinks (where the permissions are checked later). 

937 * SMP- safe 

938 */ 

939 int open namei(const char * pathname, int flag, int mode, 


struct nameidata *nd) 
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940 { 

941 int acc mode, error = 0; 

942 struct inode *inode; 

943 struct dentry *dentry; 

944 struct dentry *dir; 

945 int count - 0; 

946 

947 acc mode = ACC MODE (flag); 

948 

949 /* 

950 * The simplest case - just a plain lookup. 

951 x/ 

952 if (!(flag & 0 CREAD) { 

953 if (path init(pathname, lookup flags(flag), nd)) 
954 error - path walk(pathname, nd); 

955 if (error) 

956 return error; 

957 dentry = nd->dentry; 

958 goto ok; 

959 } 

960 

961 /* 

962 * Create - we need to know the parent. 

963 */ 

964 if (path init(pathname, LOOKUP PARENT, nd)) 

965 error = path walk(pathname, nd); 

966 if (error) 

967 return error; 

968 

969 /* 

970 * We have the parent and last component. First of all, check 
971 * that we are not asked to creat(2) an obvious directory - that 
972 * will not do. 

973 */ 

974 error = -EISDTIR; 

975 if (nd last type != LAST NORM || nd->last. name[nd->last. len]) 
976 goto exit; 

977 


调用 参数 flag 中 的 O_CREAT bri ieee IR SEIT FEC EE I TE. ALA, nA 
这 个 标志 位 为 G0， 就 仅仅 是 在 文件 系统 中 寺 找 目标 节点 ， 这 就 是 通过 path_init( ) 和 path_walk( RI A 
标 节 点 的 路 径 名 找到 该 节点 的 dentry 结构 (以 及 inode 结构 》 的 过 程 ， 那 己 经 在 前 而 介绍 过 了 。 这 里 
惟一 值得 一 提 的 是 在 调用 path_init( ) 时 的 参数 flag 还 要 通过 lookup. flags( ) 进 行 一 些 处 理 ， 其 代码 也 在 


fs/namei.c 中 : 





[sys_open( ) > filp. open( ) > open, namei( ) > lookup flags( )] 
876 /* 
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877 * Special case: 0 CREAT|O EXCL implies O NOFOLLOW for security 
878 * reasons. 


879 * 

880 * O DIRECTORY translates into forcing a directory lookup. 
881 */ 

882 static inline int lookup. flags (unsigned int [) 

883 [ 

884 unsigned long retval - LOOKUP FOLLOW; 

885 

886 if (f & 0 NOFOLLOW) 

887 retval &- "LOOKUP. FOLLOW; 

888 

889 if ((f & (0 CREATIO EXCL)) == (0 CREAT|O EXCL)) 
890 retval &= "LOOKUP FOLLOW: 

891 

892 if (f & O DIRECTORY) 

893 retval '- LOOKUP DTRECTORY; 

894 

895 return retval; 


可 见 ， 这 里 为 上 面 953 行 的 path. init( ) 设 置 了 其 参数 flags 中 反映 着 搜索 准则 的 标志 位 ， 但 是 最 多 
只 有 LOOKUP_FOLLOW 和 LOOKUP_DERECTORY 两 位 有 可 能 为 1。 另 一 方面 ， 在 open namei( ) 中 
对 这 些 标志 位 的 设置 ， 邮 对 lookup flags ) 的 调用， 是 有 条 件 的 ， 仅 在 原先 的 参数 flag 中 O_CREAT 标 
志 位 为 0 时 才 进 行 ， 所 以 我 们 知道 这 里 889 行 中 的 条 件 一 定 是 不 成 立 的 。 如 果 O_CREAT 标志 位 为 0， 
那么 要 是 找 不 到 日 标 节点 就 失败 返回 (而 不 创建 这 个 节点 )。 

找到 了 目标 节点 的 dentry 结构 以 后 ， 还 要 对 其 进行 很 多 检验 ， 等 一 下 我 们 青 回 到 这 个 话题 。 

如 果 O_CREAT 标志 位 为 1， 那 就 要 复杂 多 了 。 首 先 也 是 通过 path. init( ) 和 path_walk( ) 沿 着 路 径 搜 
索 ， 不 过 这 一 次 寻找 的 不 是 目标 节点 的 本 身 ， 而 是 其 父 节点 ， 也 就 是 目标 文件 所 在 的 目录 ， 所 以 在 调 
H path, init( ) 时 的 标志 位 为 LOOKUP_PARENT。 如 果 人 在 搜索 过 程 中 出 了 错 , 例如 某 个 中 间 节 点 不 存在 ， 
或 者 不 允许 当前 进程 访问 ， 那 就 出 错 返回 了 。 否 则 ， 那 就 是 找到 了 这 个 父 节 点 。 但 是 ， 找 到 了 父 节 点 
并 不 表示 整个 路 径 就 没有 问题 了 。 在 正常 的 路 径 名 中 ,路 径 的 终点 是 一 个 文件 名 ， 此 时 nameidata 结构 
中 的 last_type 由 path_walk( ) 设 置 成 LAST_NORM。 但 是 ， 也 有 可 能 路 径 的 终点 为 “.” 或 “,.” 也 就 
是 说 路 径 的 终点 实际 上 是 一 个 日 录 , 此 时 path_walk( ) 将 last_type 设置 成 LAST_DOT 或 LAST_DOTDOT 

( 见 “ 从 路 笃 名 到 日 标 节 点 ”一 和 匠 )， 财 就 应 该 视 为 山 错 而 返回 出 错 代 码 一 EISDIR。 这 是 为 什么 呢 ? 因 
为 O_CREAT 标志 位 为 1 表示 若 日 标 节 点 个 存在 就 创建 该 节点 ， 可 是 open( ) 只 能 创建 文件 出 不 能 创建 
Hex, EKRU- PS ASAD mkdir( ) 来 创建 。 同 时 ， 目 标 节 点 名 必须 是 以 “\0” 结 尾 的 ， 那 才 是 个 
正常 的 文件 名 。 理 则 说 明 在 目标 季 点 名 后 面 还 有 作为 分 隔 符 的 “/” 字 符 ， 那 么 这 还 是 个 目录 ME. d 
意 盟 然 导 找 的 是 晶 标 节点 的 父 节 点 ， 但 是 path_walk( ) 将 nameidata 结构 中 的 gstr 结 梅 last HERSE 
昌 标 节点 的 节点 名 和 字符 串 长 度 ， 只 不 过 没有 去 寻找 晶 标 节点 的 dentry 结构 (以 及 inode 结构 )。 读 者 
不 妨 回 过 去 重 温 下 path_walk( ) 的 代码 。 

通过 了 这 些 检 查 ， 才 说 明 真 的 找到 了 日 标 文件 所 在 有 H 录 的 dentry 结构 ， 可 以 往 下 执行 了 。 继 续 往 


FA (namei.c): 





- 547 . 


Linux Awa ao (上 册 ) 


[sys_open( ) > filp open( ) > open. namei( )] 


978 dir = nd dentry; 

979 down(&dir-^d inode-^i sem); 

980 dentry = lookup hash(&nd-^last, nd »dentry); 
981 

982 do last: 

983 error = PTR ERR(dentry); 

984 if (IS ERR(dentry)) 1 

985 up (&dir->d inode-^i sem): 

986 goto exit; 

987 } 

988 

989 /* Negative dentry, just create the file */ 
990 if (tdentry—>d_inode) { 

991 error = vfs create(dir-»d inode, dentry, mode); 
992 up(Kdir-^d inode-^i sem); 

993 dput (nd->dentry) ; 

994 nd->dentry = dentry; 

995 if (error) 

996 goto exit; 

997 /* Don't check for write permission, don't truncate */ 
998 acc mode - 0; 

999 flag &- "0 TRUNC; 

1000 goto ok; 

1001 } 

1002 

1003 /* 

1004 * It already exists 

1005 */ 

1006 up(&dir-»d inode-^i sem); 

1007 

1008 error = -EEXIST; 

1009 if (flag & 0 EXCL) 

1010 goto exit dput; 

1011 

1012 if (d mountpoint(dentry)) { 

1013 error = —ELOOP; 

1014 if (flag & 0 NOFOLLOW) 

1015 goto exit dput; 

1016 do | follow down(&nd-^mnt, &dentry); while(d mountpoint (dentry)) ; 
1017 } 

1018 error = —ENOENT; 

1019 if ('!dentry—>d_inode) 

1020 goto exit_dput; 

1021 if (dentry->d_inode—>i_ op && dentry-»d inode-^i op->follow_link) 
1022 goto do link; 

1023 
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1024 dput (nd->dentry) ; 

1025 nd->dentry = dentry; 

1026 error = -EISDIR; 

1027 if (dentry-^d inode && S ISDIR(dentry-^d inode-^i mode)) 
1028 goto exit; 

1029 ok: 


我 们 已 经 找到 了 目标 文件 所 在 日 录 的 dentry 结构 ， 并 让 指针 dir 指向 这 个 数据 结构 ， 下 . - 步 就 
是 通过 lookup_hash( ) 寻 找 目标 文件 的 dentry £i FJ T (980 47). £f lookup. hash ) 的 代码 也 在 fs/namei.c 
中 : 


[sys_open( ) > filp open( ) > open_namei( ) > lookup_hash( )] 


704 /* 

705 * Restricted form of lookup. Doesn't follow links, single-component only, 
706 * needs parent already locked. Doesn't follow mounts. 

107 * SMP-safe. 

708 */ 


709 struct dentry * lookup_hash(struct qstr *name, struct dentry * base) 
710 { 


711 struct dentry * dentry; 

712 struct inode *inode; 

713 int err; 

714 

715 inode = base-^d inode; 

716 err = permission(inode, MAY EXEC): 

717 dentry = ERR PTR(err) ; 

718 if (err) 

719 goto out; 

720 

721 /* 

722 * See if the low-level filesystem might want 
123 * to use its own hash.. 

724 */ 

725 if (base->d_op && base->d_op->d hash) | 
726 err = base->d_op—>d_hash (base, name): 
121 dentry - ERR PTR(err); 

728 if (err < 0) 

129 goto out; 

730 } 

731 

732 dentry = cached_lookup(base, name, 0); 
733 if (Identry) { 

734 struct dentry *new = d alloc(base, name); 
735 dentry = ERR PTR(-ENOMEM) ; 

736 if (!new) 

737 goto out; 
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738 lock kernel( ); 
139 dentry = inode->i_op->lookup (inode, new); 
740 unlock kernel( ); 
741 if (!dentry) 

142 dentry - new; 
143 else 

744 dput (new) ; 
745 } 

746 out: 

TAT return dentry; 
748} 


这 个 函数 先 在 dentry 杂凑 表 队 列 中 寻找 ， 找 不 到 就 先 创建 一 个 新 的 dentry 数据 结构 。 再 到 目标 
文件 所 在 的 目录 中 寻找 一 次 ， 如 果 找 到 了 就 把 已 经 创建 的 dentry 结构 “归还 ” 找 不 到 才 采 用 它 。 为 
什么 要 采取 这 样 的 次 序 昵 ? 这 是 因为 在 执行 d_alloc( ) 的 过 程 中 有 可 能 进入 睡眠 ， 这 样 就 存在 一 种 可 
能 ， 就 是 当 睡 眠 醒 过 来 时 情况 已 经 变 了 。 类 似 的 情景 读者 在 前 几 章 也 多 次 看 到 过 。 这 样 ， 从 
lookup. hash( ) 返 回 时 ， 不 管 这 目 标 文 件 存在 与 否 ， 总 是 返回 一 个 dentry 数据 结构 指针 《除非 系统 中 
Agee x GAA se). WME A RC CRAY dentry 结构 原来 就 存在 ， 那 么 结构 中 的 d_inode 指针 指向 该 文 
件 的 inode 结构 ;而 如 果 这 个 dentry 结构 是 新 创建 的 ， 则 其 d_inode 指针 为 NULL， 央 为 此 时 它 偿 没 
有 inode 结构 。 

先 看 月 标 文件 尚 不 存在 的 情况 〈 见 990 行 )， 奢 就 要 通过 vfs_create( ) 创 建 。 这 个 函数 的 代码 比 
较 长 ， 却 相对 独立 ， 并 且 受 到 多 处 调用 ， 所 以 我 们 把 它 推迟 到 后 面 再 来 阅读 ， 这 里 暂时 只 要 知道 这 
个 函数 的 作用 是 创建 文件 就 行 了 。 

费 是 昌 标 文件 诛 来 就 存在 呢 ? 首 先 ， 在 系统 调用 open ) 的 参数 中 标志 位 O_CREAT 和 O_EXCL 
同时 为 1 表示 日 标 文 件 在 此 之 前 必须 不 存 厅 ， 所 以 如 果 己 经 存在 就 只 好 出 错 返回 了 ， 出 错 代码 为 一 
EEXIST。 其 次 ， 这 个 目标 文件 有 可 能 是 个 安装 点 ， 那 样 就 要 道 过 — follow down( ) 跑 到 所 安装 的 文 
件 系统 中 去 ， 而 且 要 通过 一 个 do-while 循环 一 直 跑 到 头 。 此 外 ， 这 个 日 标 文 件 也 有 可 能 只 是 个 符 
号 连接 ， 和 连接 的 对 象 有 可 能 “悬空 ” 就 是 连接 的 对 象 在 另 个 设备 上 , 但 是 那个 设备 却 没 有 安 牙 。 
所 以 代码 中 先 检验 目标 节点 是 否 符 号 连接 ， 是 的 话 就 goto 到 do link 处 ， 顺 着 连接 前 进 到 其 目标 闻 
5, 如 果 连 接 对 象 晤 空 则 返回 出 错 代码 一 ENOENT, 否则 便 又 goto 回 到 do, last 处 对 晶 标 节点 展开 新 
一 轮 的 检查 。 这 ，: 段 代 但 在 open_namei( ) 的 最 后 ， 我 们 顺 着 程序 的 流程 把 它 提 到 鹏 他 来 阅读 : 


[sys_open( ) > filp open( ) > open_namei( )] 


1112 do link: 


1113 error = -ELOOP; 

1114 if (flag & O_NOFOLLOW) 

1115 goto exit dpul; 

1116 /* 

1117 * This is subtle. Instead of calling do follow link( ) we do the 

1118 * thing by hands. The reason is that this way we have zero link count 
1119 * and path walk( ) (called from — follow link) honoring LOOKUP PARENT. 
1120 * After that we have the parent and last component, i.e. 

1121 * we arc in the same situation as after the first path walk( ). 
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1122 * Well, almost - if the last component is normal we get its copy 
1123 * stored in nd->last.name and we will have to putname( ) it when we 
1124 * are done. Procfs like symlinks just set LAST BIND. 
1125 */ 

1126 UPDATE_ATIME (dentry—>d_ inode) ; 

1127 error = dentry~>d_inode->i_op->follow link (dentry, nd); 
1128 dput (dentry) ; 

1129 if (error) 

1130 return error; 

1131 if (nd->last type == LAST BIND) { 

1132 dentry = nd->dentry; 

1133 goto ok; 

1134 } 

1135 error = -EJSDIR; 

1136 if (nd-^last type != LAST NORM) 

1137 goto exit; 

1138 if (nd->last. name|nd->last. len]) { 

1139 putname (nd-> last. name) ; 

1140 goto exit: 

1141 } 

1142 if (countt++==32) { 

1143 dentry = nd->dentry; 

1144 putname (nd->last. name) ; 

1145 goto ok; 

1146 } 

1147 dir = nd->dentry; 

1148 down (&dir—>d_inode->i_ sem): 

1149 dentry = lookup hash(&nd—-> last, nd->dentry) ; 

1150 putname (nd->last. name) ; 

1151 goto do_last; 


读 过 path. walk( ) 的 读者 对 这 段 代 但 不 应 该 感到 陌生 。 找 到 连接 日 标的 操作 主要 是 由 具体 文件 系 
统 在 其 inode_operations 结构 中 的 函数 指针 follow link. 提供 的 。 对 于 Ext2 这 个 函数 为 
ext2_follow_link( )， 而 最 后 这 个 押 数 又 会 通过 vis_follow_link( ) 调 用 path_walk(), 这 读者 已 经 看 到 过 
了 。 注 意 前 面 通过 path_init( ) 设 置 在 nameidata 数据 结构 中 的 标志 位 并 未 改变 ， 仍 是 
LOOKUP PARENT. 

对 于 日 标 节 点 是 符号 连接 的 情况 , 如 果 说 在 follow_link 之 前 的 “目标 节点 ”是 “ 视 在 目标 节点 风 
Ak follow link 以 后 的 nd->last 就 是 “真实 日 标 节点 ”的 节点 名 了 ， 而 nd->dentry 则 仍旧 指向 其 父 
节点 的 dentry 结构 。 i 

搜索 到 了 真实 目标 节点 的 节点 名 后 ， 同 样 还 要 检查 这 个 节点 是否 只 是 个 日 录 而 厅 是 文件 (1136 
行 和 1138 行 )， 如 果 是 日 录 就 此 出 错 返回 。 至 于 搜索 的 结果 为 LAST_BIND， 则 只 发 后 于 /proc 或 类 
似 的 特殊 文件 系统 中 ， 我 们 在 此 并 不 关心 。 

最 后 ， 还 要 通过 lokup hash( ) 找 到 或 创建 真实 日 标 节点 的 dentry 结构 ， 接 着 就 转 回 到 前 而 的 
do last 标号 处 ， 在 那里 又 要 重复 前 面 对 日 标 节点 的 一 系列 检验 。 检 验 的 结果 可 能 会 发 现 我 们 所 以 为 
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的 “真实 目标 节点 ”实际 上 又 是 一 个 “ 视 在 目标 节点 ” 那 就 又 会 转 到 这 里 的 do_link。 为 了 防止 陷 
入 无 穷 循环 ， 这 里 用 了 一 个 计数 器 count 加 以 控制 ( 见 1142 行 )， 如 果 计 数值 达到 了 32 就 果断 结束 
而 转 到 标号 ok 处 ， 在 那里 还 要 作 进 一 步 的 检查 ， 若 发 现 仍 是 连接 节点 就 会 返回 出 错 代 码 一 ELOOP。 
读者 以 前 在 path_walk( ) 的 代码 中 看 到 调用 一 个 函数 do. follow. link( ), 在 邦 里 也 有 对 连接 链 长 度 的 控 
制 (通过 task. struct 结构 中 的 link count 字段 )， 为 什么 这 里 还 要 另 搞 一 套 呢 ?这 是 因为 path_walk( ) 
对 于 虽 在 LOOKUP. PARENT 的 搜索 只 处 理 公 目标 节点 的 父 节 点 为 小 ， 对 目标 节点 本 身 是 不 作 处 理 
的 。 

只 要 连接 链 的 长 度 不 超出 合理 的 范围 ， 最 终 总 会 找到 真正 的 目标 节点 。 我 们 继续 入 下 看 


(Cnamei.c: )。 


[sys_open( ) > filp_open( ) > open. namei( )] 


1029 ok: 

1030 error = -ENOENT; 

1031 inode = dentry—>d_inode; 

1032 if (linode) 

1033 goto exit; 

1034 

1035 error = -ELOOP; 

1036 if (S ISLNK(inode-^i mode)) 

1037 goto exit; 

1038 

1039 error = -EISDIR; 

1040 if (S ISDIR(inode-^i mode) && (flag & FMODE WRITE)) 

1041 goto exit; 

1042 

1043 error = permission(inode, acc, mode) ; 

1044 if (error) 

1045 goto exit; 

1046 

1047 /* 

1048 * FIFO’ s, sockets and device files are special: they don’ t 
1049 * actually live on the filesystem itself, and as such you 
1050 * can write to them even if the filesystem is read-only. 
1051 */ 

1052 if (S ISFIFO(inode- i mode) || S_TSSOCK(inode->i_mode)) { 
1053 flag &- "0 TRUNC; 

1054 } else if (S ISBLK(inode-^i mode) || S ISCHR(inode^ i mode)) 1 
1055 error - -EACCES; 

1056 if (IS NODEV (inode)) 

1057 goto exit; 

1058 

1059 flag &- ^0 TRUNC; 

1060 ) else { 

1061 error = -EROFS; 

1062 if (IS RDONLY(inode) && (flag & 2)) 
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1063 
1064 
1065 
1066 
1067 
1068 
1069 
1070 
1071 
1072 
1073 
1074 
1075 
1076 
1077 
1078 
1079 
1080 
1081 
1082 
1083 
1084 
1085 
1086 
1087 
1088 
1089 
1090 
1091 
1092 
1093 
1094 
1095 
1096 
1097 
1098 
1089 
1100 
1101 
1102 
1103 
1104 
1105 
1106 
1107 
1108 
1109 
1110 


goto exit; 
} 
/* 
* An append~only file must be opened in append mode for writing 
*/ 


error = -EPERM; 
if (IS APPEND(inode)) { 
if ((flag & FMODE WRITE) && ! (flag & O_APPEND)) 
goto exit; 
if (flag & 0 TRUNC) 
goto exit; 


) 


/* 
* Ensure there are no outstanding leases on the file. 
*/ 
error = get lease(inode, flag); 
if (error) 
goto exit; 


if (flag & O_TRUNC) { 
error = get_write_access (inode) ; 
if (error) 
goto exit; 


/* 
* Refuse to truncate files with mandatory locks held on them. 
*/ 
error = locks verify_locked (inode) ; 
if (terror) { 
DQUOT_INTT (inode) ; 


error = do_truncate(dentry, 0); 
} 
put write access(inode); 
if (error) 
goto exit; 
} else 
if (flag & FMODE WRITE) 
DQUOT_INTT (inode) ; 


return 0; 


exit dput: 
dput (dentry) ; 
exit: 
path release (nd); 
return error; 
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1152 ] 


找到 或 者 创建 了 目标 文件 以 后 ， 还 要 对 代表 着 上 且 标 文件 的 数据 结构 进行 一 系列 的 检验 ， 包 括 访 
问 权 限 的 检验 以 及 -- 些 处 理 〈 如 截 尾 )。 读 者 也 许 会 对 头 三 项 检验 感 旬 奇 性， 不 是 刚刚 已 经 检查 过 了 
吗 ? 同 过 去 看 一 下 就 知道 ， 那 只 是 华 特 殊 条 件 下 进行 的 ， 而 月 并 不 完整 。 而 现在 ， 则 是 进行 综合 、 

K% permission( ) 的 代码 读者 已 经 在 本 章 第 二 节 中 读 过 ， 这 里 的 acc_mode 是 在 一 进入 
open_namei ) 时 就 准备 好 了 的 ( 见 947 17), PERRY ACC. MODE 及 有 关 的 定义 分 别 在 fs/namei.c 
和 include/asm_i386/fentLh 中 给 出 : 


6 #define 0 ACCMODE 0003 
34 #define ACC MODE (x) (”\000\004\002\006” [ (x) &0. ACCMODE]) 


这 里 需 归 一 些 说 明 。“\000W004\002\006” 是 个 字符 串 ， 其 第 … 个 字 节 为 8 进 制 的 0， 第 二 个 字 节 
为 8 进 制 的 4， 余 类 推 。 大 家 知道 ， 在 C 语言 中 字符 申 与 宁 符 数组 是 等 价 的 ， 所 以 这 里 把 它 作 为 字 
符 数组 来 使 用 ， 而 下 标 则 为 ‘flag & O_ACCMODE)。 由 丁 O ACCMODE 的 值 定义 为 3， 所 以 只 有 
四 种 可 能 的 下 标 值 ， 即 0、1、2、3， 具 体 取决 于 flag。 为 方面， 前 面 讲 过 ， 在 fip open( )'T 74/8 
open namei( ) 之 前 已 经 对 flags 作 了 一 些 处 理 ， 将 系统 调用 open( ) 界 面 上 的 标志 位 变换 成 了 
open, namei( ) 所 要 求 的 格式 〔 见 filp open( ) 采 而 的 注释 )。 人 但是， 函数 permission( ) 所 柴 求 的 义 有 些 
不 同 ， 所 以 还 要 再 变换 一 次 。 读 者 也 许 会 说 :“ 这 不 是 存心 计 人 看 不 懂 吗 ? 为 什么 此 作 这 么 多 变换 
We? ”其 实 ， 这 也 是 不 得 已 的 事 ， 系 统 调 用 open( ) 界 面 上 的 标志 位 是 从 Unix 的 早期 就 定义 好 了 的 ， 
要 保持 兼容 就 不 能 改变 。 所 以 ， 变 换 绝对 是 必须 的 事 。 可 以 苦 柄 的 只 是 一 次 性 变换 还 是 分 两 次 变换 ， 
读者 仔细 阅读 open_namei( ) 的 全 部 代码 ， 就 会 体会 到 现在 这 样 分 央 次 变换 还 是 合理 的 ， 尽 管 未 必 是 
惟一 合理 的 方案 。 

正面 还 有 一 些 对 文件 模式 〈 山 inode 结构 中 的 imode 表示 》 与 操作 要 求 〈 由 fiag 表示 ) 之 间 的 
一 致 性 的 检验 和 处 理 。 这 些 检验 和 处 理 人 多 数 比 较 简 单 ， 例 如 对 FIFO 和 插口 文件 号 无 所 谓 截 尾 ， 所 
以 把 O_TRUNC 标志 位 清 0 等 等 。 我 们 在 这 里 个 关心 磁 癌 空间 屿 额 ( 见 1093 行 )， 所 以 集中 看 文件 
BZ. TAN, 将 O_TRUNC 标志 位 设 成 | 表示 要 将 文件 中 原 有 的 内 容 全 部 删除 , 称 为 “ 截 尾 ”， 
这 是 由 代码 中 的 第 1083 行 全 1100 行 完 成 的 。 在 此 之 前 还 调用 了 一 个 函数 get_lease( )， 这 是 与 文件 
“租借 ”有 关 的 操作 ， 我 们 在 此 并 个 关心 。 

在 文件 的 inode 数据 结构 中 有 个 计数 器 i_writecount， 用 米 对 正在 写 访问 该 文件 的 进程 计数 。 另 
… 方面 , 有 些 文件 可 能 已 经 通过 mmap( ) 系 统 调用 映射 到 某 个 进程 的 虚 存 空间 ， 这 个 计数 器 就 用 于 通 
过 正常 的 文件 操作 和 通过 内 存 映射 这 两 种 写 访问 之 间 的 壬 斥 。 当 这 个 计数 为 负 值 时 表示 有 进程 可 以 
通过 虚 存 管理 对 文件 进行 号 操作 ， 为 正佳 则 表示 某 个 或 某 些 进 程 正在 对 文件 进行 写 访 问 。 内 核 中 所 
供 了 get_write_access( ) 和 deny. write, access( ) 两 个 函数 米 保证 这 种 互 斥 访问 ， 这 两 个 函数 的 代码 在 


fs/namei.c 中 : 


195 /* 
196 * get write _ access( ) gets write permission for a file. 
[97  : put write access( ) releases this write permission. 
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198  * This is used for regular files 

199  :* We cannot support write (and maybe mmap read-write shared) accesses and 
200  * MAP DENYWRITE mmappings simultaneously. The i writecount field of an inode 
201  * can have the following values: 

202 * 0: no writers, no VM DENYWRITE mappings 

203  * < 0: (i writecount) vm area siructs with VM DENYWRITE set exist 

204  * > 0: (i writecount) users are writing to the file. 

205 

206 * Normally we operate on that counter with atomic (inc, dec] and it's safe 
207 * except for the cases where we don't hold i writecount yet. Then we need to 
208  * use {get, deny} write access( ) - these functions check the sign and refuse 
209 * to do the change if sign is wrong. Exclusion between them is provided by 
210  * spinlock (arbitration lock) and I'll rip the second arsehole to the first 
211  * who will try to move it in struct inode - just leave it here. 

212  x*/ 

213 static spinlock t arbitration lock = SPIN LOCK UNLOCKED; 

214 int get write access(struct inode * inode) 

215 { 

216 spin, lock(&arbitration lock); 

217 if (atomic read(&inode-^i writecount) < 0) { 

218 spin unlock(&arbitration lock); 

219 return :ETXTBSY; 

220 } 

221 atomic inc (&inode->i_writecount) ; 

222 spin unlock(&arbitration lock); 

223 return 0; 

224 ] 

225 int deny write access(struct file * file) 

226 { 

221 spin lock(&arbitration lock); 

228 if (atomic read(kfile— f dentry->d inode-^i writecount) > 0) ( 

229 spin unlock(&arbitration lock); 

230 return -ETXTBSY; 

231 } 

232 atomic_dec(&file->f_dentry—>d inode->i writecount); 

233 spin unlock(&arbitration lock); 

234 return 0; 

235 ) 


这 里 要 注意 ， 注 释 中 所 说 的 “gets write permission" MYE permission ) 检 验 当 前 进程 对 文件 的 
写 访 问 权 限 是 两 码 事 。 前 者 是 指 对 文件 的 常规 写 操 作 和 对 经 过 内 存 映 射 的 文件 内 容 的 写 操作 之 问 的 
互 不 ， 而 后 者 则 是 出 于 安全 性 考虑 的 对 访问 权限 的 验证 。 

通过 get_write_access( ) 得 到 了 写 操 作 的 许可 后 , 还 要 考虑 日 标 文件 是 否 忆 经 被 其 他 进程 锁 化 了 。 
从 进程 的 角度 考虑 ， 对 文件 的 每 次 读 或 所 可 以 认为 起 “ 诛 了 了 性” 的， 因为 每 次 读 或 写 都 只 要 通过 一 
次 系统 调用 就 可 完成 。 但 是 ， 如 果 考 虑 连续 几 次 的 恋 、 写 操作 ， 那 么 这 些 相继 的 读 、 写 操作 从 总 体 
上 和 看 就 显然 不 是 “原子 性 ”的 了 。 对 填 数 据 库 一 类 的 应 用 ， 这 就 成 为 “个 问题 。 因 此 就 发 展 起 了 对 
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文件 或 文件 中 的 某 一 部 分 内 容 “ 加 锁 ” 的 技术 。 

“加 锁 ” 技 术 有 两 种 。 一 种 是 由 进程 之 问 自己 协调 的 ， 称 为 “协调 锁 ”(advisory lock， 或 称 
cooperative lock)。 对 于 这 一 种 锁 ， 内 核 只 提供 加 锁 以 及 检测 文件 是 否 已 经 加 锁 的 手段 ， 即 系统 调用 
flock( )， 但 是 内 核 并 不 参与 锁 的 实施 。 也 就 是 说 ， 如 果 有 进程 不 遵守 “游戏 规则 ” 不 检查 目标 文件 
是 否 已 经 由 别 的 进程 如 了 锁 就 往 里 面 写 ， 内 核 是 不 加 阻拦 的 ， 另 一 种 则 是 由 内 核 强制 实施 的 ， 称 为 

“强制 锁 ”(mandatory lock)， 即 使 有 进程 不 遵守 游戏 规则 ， 不 问 三 七 二 十 一 就 要 往 加 了 锁 的 文件 
中 号 ， 内 核 也 会 加 以 阻拦 。 这 种 锁 是 对 “协调 锁 ” 的 改进 与 加 强 ， 具 体 通 过 fcntl( ) 系 统 调 用 实现 。 
但 是 ， 在 有 些 应 用 中 并 不 适合 使 用 强制 锁 ， 所 以 要 给 文件 加 上 一 个 像 开 关 一 样 的 东西 ， 这 样 才 可 以 
有 选择 地 人 允许 或 不 允许 对 一 个 文件 使 用 强制 锁 。 在 inode 结构 的 iflg 字段 中 定义 的 一 个 标志 位 
MS_MANDLOCK， 就 是 起 着 开关 的 作用 。 这 个 标志 位 不 仅 用 十 inode 结构 ， 也 用 丁 super block Zi 
构 ， 对 于 整个 文件 子 系统 也 可 以 在 安装 时 将 参数 中 的 这 个 标志 位 设 成 1 或 0， 使 整个 设备 上 的 文件 
全 都 允许 或 不 允许 使 用 强制 锁 。 对 于 要 求 截 尾 的 打开 文件 操作 ， 内 核 应 检查 目标 文件 或 者 目标 文件 
所 在 的 设备 是 否 人 允许 使 用 强制 锁 ， 并 且 已 经 加 了 锁 ; 如 果 已 经 加 了 强制 锁 便 应 该 出 错 返 回 。 这 就 是 
调用 inline 函数 locks_verify_locked( ) 的 原因 ， 其 代码 在 include/linux/fs.h P: 


[sys_open{ ) > filp open( ) > open namei( ) > locks verify locked( )] 


892 /* 
893 * Candidates for mandatory locking have the setgid bit set 
894 * but no group execute bit - an otherwise meaningless combination. 
895 */ 
896 #define MANDATORY LOCK (inode) \ 
897 (IS MANDLOCK (inode) && \ 
((inode)—>i_mode & (S ISGID | S IXGRP)) == S ISGID) 
898 


899 static inline int locks verify, locked (struct inode *inode) 
900 { 


901 if (MANDATORY LOCK (inode) ) 
902 return locks mandatory locked(inode); 
903 return 0; 
904  ] 
有 关 的 宏 操 作 定义 为 : 
131 /* 


132 * Note that nosuid etc flags are inode-specific: setting some file-system 


133 * flags just means all the inodes inherit those flags by default. It might be 
134 * possible to override it selectively if you really wanted to with some 

135 * ioctl( ) that is not currently implemented. 

136 * 

137 * Exception: MS RDONLY is always applied to the entire file system. 

138 * 

139 * Unfortunately, it is possible to change a filesystems flags with it mounted 
140 * with files in use. This means that all of the inodes will not have their 
141 * i flags updated. Hence, i flags no longer inherit the superblock mount 
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142 * flags, so these have to be checked separately. © rmk@arm. uk. linux. org 
143 */ 

144 "define — 1S FLG(inode, flg) ((inode)i sb >s flags & (flg)) 

145 

146 #define IS RDONLY (inode) ({inode) ->i_sb->s_flags & MS RDONLY) 


147 define IS NOSUID(inode) IS FLG(inode, MS NOSUID) 
148 &define IS NODEV (inode) IS Fl.G(inode, MS NODEV) 

149 define IS NOEXEC (inode) IS FLG(inode, MS NOEXEC) 
150 #define IS SYNC(inode) M 


C. IS FLG(inode, MS SYNCHRONOUS) || ((inode) 5i flags & S SYNC)) 
151 . f&define IS MANDLOCK(inode) _ JS FLG(inode, MS MANDLOCK) 


fe Z-RO RACH OA Unix 系统 V 开始 ), 曾经 用 inode 结构 的 mode 字 段 中 S_ISGID RIS. IXGRP 
两 个 标志 位 的 结合 来 起 MS_MANDLOCK 标志 位 的 作用 。 标志 位 S_ISGID 与 S_ISUID 相似 , 表示 在 
月 动 一 个 可 执行 文件 时 将 进程 的 组 号 设置 成 该 文件 所 属 的 组 号 。 可 是 ， 如 果 这 个 文件 对 于 所 属 的 组 
根本 就 没有 可 执行 属性 (由 S_IXGRP RE), JIS S. ISGID 就 失去 了 意义 ,所 以 ,看 正常 情况 下 S. ISGID 
为 1 而 S IXGRP 为 0 HAMA AMMAN AHIR, BLAU, Unix 系统 版 本 V 就 利用 了 这 种 给 合 
来 控制 强制 锁 的 使 用 。 所以， 只 有 在 inode 结构 中 或 者 super. block 结构 中 的 MS_MANDLOCK 为 1, 
JF H. inode 结构 中 的 S. ISGID % 1 而 S IXGRP 为 0 时 才 人 允许 使 用 强制 锁 , 这 就 是 901 FIN AA HIRE 
思 。 

如 果 上 月 标 文 件 是 允许 使 用 强制 锁 的 ， 那 就 要 进一步 检查 是 否 己 经 加 了 锁 。 函 数 
locks_mandatory_locked( ) 的 代码 在 fs/locks.c 中 : 


[sys_open( )> filp open( ) > open_namei( ) > locks verify locked( ) > locks mandatory, locked( )] 


675 int locks mandatory. locked (struct inode *inode) 

676 { 

677 fl owner t owner = current->files; 

678 struct file lock *fl; 

679 

680 /* 

681 * Search the lock list for this inode for any POSTX locks. 
682 */ 

683 lock kernel( ); 

684 for (fl = inode-^i flock; fl != NULL; fl = fl1->fl1 next) { 
685 if (!(fl1-^fl flags & FL POSIX)) 

686 continuo; 

687 if (fl fl owner !- owner) 

688 break; 

689 ] 

690 unlock kernel( ); 

691 return fl ? -EAGAIN : 0; 

692 } 


每 个 文件 的 inode 结构 中 都 有 个 file lock 数据 结构 队列 i flock, &p5 个 进程 对 一 个 文件 中 的 
个 区 问 加 锁 时 ， 就 创建 个 file_lock 数据 结构 并 将 其 挂 入 该 文件 的 inode 结构 中 。 与 file_lock 结 
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构 有 关 的 定义 在 include/linux/fs.h 中 : 


533 /* 

534 * The POSIX file lock owner is determined by 

535 * the "struct files struct^ in the thread group 

536 * (or NULL for no owner - BSD locks). 

537 * 

538 * Lockd stuffs a “host” pointer into this 

539 */ 

540 typedef struct files struct *fl owner t; 

541 

542 struct file lock | 

543 struct file lock *fl next; /* singly linked list for this inode */ 
544 struct list head fl link; /* doubly linked list of all locks */ 
545 struct list head fl block; /* circular list of blocked processes */ 
546 fl owner t fl owner; 

547 unsigned int fl pid; 

548 wait queue head t fl wait; 

549 struct file *f1l file; 

550 unsigned char fl flags; 

551 unsigned char fl type; 

552 loff t fl start; 

553 loff t fl end; 

554 

555 void (*fl notify) (struct file lock *); /* unblock callback */ 

556 void Ckfl insert) (struct file lock *); /* lock insertion callback */ 
557 void (#fl_remove) (struct file lock *); /* lock removal callback */ 
558 

559 struct fasync struct * fl fasync; /* for lease break notifications */ 
560 

561 union { 

562 struct nfs lock info nfs f]; 

563 } dla 

564 hs 


-个 file lock 结构 就 是 一 把 “ 锁 ” 结构 中 的 指针 fl file 指向 月 标 文件 的 file 结构 ， 而 fl start 
F fl end 就 确定 了 该 文件 中 的 一 个 区 间 ， 如 果 生 _start 为 0 而 fl. end 为 OFFSET. MAX Son SE x 
件 。 此 外 ，fl_type 表示 锁 的 性 质 ， 如 读 、 写 :fl_flags 中 是 一 些 标志 位 ， 这 些 标志 位 的 定义 也 在 fs.h 
中 : 


526 üdefine FL POSIX 1 

527 #define FL_FLOCK 2 

528 #define FL BROKEN 4 /* broken flock( ) emulation */ 

529 #define FL ACCESS 8 /* for processes suspended by mandatory locking */ 
530 define FL LOCKD 16 /* lock held by rpe. lockd */ 

531 #define FL LEASE 32 /* lease held on this file */ 
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标志 位 FL_FLOCK 为 1 表示 这 个 锁 是 通过 传统 的 flock( ) 系 统 调 用 加 上 的 ， 这 种 锁 一 定 是 协调 


锁 ， 并 且 只 能 是 对 整个 文件 的 。 标 志 位 FL, POSIX 则 表示 通过 font ) 系 统 调 用 加 上 的 锁 ， 它 支持 对 
文件 中 的 区 间 加 锁 。 由 于 在 POSIX 标 准 中 规定 了 这 种 对 文件 中 部 分 内 容 所 加 的 锁 , 所 以 又 称 为 POSIX 
锁 。POSIX 锁 可 以 是 协调 锁 ， 也 可 以 是 强制 锁 ， 具 体 取决 于 前 面 所 述 的 条 件 。 这 里 ， 在 
locks_mandatory_locked( ) 的 代码 中 检测 的 是 强制 锁 ， 所 以 只 关心 FL_POSIX 标志 位 为 1 的 那些 数据 


结构 。 
回 到 open. namei( ) 的 代码 中 ， 如 果品 标 文件 并 未 加 上 强制 锁 ， 就 可 以 通过 do_truncate( ) 执 行 截 


尾 了 ， 其 代码 在 fs/open.c (f: 


[sys open( ) > filp open( ) > open namei( ) > do truncate( )] 


72 
73 
74 
75 
76 
77 
78 
79 
80 
81 
82 
83 
84 
85 
86 
87 
88 


int do_truncate (struct dentry *dentry, loff_t length) 
{ 

struct inode *inode = dentry->d_inode; 

int error: 

struct iattr newattrs; 


/* Not pretty: “inode->i_size” shouldn't really be signed. But it is. */ 
if (length < 0) 
return —EINVAL; 


down(&inode-^i sem); 

newattrs.ia size = length; 

newattrs.ia valid = ATTR SIZE | ATTR CTIME; 
error = notify change(dentry, &newattrs) : 
up(&inode-^i sem); 

return error; 


) 


参数 length 为 截 尾 后 残留 的 长 度 ， 从 open namei( ) 中 传 下 来 的 参数 值 为 0， 表 示 全 部 切除 。 代 码 


中 先 准备 一 个 iat 结构 , 然后 就 通过 notify change( ) 来 完成 操作 。 函数 notify_change( ) 的 代码 在 fs/attr.c 


H: 


[sys_open( ) > filp_open( ) > open namei( ) > do truncate( ) > notify change( )] 


106 
107 
108 
109 
110 
111 
112 
113 
114 
115 
116 


int notify change(struct dentry * dentry, struct iattr * attr) 
{ 

struct inode *inode = dentry->d_inode; 

int error; 

time_t now = CURRENT TIME; 

unsigned int ia valid = attr->ia_ valid; 


if (!inode) 
BUG( ); 


attr-^ia ctime = now; 
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117 if O (ia, valid & ATTR ATIME SET)) 

118 attr: >ia atime - now; 

119 if (!(ia valid & ATTR MTIME SET)) 

120 attr-^ia mtime = now; 

121 

122 lock kernel( ); 

123 if (inode->i_op && inode >i op-^setattr) 

124 error - inode->i_op—>setattr (dentry, attr); 
125 else { 

126 error = inode change ok(inode, attr); 

127 if (terror) 

128 inode_setattr(inode, attr); 

129 } 

130 unlock kernel( ); 

131 if (error) { 

132 unsigned long dn mask = setattr mask(ia valid); 
133 if (dn mask) 

134 inode dir notify(dentry-^d parent-^»d inode, dn mask); 
135 } 

136 return error; 

137 |] 


这 里 的 只 的 是 改变 inode 结构 中 的 一 些 数据 ， 以 及 执行 伴随 着 这 些 改变 的 操作 。 这 些 操 作 常 常 是 
央 文 件 系统 而 异 的 ， 所 以 具体 的 文件 系统 可 以 通过 其 inode, operations 数据 结构 提供 用 丁 这 个 日 的 的 函 
数 (指针 )。 就 Ext2 文件 系统 而 言 , 它 并 未 提供 这 人 样 的 函数 ,所 以 通过 inode_change_ok( ) 和 inode_setattr( ) 
其 个 函数 来 完成 这 个 工作 。 了 两 数 inode_change_ok( ) 主 要 是 对 权限 的 检验 ， 其 代码 在 fs/attr.c 中 ,我 们 把 
它 留 给 读者 白 己 阅读 。 


[sys open( ) > filp open( ) > open. namci( ) > do truncate( ) > notify change( ) > inode change ok( )] 


17 /* POSIX UID/GID verification for setting inode attributes. */ 


18 int inode change ok(struct inode *inode, struct iattr *attr) 
19 1 

20 int retval = —EPERM; 

21 unsigned int ia valid = attr->ia valid; 

22 

23 /* If force is set do it anyway. */ 

24 if (ia valid & ATTR FORCE) 

25 goto fine; 

26 

27 /* Make sure a caller can chown. */ 

28 if ((ia valid & ATIR UID) && 

29 (current-^fsuid != inode- ^i uid |; 

30 atir-»ia uid != inode-^i uid) && !capable(CAP CHOWN)) 
3l golo error; 

32 

33 /* Make sure caller can chgrp. */ 
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34 if ((ia valid & ATTR GID) && 

35 (lin group p(atir— ia gid) && attr->ia gid != inode->i_gid) && 
36 !capable (CAP CHOWN)) 

37 goto error; 

38 

39 /* Make sure a caller can chmod. */ 

40 if (ia valid & ATTR MODE) { 

4] if ((current->fsuid != inode-^i uid) && !capable(CAP FOWNER)) 
42 goto error; 

43 /* Also check the setgid bit! */ 

44 if (!in group p((ia valid & ATTR GID) ? attr-^ia gid : 

45 inode->i_gid) && !capable(CAP FSETID)) 

46 attr-^ja mode &- ^S ISGID; 

41 ] 

48 

49 /* Check for setting the inode time. */ 

50 if (ia valid & (ATTR MTIME SET | ATTR ATIME SET)) ( 

51 if (current fsuid !- inode i uid && !capable(CAP FOWNER)) 
52 goto error; 

53 } 

54 fine: 

55 retval = 0; 

56 error: 

57 return retval; 

98 } 


EK FX inode_setattr( ) 的 代码 也 在 闻 :文件 attrc P: 
[sys_open( ) > filp open( ) > open_namei( ) > do truncate( ) > notify change( ) > inode_setattr( )] 


60 void inode setattr(struct inode * inode, struct iattr * attr) 
61 1 


62 unsigned int ia valid = attr-^ia valid; 
63 

64 if (ia valid & ATTR UTD) 

65 inode >i uid = attr-^ia uid; 

66 if (ia valid & ATTR GID) 

67 inode-^i gid = attr-^ia gid; 

68 if (ia valid & ATTR SIZE) 

69 vmtruncate (inode, attr-»ia size); 
10 if (ia valid & ATTR ATIME) 

71 inode—^i atime ~ attr-^ia atime; 
72 if (ia valid & ATTR MTIME) 

73 inode->i mtime = attr: >ia_mtime; 
74 if (ia valid & ATTR_CTIMF) 

75 inode->i ctime = attr >ia ctime; 
76 if (ia valid & ATTR MODE) | 

71 inode-^i mode = attr-^ia mode; 
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78 if (tin group p(inode-^i gid) && 'capable(CAP FSETID)) 
79 inode->i_ mode &- ^S ISGID; 

80 } 

81 mark inode dirty (inode) ; 

82 | 


我 们 在 这 里 关心 的 只 是 文件 大 小 的 改变 , 这 个 改变 及 其 伴随 操作 是 通过 vmtrancate( ) 完 成 的 。 PA 
数 vmtrancate( ) 所 完成 的 操作 以 及 它 的 代码 都 与 文件 的 读 写 关系 更 为 密切 , 所 以 我 们 把 这 个 函数 留 到 
“文件 的 读 写 ” 一 节 中 再 来 深入 阅读 。 

最 后 ， 由 于 inode 结构 的 内 容 改变 了 ， 所 以 要 道 过 mark_inode_dirty( HE #11 IR super. blodk 
结构 的 s dirty 队列 中 。 

至 此 对 目标 文件 所 进行 的 操作 都 已 完成 ， 但 是 代表 着 当前 进程 与 目标 文件 的 连接 的 file 结构 却 
尚未 建立 。 

返回 到 filp open ) 的 代码 中 以 后 ， 下 一 个 要 调用 的 函数 是 dentry_open( )， 它 的 任务 就 是 建立 起 
目标 文件 的 一 个 “上 下 文 ” 即 file 数据 结构 ， 并 让 它 与 当前 进程 的 task. sturct 结构 挂 上 钩 ， 成 为 该 
文件 驻 在 当前 进程 ask_struct 结构 中 的 一 个 代表 。 函 数 dentry_open( ) 的 代码 在 fs/open.c 中 : 


[sys_open( ) > filp open( ) > dentry_open( )] 


632 struct file *dentry open(struct dentry *dentry, struct vfsmount *mnt, 
int flags) 

633 { 

634 struct file * f; 

635 struct inode *inode; 

636 int error; 

637 

638 error = -ENFILE; 

639 f = get empty filp( ); 

640 if 0 

641 goto cleanup dentry; 

642 f—f flags = flags; 

643 f->f mode = (flags*1) & O ACCMODE; 

644 inode = dentry-?d inode; 

645 if (f-^f mode & FMODE WRITE) | 

646 error = get write access(inode); 

647 if (error) 

648 goto cleanup file; 

649 } 

650 

651 f—f dentry = dentry; 

652 f->f_vfsmnt = mnt; 

653 f->f_pos = 0; 

654 f—f reada = 0; 

655 f->f op = fops get (inode->i_fop) ; 

656 if (inode-^i sb) 

657 file move(f, &inode—^i sb-^s files); 
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658 if (f->f_op && f—f op->open) { 
659 error = £->f_op—>open (inode, f); 
660 if (error) 

661 goto cleanup_all; 

662 } 

663 ff flags &- ^(0 CREAT | O EXCL | O NOCTTY | O TRUNO) ; 
664 

665 return f; 

666 

667 cleanup all: 

668 fops put(f-^f op); 

669 if (f->f mode & FMODE WRITE) 
670 put write access (inode) ; 
671 f->f_dentry = NULL; 

672 f->f_vfsmnt = NULL; 

673 cleanup_file: 

674 put filp(f); 

675 cleanup dentry: 

676 dput (dentry) ; 

677 mntput (mnt) ; 

678 return ERR PTR(error); 

679 } 


ERE X. get empty. filp( ) 的 作用 就 是 分 配 一 个 空闲 的 file 数据 结构 。 内 核 中 有 一 个 字 闪 file 
结构 的 队列 free_list， 需 要 file 结构 时 就 从 该 队列 中 摘 下 一 个 ， 并 将 其 暂时 持 入 一 个 中 间 队 列 
anon_list。 在 确认 了 对 该 文件 可 以 进行 写 操作 以 后 ， 就 对 这 个 空闲 fle 结构 进行 初始 化 ， 然 后 通过 
file_move( ) 将 其 从 中 间 队 列 脱 链 而 挂 入 该 文件 所 在 设备 的 suber_block 结构 中 的 file 结构 队列 s_files。 

函数 get_write_access( ) 一 方面 检查 该 文件 是 否 内 内 存 映 射 而 不 允许 常规 的 写 访问 ， 另 一 方面 如 
果 人 允许 常 规 的 写 访问 就 递增 inode 结构 中 的 计数 器 i_writecount， 以 此 来 保证 常规 的 文件 写 访 问 与 内 
存 映射 的 文件 写 访问 之 间 的 互 斥 ， 其 代码 读者 已 在 前 面 看 到 过 。 

读者 已 经 熟知 ，file 结构 中 的 指针 f_op 指向 所 属 文件 系统 的 file_operations 数据 结构 。 这 个 指针 
就 是 在 这 里 设置 的 ， 而 具体 的 file_operations 结构 指针 则 来 自 相 应 的 inode 结构 。 但 是 ， 如 果 相 应 文 
件 系统 是 由 可 安装 模块 支持 的 就 沽 要 递增 该 模块 的 使 用 计数 。 这 里 的 fops_get( ) 是 个 宏 操 作 , 定义 于 


include/linux/fs.h: 


859 /* Alas, no aliases. Too much hassle with bringing module.h everywhere */ 
860 &define fops get(fops) \ 


861 (((fops) && (fops)—>owner) V 
862 ? ( try inc mod count((fops)-»owner) ? (fops) : NULL ) \ 
863 : (fops)) 


具体 的 文件 系统 还 可 能 对 打开 文件 有 - 些 特殊 的 附加 操作 , 如 果 有 就 通过 其 file operations 结构 
中 的 函数 指针 open 提供 .就 Ext2 文件 系统 而 言 , 这 个 函数 就 是 ext2_open_file( ), 其 代码 在 fs/exO/file.c 
中 : 
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[sys open( ) > filp_open( ) > dentry_open( ) > ext2_open_file( )] 


82 /* 

83 * Called when an inode is about to be open. 

84 * We use this to disallow opening RW large files on 32bit systems if 
85 * the caller didn’t specify O LARGEFILE. On 64bit systems we force 
86 * on this flag in sys open. 

87 */ 


88 static int ext2 open file (struct inode * inode, struct file * filp) 
89 { 


90 if (!(filp->f flags & O LARGEFILE) && 
91 jnode-^i size > Ox7FFFFFFFLL) 

92 return -EFBIG; 

93 return 0; 

94  ] 


大 家 知道 ，inode 结构 中 有 个 union, XF Ext2 文件 系统 这 个 union 被 用 作 ext2, inode. info 数据 
结构 。 在 这 个 数据 结构 中 有 个 字段 i_high_size， 当 文件 的 大 小 超过 32 位 整数 “2GB》 时 这 个 字段 的 
值 为 文件 大 小 的 高 32 位 。 如 果 文 件 的 大 小 真 的 超过 32 位 ， 则 在 系统 调用 open( ) 的 参数 中 要 将 一 个 
标志 位 O_LARGEFILE 置 成 1， 这 是 为 64 位 系统 结构 考虑 而 设置 的 。 在 inode 结构 中 另 有 - 个 表示 
文件 人 小 的 字段 i_size， 其 类 型 为 lo 任 tf， 实 际 上 是 long long， 即 64 位 整数 。 如 果 O LARGEFILE 
为 0， 则 文件 大 小 必须 小 于 2GB. 

最 后 ， 调 用 参数 中 的 O_CREAT, O_EXCL 等 标志 位 已 经 不 再 需要 了 ， 央 为 它们 只 是 对 打开 文 
件 有 作用 ， 侧 坝 在 文件 已 经 打开 ， 所 以 就 把 这 些 标志 位 清 0。 

函数 dentry_open( JR [PH T] Br V (0 file 数据 结构 的 指针 。 每 进行 一 次 成 功 的 open( ) 系 统 调用 
就 为 月 标 文件 建立 起 一 个 由 file 结构 代表 的 上 下 文 , 而 与 该 义 件 是 省 已 经 有 其 他 的 file 结构 无 关 。 一 
个 文件 在 内 核 中 只 能 有 一 个 inode 结构 ， 却 可 以 有 多 个 file 结构 。 

这 样 ,filp_open( ) 的 操作 就 完成 了 。 回 到 sys open ) 的 代码 中 ,下 面 还 有 个 inline ek) He. fd_install( ) 
的 作用 是 将 新 建 的 file 数据 结构 的 指针 “安装 ”到 当前 进程 的 file_struct 结构 中 ， 确 切 地 说 是 里 耐 
的 已 打开 文件 指针 数组 中 ， 其 位 置 即 下 标 纪 ， 已 经 在 前 面 分 配 好 。 该 inline 函数 的 代码 在 
include/linux/file.h F: 


[sys open( ) > fd_install( )] 


74 /水 

79 * Install a file pointer in the fd array. 

76 * 

TT * The VFS is full of places where we drop the files lock between 

78 x setting the open fds bitmap and installing the file in the file 

79 * array. At any such point, we are vulnerable to a dup2( ) race 

80 * installing a file in the array before us. We need to detect this and 
81 * fput( ) the struct file we are about to overwrite in this case. 

82 * 

83 * It should never happen - if we allow dup2( ) do it, | really bad things 
84 * will follow. 
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OO 
85 */ 
86 
87 static inline void fd install(unsigned int fd, struct file * file) 
88 f 


89 struct files struct *files = current->files: 
90 

91 write lock(&files— file lock); 

92 if (filesOfd[fd]) 

93 BUG( ) ; 

94 files-^fd[fd] = file; 

95 write unlock(&files-^file lock); 

96 } 


代码 的 作者 加 了 注释 ， 说 明 为 什么 不 是 简单 地 将 指针 fle 填 入 数组 中 指定 的 位 置 上 ， 而 要 通过 
xchg( ) 把 这 个 位 置 上 原 有 的 内 容 交 换 出 来 。 如 果 交换 出 来 的 指针 非 0 就 说 明 已 经 有 个 file 结构 指针 在 
这 个 位 置 上 ， 所 以 要 通过 fpu ) 将 其 释放 。 从 此 ， 当 前 进程 与 月 标 文件 之 间 就 建立 起 了 连接 ， 可 以 
道 过 这 个 特定 的 上 下 文 访问 该 日 标 文件 了 。 

看 完了 sys_open( ) 的 主体 ， 我 们 还 鉴 回 过 头 去 看 一 下 vfs_create( ) 的 代码 ， 当 系统 调用 open( ) 的 
参数 中 O, CREAT 标志 位 为 1, 而 目标 文件 又 不 存在 时 ,就 要 通过 这 个 函数 来 创建 ,其 代码 在 fs/namei.c 
ib; 


[sys open( ) > filp open( ) > open, namei( ) > vfs create( )] 


898 int vfs create(struct inode *dir, struct dentry *dentry, int mode) 


899 { 

900 int error; 

901 

902 mode &- S IALLUGO & ^current-^fs-^umask; 
903 mode {= S IFREG; 

904 

905 down(&dir-^i zombie); 

906 error = may create(dir, dentry) ; 

907 if (error) 

908 goto exit lock; 

909 

910 error = -EACCES; /* shouldn't it be ENOSYS? */ 
911 if (ldir->i op || !dir->i_op->create) 
912 goto exit lock; 

913 

914 DQUOT. INIT (dir); 

915 lock kernel( ) ; 

916 error = diri op-^create(dir, dentry, mode): 
917 unlock kernel( ); 

918 exit lock: 

919 up (&dir->i zombie); 

920 if (lerror) 
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921 inode dir notify(dir, DN CREATE); 
922 return error; 
923 ] 


参数 dir 指向 所 在 目录 的 inode 结构 ， 而 dentry 则 指向 待 创建 文件 的 dentry 结构 。 但 是 ， 此 时 待 

创建 文件 尚 无 inode 结构 ， 所 以 其 dentry 结构 中 的 d_inode 指针 为 0， 这 样 的 dentry 结构 称 为 是 
“negative” 的 dentry 结构 。 

每 个 进程 都 有 个 “文件 访问 权限 屏蔽 ”umask， 记 录 在 其 fs. struct 结构 中 (task_struct 结构 中 的 
指针 fs 指向 这 个 数据 结构 )。 这 是 一 些 对 于 文件 访问 权限 的 屏蔽 位 ， 其 格式 与 表示 文件 访问 权限 的 
mode 相同 。 如 果 umask 中 的 某 一 位 为 1, 则 由 此 进程 所 创建 的 文件 就 把 相应 的 访问 权限 “ 屏 南 ” 掉 。 
例如 ; 如 果 :个 进程 的 umask 为 077， 则 由 它 所 创建 的 文件 只 能 出 文件 主 使 用 ， 因 为 对 同 组 人 及 其 
他 用 户 的 访问 权限 全 给 屏蔽 掉 了 。 进 程 的 umask 代 代 相传 ， 但 是 可 以 通过 系统 调用 umask( ) 加 以 改 
变 。 代 码 中 第 902 行 和 第 903 行 说 明了 怎样 根据 调用 参数 mode 和 进程 的 umask 确定 所 创建 文件 的 
访问 模式 。 这 里 的 常数 S IALLUGO 定义 见 文件 incluce/linux/stat.h: 


20 #define S ISUID 0004000 
21 #define S ISGID 0002000 
22 #define S ISVTX 0001000 


50 Hdefine S IRWXUGO — (S IRWXU|S IRWXG|S 1RWXO) 
51 define S TIALLUGO  (S_ISUID|S_TSGID|S_ISVTX‘S_IRWXUGO) 





这 些 标志 位 的 意义 都 已 在 “文件 系统 的 访问 权限 与 安全 性 ”一 节 中 介绍 过 。 

不 言 而 喻 ， 创 建文 件 时 要 改变 其 所 在 目录 的 内 容 。 这 个 过 程 不 容许 受 其 他 进程 打扰 ， 所 以 费 放 
在 临界 区 中 完成 。 为 此 目的 ， 在 inode 数据 结构 中 提供 了 一 个 信号 量 i_zombie。 进 入 临界 区 后 ， 先 要 
检查 当前 进程 的 权限 ， 看 看 是 否 允许 在 所 在 的 自 录 中 创建 文件 。 代码 中 的 may_create( ) 是 个 inline K 
数 ， 其 代码 存 fs/namei.c P: 


[sys_open( ) > filp open( ) > open_namei( ) > vfs create( ) > may_create( )] 


* 


860 / Check whether we can create an object with dentry child in directory 


861 * dir. 

862 * 1. We can t do it if child already exists (open has special treatment for 
863 * this case, but since we are inlined it's OK) 

864 * 2. We can’t do it if dir is read-only (done in permission( )) 

865 * 3. We should have write and exec permissions on dir 

866 * 4. We can't do it if dir is immutable (done in permission( )) 

861 */ 

868 static inline int may create(siruct inode *dir, struct dentry *child) { 
869 if (child->d_inode) 

870 return -EEXTST; 

871 if (IS_DEADDIR (dir) ) 

872 return —ENOENT; 

873 return permission(dir, MAY WRITE | MAY_EXEC) ; 

874 } 
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这 里 IS_DEADDIR( ) 检 查 目 标 文件 所 在 的 目录 是 否 实际 上 已 被 删除 ， 其 定义 见 文 件 


include/linux/fs.h: 
129 #define S DEAD (1<<16) /* removed, but still open directory */ 
159 #define IS DEADDIR(inode) ((inode)— i flags & S DEAD) 


删除 文件 时 ， 蓝 将 所 在 日 录 inode 结构 中 i flags 字段 的 S_ DEAD 标志 位 设 成 1。 但是， 如 果 当 


时 其 dentry 结构 和 inode 结构 的 共享 计数 不 能 递 降 到 0 则 不 能 将 这 两 个 数据 结构 释放 。 所 以 ， 存 在 
着 这 样 - -种 可 能 性 ， 就 是 在 当前 进程 通过 path_walk( ) 找 到 了 所 在 目录 的 dentry 结构 和 inode 结构 之 
后 ， 在 试图 进入 由 信号 量 i_zombie 构成 的 临界 区 时 进入 了 苦 眠 ， 而 此 时 正在 临界 区 中 的 另 … 个 进程 
却 删除 了 这 个 目录 。 不 过 ，… 晶 当前 进程 进入 了 临界 区 以 后 ， 就 再 水 会 发 生 这 种 情况 了 。 


通过 了 访问 权限 的 检验 以 后 ， 有 具体 创 建文 件 的 操作 则 因 文件 系统 而 异 ， 每 种 文件 系统 都 遂 过 其 


inode operations 结构 提供 用 于 创建 文件 的 函数 。 就 Ext2 文件 系统 而 言 ， 这 个 函数 为 ext2_create( )， 
是 在 fs/ext2/namei.c 中 定义 的 : 


[sys open( ) > filp open( ) > open_namei( ) > vfs create( ) > ext2, create( )] 


354 
355 
356 
357 
358 
359 
360 
361 
362 
363 
364 
365 
366 
367 
368 
369 
370 
371 
372 
373 
374 
375 
376 
377 
378 
379 
380 
381 


/* 


S 


{ 


* By the time this is called, we already have created 
* the directory cache entry for the new file, but it 


* is so far negative - it has no inode. 

* 

* [f the create succeeds, we fill in the inode information 
* with d instantiate( ). 

*/ 


tatic int ext2 create (siruct inode * dir, struct dentry * dentry, int mode) 


struct inode * jnode = ext2 new inode (dir, mode); 
int err = PTR ERR(inode); 
if (IS ERR(inode)) 

return err; 


inode-^i op = &ext2 file inode operations; 
inode-^i fop = &ext2 file operations; 
inode-^i mapping-^5a ops = &ext2 aops; 
inode->i mode = mode; 
mark inode dirty (inode) : 
err = ext2 add entry (dir, dentry->d_name. name, dentry->d_name. len, 
inode) ; 

if (err) { 

inode-^i nlink--; 

mark inode dirty (inode) : 

iput (inode) : 

return err; 
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382 
383 
384 


结构 
件 ) 
中 的 
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d_instantiate (dentry, inode): 
return 0; 


} 


简 音 之 ， 就 是 通过 ext2_new_inode( ) 创 建 日 标 文件 在 在 储 设备 上 的 索引 节点 和 在 内 存 中 的 inode 
， 然 后 通过 ext2_add_entry() 把 目标 文件 的 文件 名 与 索引 节点 号 写 入 其 所 在 的 月 录 〈 也 是 一 个 文 
中 ， 最 后 帆 d_instantiate( ) 将 日 标 文 件 的 dentry 结构 和 inode 结构 联系 在 -起 。 注 意 inode 结构 
i op 和 i_fop 虎 个 重要 指针 都 是 在 这 申 设 置 的 ， 还 有 其 a_ops 所 指 的 address. space 结构 中 的 指 


针 a ops 也 是 在 这 里 设置 的 。 


先 看 ext2_new_inode( )， 其 代码 在 fs/ext2/ialloc.c 中 。 因 为 比较 长 ， 我 们 分 段 来 看 。 


[sys_open( ) > filp open( ) > open namei( ) > vfs create( ) > ext2_create( ) > ext2. new. inode( )] 


249 
250 
251 
252 
253 
254 
255 
256 
251 
258 
209 
260 
261 
262 
263 
264 
265 
266 
267 
268 
269 
210 
271 
272 
273 
274 
275 
276 
277 
278 
279 
280 


/* 

* There are two policies for allocating an inode. If the new inode is 

* a directory, then a forward search is made for a block group with both 
* free space and a low directory-to-inode ratio; if that fails, then of 
* the groups with above-average free space, that group with the fewest 

* directories already is chosen 

来 

* For other inodes, search forward from the parent directory\ s block 

* group to find a free inode. 


*/ 
struct inode * ext2 new inode (consi struct inode * dir, int mode) 
{ 
struct super block * sb; 
struct buffer head * bh; 
struct buffer head * bh2; 
int i, i, avefreel; 
struct inode * inode; 
int bitmap nr; 
struct ext2 group desc * gdp; 
struct ext2 group desc * tmp; 
struct ext2 super block * es; 
int err; 


/* Cannot create files in a deleted directory */ 
if (dir !| !dir-^i nlink) 
return ERR PTR(-EPERM) ; 


sb = diri sb; 
inode = new inode(sb); 
if (!inode) 
return ERR PTR(-ENOMEM) ; 


参数 dir 指向 所 在 日 录 的 inode 结构 ， 这 个 结构 中 的 i_nlink 表示 有 用 个 月 录 项 与 这 个 inode 结构 
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HKA. 
相对 而 言 ， 在 内 存 中 分 配 一 个 inode 结构 是 比较 简单 的 ， 这 里 的 new. inode( ) 是 个 inline 函数 ， 
定义 于 include/linux/fs.h. 


1192 static inline struct inode * new inode(struct super block xb) 
1193. ( 

1194 struct inode *inode = get empty inode( ); 

1195 if (inode) { 

1196 inode->i_sb = sb; 

1197 inode->i_dev = sh->s_dev; 

1198 } 

1199 return inode; 

1200 } 


函数 get empty inode( ) 将 分 配 的 空白 inode 结构 挂 入 内 核 中 的 inode_in_use BAY), HARE Tr 
fsinode.c 中 ， 我 们 把 它 留 给 读者 自己 阅读 。 

一 步 要 做 的 是 为 目标 文件 在 存储 设备 上 分 和 贞 一 个 索引 节点 。 函 数 ext2_new_inode( ) 并 不 是 单 
纯 用 米 创 建 普通 文件 的 ， 它 也 用 来 创建 目录 当然， 目录 实 际 上 也 是 文件 ， 但 是 毕竟 有 些 不 同 ， 目 
录 是 通过 mkdir( ) 系 统 调 用 创建 的 )。 实 际 上 ， 调 用 这 个 函数 的 地 方 不 光 是 ext2_create( )， 还 有 
ext2_mknod( )、ext2_mkdir( ) 以 及 ext2_symlink( )。 代 码 的 作者 在 函数 的 前 面 加 了 注释 ， 说 对 丁 日 录 
和 普通 文件 采取 了 不 同 的 分 配 策略 。 下 面 读者 就 会 具体 看 到 。 

以 前 讲 过 ， 现 代 的 块 设 备 通常 者 是 很 人 的 。 为 了 提高 访问 效率 ， 就 把 存储 介质 划分 成 许多 “ 块 
4". - 般 米 说 ,文件 就 应 该 与 其 所 在 有 录 存 储 在 同一 个 块 组 中 ， 这 样 才能 提高 效率 。 另 一 方面 ， 文 
件 的 内 容 和 文件 的 索引 节点 也 应 存储 在 同一 块 组 中 ， 所 以 在 创建 文件 系统 (格式 化 》 时 已 经 注意 到 
了 每 个 块 组 在 索引 节点 和 记录 块 数量 之 间 的 比例 ， 这 个 比例 是 从 统计 信息 得 来 的 ， 取 决 于 平均 的 文 
件 大 小 。 此 外 ， 根 据 统计 ， 每 “个 块 组 中 平均 有 多 少 个 日 录 ， 也 就 是 说 每 个 日 录 中 平均 有 多 少 文件 ， 
EKA 上 有 个 比例 。 所 以 ， 如 果 要 创建 的 是 文件 ， 就 应 该 首先 考虑 将 它 的 索引 节点 分 本 在 其 所 在 目 
录 所 处 的 块 组 中 。 向 如 果 疲 创建 的 是 口 录 ， 则 此 考虑 将 来 是 否 能 将 其 属 下 的 文件 部 容纳 在 同一 块 组 
中 ， 所 以 应 该 找 一 个 其 空闲 索引 节点 的 数量 赵 过 整个 设备 上 的 平均 人 这 么 个 块 组 ， 而 不 惜 离开 其 
父 节 点 所 在 的 块 组 “另起炉灶 ”。 了 人 解 了 这 些 背 景 ,读者 应 该 可 以 读 懂 下面 这 段 程 序 了 。 注意 282 行 
使 指针 es 指向 该 文件 系统 超级 块 的 缓冲 区 。 治 着 ext2_new_inode( ) 继 续 往 下 看 〈ialloc.c: ): 


[sys_open( ) > filp open( ) > open namei( ) > vfs create( ) > ext2_create( ) > ext2, new. inode( )] 


281 lock super (sb); 
282 es = sh->u. cxt2_sb.s es; 
283 repeat: 
284 gdp = NULL; i=0: 
285 
286 if (S ISDIR(mode)) | 
. 287 avefreei = le32 to cpu(es—s free inodes count) / 
288 Sb-^u. extZ sb.s groups count; 
289 /* I am not yet convinced that this next bit is necessary. 
290 i = dir >uext2 i.i block group; 
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291 
292 
293 
294 
295 
296 
297 
298 
299 
300 
301 
302 
303 
304 
305 
306 
307 
308 
309 
310 
311 
312 
313 
314 
315 
316 
317 
318 
319 
320 
321 
322 
323 
324 
325 
326 
327 
328 
329 
330 
331 
332 
333 
334 
335 
336 
337 
338 
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for (j = 0: j < sb-u.ext2 sb.s groups count; j++) { 
tmp - ext2 get group desc (sb, i, &bh2); 
if (tmp && 
(lel6 to cpu(tmp-»bg used dirs count) << 8) < 
lei6 to cpu(tmp-^bg free inodes count)) { 
gdp = tmp; 
break: 
} 
else 
i = ++i % sb->u. ext2 sb.s groups count; 
) 
*/ 
if (edp) { 
for (j = 0; j < sb->u. ext2_sb.s_groups_count; j++) { 
tmp = ext2 get group desc (sb, j, &bh2); 
if (tmp && 
lel6 to cpu(imp-^bg free inodes count) && 
lel6 to cpu(tmp— bg free inodes count) >=avefreei) { 
if (!gdp || 
(lel6_to_cpu(tmp->bg free blocks count) > 
lel6 to cpu(gdp-^bg free blocks count))) { 
jme 
gdp = tmp; 


/* 
* Try to place the inode in its parent directory 
*/ 
i = dir-?u.ext2 i.i block group; 
tmp - ext2 get group desc (sb, i, &bh2); 
if (tmp && lel6 to cpu(tmp- bg free inodes count)) 
gdp = tmp; 
else 
{ 
/* 
* Use a quadratic hash to find a group with a 
* free inode 
*/ 
for (j= L; j € sb->u.ext2_sb.s_ groups count; j <<= 1) { 
Lone J 
if (i >= sb-^u.ext2 sb.s groups count) 
i -= sb ?u.ext2 sb.s groups count; 
tmp = ext2 get group desc (sb, i, &bh2); 
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339 if (tmp && 

340 lel6 to cpu(tmp-^bg free inodes count)) { 
341 gdp = tmp; 

342 break; 

343 } 

344 } 

345 } 

346 if (!gdp) { 

347 /* 

348 * That failed: try linear search for a free inode 
349 */ 

350 i = dir->u. ext2 i.i block group + l; 

351 for (j = 2: j < sb->u. ext2 sb. s groups count; j++) { 
352 if (++i >= sb->u. ext2_sb. s groups count) 

353 i= 0; 

354 tmp = ext2 get group desc (sb, i, &bh2); 

355 if (tmp && 

356 lel6 to cpu(tmp->bg free inodes count)) { 
357 gdp = tmp; 

358 break; 

359 ] 

360 } 

361 } 

362 } 

363 

364 err = -ENOSPC; 

365 if (!gdp) 

366 goto fail; 

367 

368 err = -ETO; 

369 bitmap nr = load inode bitmap (sb, i); 

370 if (bitmap nr < 0) 

371 goto fail; 

372 


对 于 所 创建 日 标 为 日 录 的 情景 ， 代 码 作 者 (不 知 是 否 原 作者 ) 18290 17 301 fTEIRHEBLT , 
说 不 相信 这 是 有 必要 的 。 不 过 ， 依 我 们 看 这 倒是 有 好 处 的 : 如 果 一 个 块 组 里 县 录 的 数量 与 空闲 索引 
节点 的 数量 之 比 小 于 1/256 (A 293 行 )， 则 所 创建 日 好 (不 包括 其 子 自 录 〉 能够 容纳 在 这 个 块 组 里 
的 概率 应 该 是 很 高 的 。 这 样 做 也 有 利于 减少 “另起炉灶 ”的 次 数 ， 而 让 子 目录 尽量 留 在 父 目 录 所 在 
的 块 组 里 。 

确定 了 将 索引 节点 分 配 在 哪 “个 块 组 中 以 后 ， 就 要 从 该 块 组 的 索引 和 节点 位 图 中 分 配 一 个 节点 了 
Galloc.c; )。 


[sys open( ) > filp open( ) > open. namei( ) > vfs create( ) > ext2, create( ) > ext2_new_inode( )] 


373 bh = Sb->u, ext2_sb. s_inode bitmap[bitmap nr]; 
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374 if ((j = ext2 find first zero bit ((unsigned long *) bh-^b data, 
375 EXT2 INODES PER GROUP(sb))) < 

376 EXT2 INODES PER GROUP(sb)) { 

377 if (ext2 set bit (j, bh->b_data)) { 

378 ext2 error (sb, "ext2 new inode", 

379 "bit already set for inode %d”, j); 
380 goto repeat; 

381 } 

382 mark buffer dirty (bh); 

383 if (sb->s flags & MS SYNCHRONOUS) { 

384 1l rw block (WRITE, 1, &bh); 

385 wait on buffer (bh); 

386 } 

387 } else { 

388 if (lel6 to cpu(gdp—>bg free inodes count) != 0) { 
389 ext2 error (sb, "ext2 new inode”, 

390 "Free inodes count corrupted in group "d^, 
391 i); 

392 /* Is it really ENOSPC? */ 

393 err - -ENOSPC; 

394 if (sb->s flags & MS RDONLY) 

395 goto fail; 

396 

397 gdp-^bg free inodes count = 0; 

398 mark buffer dirty (bh2) ; 

399 } 

400 goto repeat; 

401 } 


在 前 一 节 中 提 到 过 ，super_block 内 的 ext2_sb_info 结构 中 有 一 个 索引 节点 位 图 缓冲 区 的 指针 数 
组 ， 用 来 缓冲 存储 若干 个 块 组 的 位 图 。 当 尖 要 使 用 荣 个 块 组 的 索引 节点 位 图 时 ， 就 先 在 这 个 数 弓 中 
找 ， 若 找 不 到 再 从 设备 上 把 这 个 块 组 的 位 图 读 入 缓冲 区 中 ， 并 让 该 数组 中 的 革 个 指针 指向 这 个 缓冲 
K. 这 是 由 load. inode bitmap( ) 完 成 的 ， 其 代码 也 在 fs/ext2/ialloc.c 中 ， 我 们 把 它 留 给 读者 白 己 阅读 。 

取得 了 日 标 块 弓 的 索引 节点 位 图 以 后 ， 就 遂 过 ext2 find first zero. bit( ) 从 位 图 中 找到 一 位 仍然 
为 0 的 位 ， 也 就 是 找到 一 个 空闲 的 索引 节点 。 - 般 情 况 下 ， 这 是 不 会 失败 的 ， 因 为 该 块 组 的 描述 结 
构 已 经 告诉 我 们 有 空闲 节点 。 

所 谓 从 位 图 中 分 配 一 个 索引 节点 ， 就 是 通过 ext2 set bit( ) 将 其 对 应 位 设置 成 |。 这 是 一 个 宏 操 
作 ， 定 义 于 include/asm-i386/bitops.h 


248 define ext2 set bit | test and set bit 


也 就 是 说 , ext2, set. bit( ) 一 方面 将 位 图 中 的 某 一 位 设 成 1, 另 一 方面 还 检查 这 位 原来 是 省 为 1， 
如 果 越 就 说 明 有 了 冲突 ， 因 而 坚 goto 转 同 到 标号 repeat TSR. AM, WR VIA, Bol 
点 的 分 配 就 成 功 了 ， 此 时 要 立即 把 该 索引 节点 所 住 记录 块 的 缓冲 区 标志 成 “ 脏 ”。 如 果 super block 
结构 的 s_flags 中 的 MS_SYNCHRONOUS 标志 位 为 !， 则 立即 要 道 过 11_rw_block( ) 把 改变 了 的 记录 
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块 写 同 磁盘 并 等 待 其 完成 。 函数 1_rw_block( ) 的 代码 在 drivers/block/ll rw. blk.c 中 , 这 已 经 是 属于 设 
备 驱动 层 的 内 容 了 ， 所 以 我 们 把 它 留 给 下 册 块 设备 驱动 一 章 。 

但 是 ， 尽 管 块 组 的 描述 结构 告诉 我 们 有 空闲 节点 ，ext2_find_first_zero_bit( ) 还 是 有 可 能 失败 ， 因 
为 块 组 的 描述 结构 有 可 能 已 经 损坏 了 ， 这 往往 发 牛 在 机 器 在 运行 时 中 途 断 电 ， 或 者 用 户 不 按 规定 程 
序 关机 的 情况 下 。 通 常 在 这 种 情况 发 生 后 再 次 开机 时 系统 会 检测 到 文件 系统 “不 干净 ”而 强制 进行 
一 次 文件 系统 检验 fsck)。 并 日 ， 作 为 安全 措施 ， 让 一 个 文件 系统 顺利 安装 了 一 定 次 数 之 后 也 要 进 
行 一 次 例 行 的 检验 。 但 尽管 这 样 还 是 可 能 会 有 漏网 之 鱼 ， 所 以 遇 有 块 组 描述 结构 中 的 信息 与 索引 节 
点 位 图 不 - - 致 时 便 说 明 块 组 已 经 损坏 ， 该 文件 系统 已 经 不 “: 致 了 。 如 果 发 生 了 这 样 的 情况 〈 存 位 图 
中 找 不 到 空闲 的 索引 节点 )， 那 就 只 好 和 髓 找 其 他 块 组 ， 所 以 《400 行 ) 通过 goto 语句 转 回 标号 repeat 
处 再 来 一 次 。 

至 此 ， 变 量 i 表 泵 块 组 号 ， 而 j 表示 所 分 配 的 索引 节点 在 本 块 组 位 图 中 的 序号 ， 根 据 这 二 者 可 以 
算出 该 节点 在 整个 设备 (文件 子 系统 ) 中 的 索引 节点 号 。 我 们 继续 往 下 看 : 


[sys_open( ) > filp_open{ ) > open_namei( ) > vfs create( ) > ext2_create( ) > ext2_new_inode( )] 


402 j += i * EXT2 INODES PER GROUP(sb) + 1: 

403 if (j < EXT2 FIRST INO(sb) || j > 1e32 to cpu(es-^s inodes count)) { 
404 ext2 error (sb, "ext2 new inode’, 

405 "reserved inode or inode > inodes count - ^ 

406 "block group = %d, inode=%d”, i, j); 

407 err - -EIO; 

408 goto fail; 

409 ) 

410 gdp-^bg free inodes count = 

411 cpu_to_lel6(lel6_to_cpu(gdp->bg_free_inodes count) - 1); 
412 if (S ISDIR(mode)) 

413 gdp->bg used dirs count = 

414 cpu to lel6(l1el6 to cpu(gdp- bg used dirs count) + 1); 
415 mark buffer dirty(bh2); 

416 es-^s free inodes count = 

417 cpu to 1e32(1e32 to cpu(es—s free inodes count) - 1); 
418 mark buffer dirty(sb-5u.ext2 sb.s sbh); 

419 sb-^s dirt = I; 

420 inode-^i mode - mode; 

421 inode-^i uid = current->fsuid: 

422 if (test opt (sb, GRPID)) 

423 inode->i_gid = dir-^i gid; 

424 else if (dir-^i mode & S ISGID) { 

425 inode-^i gid = dir->i gid; 

426 if (S ISDIR(mode)) 

427 mode |= S ISCID; 

428 } else 

429 inode-^i gid = current-^fsgid; 

430 

431 inode-^i ino = j; 
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432 inode— i blksize = PAGE SIZE; /* This is the optimal IO size 
(for stat), not the fs block size */ 

433 inode->i_blocks = 0; 

434 inode->i_mtime = inode->i atime = inode->i ctime = CURRENT TIME; 

435 inode- >u. ext2_i. i_new_inode = 1; 

436 inode->u. ext2 i.i flags = dir->u. ext2 i.i flags; 

437 if (S ISLNK (mode) ) 

438 inode->u. ext2 i.i flags &- "(EXT2 IMMUTABLE FL | EXT2 APPEND FL); 

439 inode-^u.ext2 i.i faddr = 0; 

440 inode->u. ext2 i.i frag no = 0; 

441 inode-^u.ext2 i.i frag size = 0; 

442 inode->u. ext2 i.i file acl = 0; 

443 inode-»u.ext2 i.i dir acl = 0; 

444 inode->u. ext2 i.i dtime = 0; 

445 inode->u. ext2 i.i block group = i; 

446 if (inode-?u.ext2 i.i flags & EXT2, SYNC FL) 

447 inode->i flags |= S SYNC; 

448 insert_inode_hash (inode) ; 

449 inode->i_generation = eventt+; 

450 mark inode_dirty (inode) ; 

451 

452 unlock_super (sb) ; 

453 if (DQUOT ALLOC INODE(sb, inode)) { 

454 sb- >dq_op->drop (inode) ; 

455 inode->i nlink = 0; 

456 iput (inode) ; 

457 return ERR PTR(-EDQUOT) ; 

458 } 

459 ext2 debug (“allocating inode %lu\n”, inode ^i ino); 

460 return inode; 

461 

462 fail: 

463 unlock super (sb); 

464 iput (inode); 

465 return ERR PTR(err): 

466  ] 


分 配 了 空闲 索引 节点 后 ， 还 要 对 其 节点 号 作 一 次 检查 。Bxt2 文件 系统 可 能 保留 最 初 的 存 干 索引 
节点 不 用 , 此 外 超级 块 中 的 s_inodes_count 也 可 能 与 各 块 组 中 索引 节点 的 总 和 不 一 致 (通常 发 生存 用 
户 使 用 工具 对 超级 块 进行 了 某 种 修补 以 后 )。 

下 面 就 是 对 块 组 描述 结构 和 超级 块 中 数据 的 调整 ， 以 及 对 新 建立 的 inode 结构 的 初始 化 了 。 读 者 
应 注意 对 新 创建 文件 〈 或 月 录 ) 的 用 户 号 uid 和 组 号 gid 的 设置 。 首 先 ， 新 创 文件 的 uid 并 不 起 当 前 
进程 的 wid， 而 是 它 的 fsuid。 也 就 是 说 ， 如 果 当 前 进程 是 因为 执行 一 个 suid 可 执行 程序 而 成 为 超级 
用 户 的 ， 那 么 它 所 创建 的 文件 属于 超级 用 户 (uid 为 0)。 或 者 ， 如 果 当 前 进程 通过 设置 进程 的 用 户 号 
转 到 了 另 一 个 用 户 的 名 下 , 那么 它 所 创建 的 文件 也 就 属于 当前 进程 此 时 实际 使 用 的 用 户 写 , 好 fsuid。 
组 号 的 情况 也 与 此 类 似 。 但 是 安装 文件 系统 时 可 以 设置 一 个 GRPID 标志 位 ,使 得 在 该 文件 系统 中 新 
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创 文件 时 使 用 其 所 在 目录 的 gid， 而 不 管 当前 进程 的 fsgid 起 什么 。 或 者 ， 如 果 虽 然 GRPID 标志 位 为 
0, 但是， 所 在 目录 的 模式 中 的 S ISGID 标志 为 1， 也 就 继承 其 所 在 日 录 的 gido 

然后 将 新 的 inode 结构 链 入 到 inode_hashtable 中 的 某 个 杂凑 队列 里 ，insert_ionde_hash( ) 的 代码 
在 fs/inode.c P: 


[sys open( ) > filp open( ) > open. namei( ) > vfs create( ) > ext2, create( ) > ext2_new_inode( ) > 
insert inode hash( )] 


796 /** 

797 * insert inode hash - hash an inode 

798 * @inode: unhashed inode 

799 * 

800 * Add an inode to the inode hash for this superblock. If the inode 
801 * has no superblock it is added to a separate anonymous chain. 
802 */ 

803 

804 void insert inode hash(struct inode *inode) 

805 { 

806 struct list head *head = &anon hash chain; 

807 if (inode->i sb) 

808 head = inode hashtable + hash(inode-^i sb, inode-^i ino); 
809 spin lock(&inode lock); 

810 list add(&inode-^i hash, head); 

811 spin unlock(&inode lock); 

812. ] 


索引 全 点 号 只 在 同 设 备 上 保持 惟一 性 ， 所 以 在 杂凑 计算 时 将 所 在 设备 的 super. block 结构 的 地 
址 也 一 起 计算 进去 ， 以 保证 其 全 系统 范围 的 惟一 性 。 

由 于 我 们 并 不 关心 设备 上 存储 空间 的 配额 问题 ，ext2_new_inode( ) 的 操作 就 完成 了 。 回 到 
ext2_create( ) 的 代码 中 ， 接 痢 是 设置 新 创 inode 结构 中 的 inode operations 结构 指针 和 file operations 
结构 指针 ， 还 有 用 于 文件 映射 (至 虚 存 内 间 中 ) 的 address space operations 结构 指针 ， 使 它们 一 一 
指向 由 Ext2 文件 系统 提供 的 相应 数据 结构 。 这 样 ， 对 这 个 新 建文 件 ，VFS 层 与 Ext2 层 之 间 的 界面 
就 设置 好 了 。 这 些 指针 决定 了 对 该 文件 所 作 的 一 些 文件 操作 要 通过 由 Ext2 文件 系统 所 提供 的 函数 米 
完成 。 

至 此 ， 新 文件 的 索引 节点 已 经 分 配 ， 内 核 中 的 inode 数据 结构 也 已 经 建立 并 设置 好 。 山 于 新 的 
inode 已 经 通过 mark_inode_dirty( ) 设 置 成 “ 脏 ”, 并 从 杂凑 队列 转移 到 了 super. block 结构 中 的 s_dirty 
队列 里 ， 这 样 内 核 就 会 (在 适当 的 时 机 把 这 个 inode 结构 的 内 容 写 回 设备 上 的 索引 节点 ， 因 此 可 以 
认为 文件 本 身 的 创建 已 经 完成 了 。 但 是， 尽管 如 此 ， 这 个 文件 还 只 是 一 个 “孤岛 ” 通 向 这 个 文件 的 
路 径 还 不 存在 。 所 以 ， 回 刘 ext2 create( ) 中 ， 下 一 步 是 要 在 该 文件 所 在 的 日 录 中 增加 一 个 目录 项 ， 
使 新 文件 的 文件 名 与 其 索引 节点 号 挂 上 钧 并 出 现在 日 录 中 ， 从 而 建立 起 通 向 这 个 文件 的 路 径 ， 这 是 
由 ext2_add_entry( ) 完 成 的 ， 其 代码 在 fs/ext2/namei.c 中 。 如 前 所 述 ， 目 订 实 际 上 也 是 文件 ， 所 以 在 
目录 中 增加 一 个 目录 项 的 操作 就 与 普通 文件 的 读 / 写 很 相似 ， 我 们 建议 读者 在 学 习 了 下 一 节 “ 文 件 
的 读 与 写 ” 以 后 问 过 头 来 自己 读 一 下 这 段 代码 。 

最 后 ， 还 要 让 新 建文 件 的 dentry 结构 (在 open. namei( ) 中 由 lookup_hash( ) 创 建 ) 与 inode 结构 之 
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(aude Ef, EH d_instantiate( ) 完 成 的 ， 其 代码 已 在 前 面 读 过 了 。 

eK ext2_create( ) 执 行 完毕 以 后 ，vfs_create( ) 的 任务 也 就 完成 了 。 

看 完了 文件 的 打开 ， 再 来 看 看 义 件 的 关闭 。 系 统 调用 close( ) 是 由 内 核 中 的 sys_close( ) 实 现 的 ， 
有 关 的 代码 基本 上 都 在 fs/open.c H: 


810 /* 

811 * Careful here! We test whether the file pointer is NULL before 
812 * releasing the fd. This ensures that one clone task can’t release 
813 * an fd while another clone is opening it 

814 */ 

815 asmlinkage long sys close(unsigned int fd) 

816 { 

817 struct file * filp; 

818 struct files struct *files = current—>files; 
819 

820 write lock (&files—>file_lock) ; 

821 if (fd >= files->max_fds) 

822 goto out_unlock; 

823 filp = files>fdlfd]; 

824 if (!filp) 

825 goto out unlock; 

826 files->fd[fd] = NULL; 

827 FD CLR(fd, files-^close on exec); 

828 | put unused fd(files, fd); 

829 write unlock (&files->file lock); 

830 return filp close(filp, files); 

831 

832 out unlock: 

833 write unlock(&files-^file lock); 

834 return —EBADF; 

835 1j 


代码 中 FD. CLR 以 及 有 关 的 宏 操 作 定义 如 下 ， 分 别 在 time.h 和 asm-i386/posix_types-h 中 : 


109 #define FD CLR(£d, fdsetp) _ FD CLR(£d, fdsetp) 


55 define FD CLR(fd, fdsetp) V 
56 | asm volatile  ("btr] 981,90": \ 
57 “=m” (*( kernel fd set *) (fdsetp)):'r" ((int) (fd))) 


它 将 位 图 files-close. on. exec 中 序 写 为 fd 的 圭一 位 清 成 0。 
函数 __put_unused_fd( ) 的 代码 在 fs/open.c H: 


{sys_close( ) > ... put unused fd( )] 
58 static inline void . put unused fd(struct files struct *files, 
unsigned int fd) 
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597 { 

60 FD CLR (fd, files-^open fds); 
61 if (fd < files next fd) 

62 files—next fd = fd; 

63 ] 


代码 的 作者 在 sys close ) 的 注释 中 讲述 了 企 释 放 打开 文件 号 之 前 先 检 查 与 其 对 应 的 file 结构 指 
tt filp 是 省 为 0 的 重要 性 。 方面 这 在 因 为 在 打开 文件 时 分 配 打开 文件 号 在 前 ， 而 “安装 ”file 结构 
指针 在 最 后 【〈 见 sys open ) 的 代码 )。 另 “方面 ，， 个 进程 在 fork 子 进程 时 可 以 选择 让 子 进程 共享 而 
Nie “Ak” CHAU, AE files_srtuct 结构 。 这 样 ， 如 果 两 个 进程 共享 同 -个 file struct 结构 ， 
其 中 一 个 进程 正在 打开 文件 ， 已 经 分 配 了 打开 文件 号 ， 但 是 尚未 安装 file MIRE, Ma EAE 
却 在 中 途 挤 进 米 关闭 这 个 “已 打开 文件 ”和 而 释放 了 这 个 打开 文件 号 ， 那 当然 会 造成 问题 。 

然后 ， 就 像 sys_open( ) 的 主体 是 filp open( ) “FF, sys_close( ) 的 主体 也 是 filp_close( )， 其 代码 
也 在 fs/open.ck 中 : 


[sys_close( ) > filp_close( )] 


786 /* 

787 * "id" is the POSIX thread ID. We use the 
788 * files pointer for this.. 

189 */ 

190 int filp close(struct file *filp, fl owner t id) 
191 { 

792 int retval; 

793 

794 if (!file count(filp)) { 

795 printk(’VFS: Close: file count is 0\n”); 
796 return 0; 

797 } 

798 retval = 0; 

799 if (filp>f op && filp>f op->flush) { 
800 lock kernel( ); 

801 retval = filp-»f op-^flush(filp); 
802 unlock kernel ( ); 

803 } 

804 fentl dirnotify(0, filp, 0); 

805 locks remove posix(filp, id); 

806 fput (filp) ; 

807 return retval; 

808 ) 


Tis SC f SR BE BEXE PROC PEINE "ERU SORIA, BUS Sep LES CREER PLZ S g 
上 ， 并 因 出 在 其 file operations 数据 结构 中 提供 相应 的 函数 指针 flush. xb, Ext2 并 不 作 这 样 的 安 
HE, HAAGSE flush 为 空 指针 ， 这 一 来 关闭 文件 的 操作 就 变 得 简单 了 。 此 外 ， 当 前 进程 可 能 对 欲 关 
闭 的 文件 加 了 POSIX $i, (AR SEX ATE RAEI, JT LAGAN locks_remove_posix( ) 试 -下 ， 以 
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防 万 ~…。 

最 后 ， 就 是 fput( ) 了 。 它 递减 file 结构 中 的 共享 计数 ， 如 果 递 减 后 达到 了 0 就 释放 该 file 结构 ， 
有 关 的 代码 在 include/linux/fs.h 和 fs/file_table.c 中 。 恋 者 应 注意 从 sys_close( ) 开 始 我 们 并 未 见 到 与 
fput( ) 配 对 的 feet( )。 其 实 ， 这 个 计数 是 当初 在 打开 文件 时 在 get_empty_filp( ) 中 设置 成 1 的 ， 所 以 这 
里 的 递减 与 此 遥相呼应 。 至 于 这 一 次 fput( ) 是 否 能 使 该 计数 达到 0， 则 取决 十 此 时 是 否 还 有 别 的 活动 
或 进程 在 共享 这 个 数据 结构 。 例 如 ， 要 是 当初 打开 这 个 义 件 的 进程 ，clone( ) 了 一 个 线程 ， 那 就 会 在 
clone( ) 的 时 候 递增 这 个 计数 ， 如 果 所 创建 的 线程 尚未 关闭 这 个 文件 ， 则 因 共 享 计 数 大 于 1 而 不 会 递 
REO 


[sys_close( ) > filp close( ) > fput( )] 


99 void fput (struct file * file) 


100 { 

101 struct dentry * dentry = file->f dentry; 
102 struct vfsmount * mnt = file >f_vfsmnt; 
103 struct inode * inode = dentry-?d inode; 
104 

105 if (atomic dec and test(&file-^f count)) | 
106 locks remove flock(file); 

107 if (file->f op && file->f op- release) 
108 file-^f op-release(inode, file); 
109 fops put (file-^f op); 

110 file-^f dentry = NULL; 

111 file->f_vfsmnt = NULL; 

112 if (file-^f mode & FMODE WRITE) 

113 put write access(inode); 

114 dput (dentry) ; 

115 if (mnt) 

116 mntput (mnt) ; 

117 file list lock( ); 

118 list del(&file— f list); 

119 list add(&file—^f list, &free list); 
120 files stat.nr free files**; 

121 file list unlock( ) ; 

122 ] 

123 } 


在 fput( ) 中 又 来 处 理 当 前 进程 可 能 已 经 对 日 标 文件 加 上 而 水 及 解除 的 锁 ， 但 是 这 一 次 关心 的 是 
FL FLOCK 锁 。 如 前 所 述 ， 这 种 锁 -- 定 是 “协调 锁 ” 而 刚才 处 理 的 是 POSIX 锁 ， 它 可 以 是 协调 锁 
也 可 以 是 强制 锁 。 
代码 中 的 fops put( ) 是 个 宏 操 作 : 
865 Hdefine fops_put (fops) V 
866 dof \ 
867 if ((fops) && (fops)->owner) V 
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868 MOD DEC USE COUNT ((fops)->owner) ; \ 
869  } while(0) 





显然 ， 这 时 关心 的 是 动态 安装 模块 的 使 用 计数 。 

此 外 ， 每 种 文件 系统 可 以 对 file 结构 的 释放 规定 一 些 附加 操作 ， 通 过 其 file operations £&J'p H 
函数 指针 release 提供 相应 的 操作 ,如果 这 个 指针 括 0 就 表示 需要 调用 这 个 函数 ,就 Ext2 
言 ， 这 个 函数 是 ext2_release_file( )， 其 代码 在 fs/ext2/file.c +}: 


[sys close( ) > filp_close( ) > fput( ) > ext2 release file( )] 


70 /* 

71 * Called when an inode is released. Note that this is different 

72 * from ext2 file open: open gets called at every open, but release 
73 * gets called only when /all/ the files are closed. 

74 */ 


75 static int ext2_release file (struct inode * inode, struct file * filp) 
76 { 


77 if (filp-^f mode & FMODE WRITE) 

78 ext2 discard prealloc (inode); 
19 return 0; 

80 } 


VER, CURIE SR CORP … 节 ) RRC. 

JE file 结构 释放 以 后 ， 日 标 文件 的 dentry 结构 以 及 所 在 设备 的 vfsmount Z&43R/b T — H7, 
所 以 还 划 请 用 dput( ) 和 mntput( ) 递 减 它们 的 共享 计数 。 同 样 ， 如 果 递 减 后 达到 了 0 就 要 将 数据 结构 
释放 。 还 有 ， 如 果 当 初 打开 这 个 文件 时 的 模式 为 写 访 问 ， 则 还 要 通过 put_write_access( ) 递 减 其 inode 
结构 中 的 i_writecount 计数 。 如 前 所 述 ， 这 个 计数 用 寸 按 普通 的 文件 操作 与 按 内 存 映 射 访问 文件 这 两 
种 途径 问 的 互 斥 。 

i. 所谓“ 释放 ”file 结构 ， 就 是 把 它 从 inode hashtable 中 的 杂凑 队列 里 脱 链 ， 退还 人 到 free list 
中 。 


56 文件 的 写 与 读 


只 有 在 “打开 ”了 文件 以 后 ， 或 者 说 建立 起 进程 与 文件 之 间 的 “连接 ”之 后 ， 才 能 对 文件 进行 污 
/ 号 。 文 件 的 读 / 写 主要 是 通过 系统 调用 read( ) 和 write ) 完 成 的 ， 对 于 读 / 写 文件 的 进程 ， 目 标 文件 
由 一 个 “ 打 并 文件 号 ”代表 。 


为 了 提高 效率 ,稍为 复杂 ` 些 的 操作 系统 对 文件 的 读 / 写 都 是 带 缓冲 的 ，Linux 当然 也 不 例外 。 像 


VFS F$, Linux 文件 系统 的 缓冲 机 制 也 是 它 的 一 大 特色 。 所 谓 缓 冲 ， 是 指 系统 为 最 近 刚 读 / 写 过 的 文 
件 内 容 在 内 核 中 保留 一 份 副本 ， 以 使 当 再 次 需要 已 经 缓冲 存储 在 副本 中 的 内 容 时 就 不 必 再 临时 从 设备 
上 读 入 ， 而 需 上 归公 的 时 候 则 可 以 先 写 到 剧本 中 ， 待 系统 较为 空闲 时 再 从 副 木 写 入 设备 。 企 多 进程 的 系 
统 中 ， 由 十 同 一 文件 可 能 为 多 个 进程 所 共享 ， 缓 冲 的 作用 就 更 显著 了 。 

然而 ， 怎 样 实现 缓冲 ， 在 哪个 层次 上 实现 缓冲 ， 却 是 一 个 值得 仔细 加 以 考虑 的 问题 。 回 顾 一 下 
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本 章 开 头 处 的 文件 系统 层次 网 〈 网 5.3 和 网 5.1),， 在 系统 中 处 于 最 高 层 的 是 进程 ， 这，: 层 可 以 称 为 “应 
HE”, 是 在 用 户 空间 运行 的 ， 在 这 里 代表 着 目标 义 件 的 是 “打开 义 件 号 ”。 在 这 一 层 中 提供 缓冲 似乎 
最 贴近 文件 内 容 的 使 用 者 ， 但 古 那样 就 需要 用 户 进 程 的 介入 ， 从 而 不 能 做 到 对 使 用 者 “透明 ”， HHE 
冲 的 内 容 不 能 为 其 他 进程 所 共享 ， 所 以 显然 是 不 妥当 的 。 在 应 用 层 以 下 是 “文件 层 ” MUTANS} A VES 
层 和 有 具体 的 文件 系统 层 ， 再 下 面 就 是 “设备 屋 ” 了 。 这 些 层 次 都 在 内 核 中 ， 所 以 在 这 些 层次 上 实现 组 
冲 都 可 以 达到 对 用 户 透 明 的 目标 。 设 备 层 是 最 贴近 设备 ， 即 文件 内 容 的 “源头 ”的 地 方 ， 在 这 里 实现 
缓冲 显然 是 可 行 的 。 事 实 上 , 早期 Unix 内 核 中 的 文件 缓冲 就 是 以 数据 块 缓冲 的 形式 在 这 一 层 上 实现 的 。 
但 是 ， 设 备 层 上 的 缓冲 离 使 用 者 的 距离 太 近 了 一 点 ， 特 别 是 当 文 件 层 又 分 为 VFS 和 具体 文件 系统 两 个 
子 层 时 ， 每 次 读 / 写 都 要 穿越 这 么 多 界面 深入 到 设备 层 呈 难 免 使 人 有 一 种 “长 途 冉 涉 ” 之 感 。 很 妇 然 
地 ,设计 人 人 员 把 眼光 投向 了 文件 层 。 

在 文件 层 中 有 三 种 主要 的 数据 结构 ， 就 是 file 结构 、dentry 结构 以 及 inode 结构 。 

先 看 file 结构 。 前 面 讲 过 ， 一 个 file 结构 代表 着 日 慰 文件 的 一 个 上 下 文 ， 不 但 不 同 的 进程 可 以 在 同 
一 个 文件 上 建立 不 同 的 上 下 文 , 就 是 同一 个 进程 也 可 以 通过 打开 同一 个 文件 多 次 而 建立 起 多 个 上 下 文 。 
如 果 在 file 结构 中 设置 “个 缓冲 区 队列 ， 那 么 缓冲 区 中 的 内 容 映 然 贴近 这 个 特定 土 下 文 的 使 用 者 ， 却 
不 便于 为 多 个 进程 共享 ， 甚 至 不 便于 同 个 进程 打开 的 不 同上 上 下文“ 共享 ”。 这 显然 是 不 合适 的 ， 需 要 
把 这 些 缓冲 区 像 数 学 上 的 “提取 公 因 子 ” 邦 样 放 到 一 -个 公共 的 地 方 。 

那么 dentry 结构 怎么 样 ? 这 个 数据 结构 并 不 属于 某 一 个 上 上 文 ， 也 不 属于 某 一 个 进程 ， 可 以 为 所 
有 的 进程 和 上 下 文 共享 。 可 是 ，dentry 结构 与 日 标 文 件 并 不 是 一 对 一 的 关系 ， 通 过 文件 连接 ， 我 们 可 
以 为 已 经 存在 的 文件 建立 “别名 ”~ 个 dentry 结构 只 是 惟一 地 代表 着 文件 系统 中 的 一 个 节点 ， 也 就 是 

-个 路 径 名 ， 但 是 多 个 节点 可 以 同时 代表 着 同 个 文件 ， 所 以 ， 还 应 该 再 来 次 “提取 公 因 子 ”。 
显然 ， 在 inode 数据 结构 中 设置 一 个 缓冲 区 队列 是 最 合适 不 过 的 了 ， 首 先 ，inode 结构 与 文件 是 一 - 
对 一 的 关系 ,即使 一 个 文件 有 多 个 路 径 名 ， 最 后 也 归结 到 同一 个 inode 结构 上 。 再 说 ， 一 个 文件 中 的 内 
容 是 不 能 由 其 他 文件 共享 的 ， 在 同一 时 间 里 ， 设 备 上 的 每 一 个 记录 块 都 只 能 属于 至 多 一 个 文件 〈 或 者 
就 是 空闲 )， 将 载 有 同一 个 文件 内 容 的 绥 冲 区 都 放 在 其 所 属 文件 的 inode 结构 中 是 很 白 然 的 事 。 因 此 ， 
在 inode 数据 结构 中 设置 了 一 个 指针 i mapping. 'CfRIS] 7-7 address space 数据 结构 (通常 这 个 数据 结 
构 就 是 inode 结构 中 的 ji_data)， 缓 冲 区 队列 就 在 这 个 数据 结构 中 。 

不 过 ， 挂 在 缓冲 区 队列 中 的 并 不 是 记录 块 谭 是 内 存 页 面 。 也 就 是 资 ， 文 件 的 内 容 并 不 是 以 记录 块 
为 单位 ,而 是 以 页 面 为 单位 进行 缓冲 的 。 如 果 记 录 上 央 的 大 小 为 AK 字 节 ， 那 么 一 个 页 面 就 相当 二 4 个 记 
录 块 。 为 什么 要 这 样 做 昵 ? 这 是 为 了 将 文件 内 容 的 缓冲 与 文件 的 内 存 映射 结合 在 一 起 。 我 们 在 第 2 x 
中 提 到 过 , 一 个 进程 可 以 通过 系统 调用 mmap( ) 将 一 个 文件 映射 到 它 的 用 户 空间 。 建 立 了 这 样 的 映射 以 
后 ， 就 可 以 像 访问 内 存 一 样 地 访问 这 个 文件 。 如 果 将 文件 的 内 容 以 页 面 为 单位 缓冲 ， 放 在 附属 于 该 文 
件 的 inode 结构 的 缓冲 队 刀 中 , 那么 只 要 相应 地 设置 进程 的 内 存 映射 表 , 就 可 以 很 白 然 地 将 这 些 缓冲 页 
面 映射 到 进程 的 用 户 空间 中 。 这 样 ， 在 按 常规 的 文件 操作 访问 一 个 文件 时 ， 可 以 通过 read( ) 和 write( ) 
系统 调用 目标 文件 的 inode 结构 访问 这 些 缓冲 页 面 ; 而 道 过 内 存 映 射 机 制 访问 这 个 文件 时 , 就 可 以 经 出 
页 面 映射 表 直接 读 写 这 些 缓冲 着 的 页 面 。 当 目标 页 面 不 在 内 存 中 时 ， 常 规 的 文件 操作 通过 系统 调用 
read( )、write( ) 的 底层 将 其 从 设备 上 读 入 ， 而 通过 内 人 存 映 射 机 制 访问 这 个 文件 时 则 由 “ 缺 抽 异常 ”的 服 
务 程 序 将 目标 页 面 从 设备 上 读 入 。 也 就 是 说 ， 同 一 个 缓冲 和 抽 面 可 以 满足 两 方面 的 要 求 ， 文 件 系统 的 组 
剖 机 制 和 文件 的 内 存 映 射 机 制 瑟 妙 地 结合 在 一 起 了 。 明 外 了 这 个 背景 ， 对 于 土 述 的 指针 为 什么 叫 
i_mapping， 它 所 指向 的 数据 结构 为 什么 叫 address space. Sb eS EISE T. 

可 是 ， 尽 管 以 页 面 为 单位 的 缓冲 对 于 文件 层 确 实 是 很 好 的 选择 ， 对 于 设备 层 则 不 那么 合适 了 。 对 
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设备 层 而 吉 ， 最 自然 的 当然 还 是 以 记录 块 为 单位 的 缓 六 ， 央 为 设备 的 读 / 写 都 是 以 记录 块 为 单位 的 。 
个 过 ， 从 磁盘 上 读 / 过 时 主要 的 时 间 都 化 在 准备 下 作 《〈 如 磁头 组 的 定位 ) 上 ，-- 旦 准备 好 了 以 后 读 一 
个 记录 块 与 接连 读 儿 个 记录 块 代 益 不 大 ， 而 日 每 次 只 读 写 一 个 记录 上 块 倒 反 而 是 不 经 济 的 。 所 以 每 次 读 
写 者 于 连续 的 记录 块 、 以 页 面 为 单位 来 缓冲 也 并 不 成 为 问题 。 另 -方面 ， 如 果 以 页 面 为 单位 缓冲 ， 而 
一 个 页 面相 当 于 车 十 个 记录 块 ,那么 无 论 是 对 于 缓冲 页 面 还 是 对 于 记录 快 缓冲 区 , 其 控制 和 附加 信息 (如 
链接 指针 等 ) 显然 应 该 游离 于 该 页 而 之 外 ， 这 些 信 息 不 应 该 映射 到 进程 的 用 户 空间 。 这 个 问题 也 不 难 
RRR EA AW hb, 第 2 章 中 讲 过 的 page 数据 结构 就 是 这 样 。 在 page 数据 结构 中 有 个 指针 virtual 
指向 其 所 代表 的 页 面 , 但 是 page 结构 本 身 则 不 在 这 个 页 面 中 。 同样 地 , 在 “缓冲 区 头 部 ” HU buffer. head 
数据 结构 中 有 一 个 指针 b. data 指向 缓冲 区 ， 而 buffer head 结构 本 身 则 不 在 缓冲 区 中 。 所 以 ， 在 设备 尼 
中 只 要 保持 一 些 buffer_ head 4449. ik 4149 b, data 指名 分 别 指向 缓冲 页 面 中 的 相应 位 置 上 就 可 以 了 。 
以 - 个 级 冲 页 面 为 例 ， 在 文件 层 它 通过 -个 page 数据 结构 挂 入 所 属 inode INEM UBF, EAL 
闻 时 又 可 以 通过 各 个 进程 的 页 而 映射 表 喘 射 到 这 些 进程 的 内 存 空间 ， 而 在 设备 层 则 又 通过 若干 〈 通 常 
是 四 个 ， 因 为 页 面 的 大 小 为 4KB， 而 缓冲 区 的 大 小 为 1KB buffer head 结构 挂 入 其 所 在 设备 的 缓冲 区 
队列 。 这 样 ， 以 页 面 为 单位 为 文件 内 容 建立 缓冲 真是 “一 箭 三 雕 ”。 下 页 的 示意 图 (图 5.60 也 许 有 助 
于 读者 对 缓冲 机 制 的 理解 。 

在 这 样 “个 结构 框架 中 ， “号 所 和 欲 访问 的 内 容 已 经 在 缓冲 贞 而 队列 路 ， 读 文件 的 效率 就 很 高 了 ， 
只 要 找到 文件 的 inode 结构 Cile 结构 中 有 指针 指向 dentry 结构 ， 而 dentry 结构 中 有 指针 指向 inode 结 
构 ) 就 找到 了 缓冲 页 面 队列 ， 从 队列 中 找到 相应 的 页 面 就 可 以 读 出 了 。 缓 冲 页 而 的 page 结构 除 链 入 附 
属于 inode 结构 的 缓冲 页 面 队列 外 ， 同 时 也 链 入 到 个 杂凑 表 page_hash_table 中 的 杂 痰 队列 中 (图 中 
没有 夯 出 )， 所 以 过 找 日 标 页 面 的 操作 也 是 效率 很 高 的 ， 并 不 需要 在 整个 缓冲 页 面 队列 中 线性 搜索 。 

那么 ， 写 操作 又 如 何 呢 ? 如 前 所 述 ， 一 占 目 标 沁 录 块 山 经 存 存 于 缓冲 页 面 中 ， 写 操作 只 是 把 内 容 
号 到 该 缓冲 页 面 中 ， 所 以 从 发 动 写 操作 的 进程 的 角度 来 看 速度 也 是 很 快 的 。 全 于 改变 了 内 容 的 组 溃 页 
面 ， 则 由 系统 负责 在 CPU 较为 字 闲 时 写 入 设备 。 为 了 这 个 日 和 的， 内核 中 设置 7- -个 内 核 线 程 kflushd. 
平时 这 个 线程 总 是 在 睡 虐 ， 有 需要 时 (例如 写 操 作 以 后 ) 就 将 其 唤醒 ， 然 后 当 CPU 较为 空 闪 时 就 会 调 
度 其 运行 ， 将 已 经 改变 了 内 容 的 缓冲 页 面 写 器 设备 上 。 这 样 ， 启 动 妃 操作 的 进程 和 kflushd 就 好 像 是 一 
条 流水 作业 线 上 的 上 下 两 个 下 位 上 的 操作 工 ， 而 改变 缓冲 页 面 的 内 容 〈 写 操作 ) 与 将 改变 了 内 容 的 组 
神 页面 写 回 设备 上 〔 称 为 “同步 ”) 则 好 像 是 上 下 两 道上 序 。 除 这 样 的 “分 工 合作 ”以 外 ， 每 个 打开 了 
某 个 文件 的 进程 还 可 以 直接 通过 系统 调用 syne ( ) 强 行将 缓冲 页 面 写 回 设备 上 。 此 外 ， 缓 冲 页 面 的 page 
结构 偿 链 入 到 一 个 LRU 队列 中 ， 要 是 一 个 负面 很 久 没 有 受到 访问 ， 内 存 空间 又 比较 短缺 ， 就 可 以 把 它 
FECI (ETH o 

除 通过 缓冲 来 提高 文件 读 / 写 的 效率 外 ， 还 有 个 措施 是 “ 预 读 ”就 是 说 ， 如 果 一 个 进程 发 动 了 对 
某 一 个 缓 神 真 面 的 读 〈 或 切 ) 操作 ， 并 旦 该 页 耐 尚 不 在 内 存 中 而 需要 从 设备 上 读 入 ， 那 么 就 可 以 预测 ， 
通常 情况 下 它 接 下 去 可 能 会 继续 往 下 读 写 ， 因 此 不 妨 预先 将 后 面 几 个 页 面 也 :起 读 进来 。 如 前 所 述 ， 
对 于 磁 栓 一 类 的 “ 块 设备 "， 读 操作 中 最 费时 间 的 是 磁头 组 定位 ，. -HL 到 了 位 ， 从 设备 多 读 几 个 记录 块 
并 不 相关 多 少时 间 。 - 般 商 言 ， 对 文件 的 访问 有 了 时 种 形式 。 一 种 是 “随机 访问 ” 其 访问 的 位 置 并 无 鸯 
律 : 男 -种 是 “顺序 访问 ”。 预 读 之 所 以 可 能 提高 效率 就 是 因为 人 明 的 文件 操作 都 是 顺序 访问 。 其 实 ， 





可 访 问 的 位 置 不 在 其 最 后 一 个 记录 块 中 ， 就 多 少 归 预 读 几 个 记录 块 ， 只 不 过 预 读 的 旦 很 小 而 已 。 
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结构 i_data 文件 缓冲 页 面 队列 
上 页面 映射 表 pages <> 
wl 设备 缓冲 区 队列 
7 <> 


eR X ill buffer head 


图 5.6 文件 页 面 缓 冲 队列 与 设备 缓冲 区 队列 的 联系 图 


在 早期 的 Unix 系统 中 ， 由 于 当时 的 做 盘 容量 小 ， 速 度 慢 ， 内 存 也 小 ， 一 般 只 预 读 一 个 记录 块 。 而 
现在 的 预 读 ， 则 动 辍 就 是 几 十 K 字 节 ， 甚 至 上 百 K 字 节 。 当 然 ， 那 也 要 视 只 体 情 况 而 定 ， 所 以 在 
include/linux/blkdev.h 中 定义 了 一 个 常数 MAX_READAHEAD， 其 定义 为 ; 


184  /* read-ahead in pages.. */ 
185  &define MAX READAIIEAD 3l 
186 #define MIN READAHEAD 3 


这 里 的 数值 31 表示 31 个 页 面 , 即 124K 字 节 。 从 这 里 也 可 以 看 出 ,许多 比较 小 的 文件 其 实 部 是 一 
次 就 全 部 预 读 入 内 存 的 。 当 然 ， 这 里 说 的 是 最 大 预 读 量 ， 实 际 运 行 时 还 查看 其 他 条 件 ， 未 必 真 的 预 读 
那么 多 。 

由 于 预 读 的 提前 量 已 经 不 青 限 于 一 个 记录 块 ， 现 在 file 结构 中 实际 上 要 维持 两 个 上 下 文 了 。 一 个 
就 是 由 “当前 位 置 ”f_pos 代表 的 真正 的 谈 / 写 上 下 文 ， 而 另 一 个 则 是 预 读 的 上 下 文 。 为 此 目的 , 在 file 
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结构 中 增设 了 freada, f ramax, f_raend, f_rawin 等 几 个 字段 。 这 几 个 字段 的 名 称 反 映 了 它们 的 用 途 
(ra 表示 “read ahead”)， 具 体 的 含义 在下 面 的 代码 中 就 可 看 到 。 

为 一 方面 ， 预 读 明 然 并 不 花费 很 多 时 间 ， 但 毕竟 还 是 党 要 一 点 时 间 。 当 一 个 进程 启动 一 次 对 文件 
内 容 的 访问 ， 而 访问 的 昌 标 又 恰好 不 侍 内 存 中 因而 需要 从 没 备 上 读 入 时 ,该 进程 只 好 和 暂时 交 出 运行 权 ， 
进入 睡眠 中 等 待 ， 称 之 为 “ 受 阳 ”(blocked)。 可 是 等 待 多 久 昵 ?一 日 本 次 访问 的 目标 页 面 进入 了 内 存 ， 
等 待 中 的 进程 就 可 以 而 且 应 该 恢复 运行 了 ， 而 没有 理由 等 待 到 所 有 预 读 的 页 面 也 全 部 进入 内 存 。 从 设 
8 Li / 写 一 般 都 是 通过 DMA 进行 的 , 它 周 然 需要 一 定 的 时 间 , 但 是 并 不 需要 CPU 太 多 的 于 预 , CPU 
完全 可 以 忙 白 己 的 事 。 所 以 ， 从 设备 上 读 入 的 操作 可 以 分 成 两 部 分 。 第 一 部 分 是 必须 要 等 待 的 ， 在 此 
期 间 启 动 本 次 操作 的 进程 只 好 暂时 停 下 来 ， 这 一 部 分 操作 是 “同步 ”的 。 第 二 部 分 则 无 须 等 待 ， 在 此 
期 间 局 动 本 次 操作 的 进程 可 以 继续 运行 ， 所 以 这 一 部 分 操作 是 异步 的 。 至 于 写 操作 ， 则 如 前 所 述 在 大 
多 数 情况 下 是 留 给 内 核 线程 kflushd 完成 的 ， 那 当然 是 异步 的 。 

读 完了 上 面 这 一 大 段 的 概述 ， 现 在 可 以 开始 读 代码 了 。 先 看 sys_write( )， 这 是 系统 调用 write( ) 在 
内 核 中 的 实现 ， 基 代码 在 fs/read_write.c P: 





144 asmlinkage ssize t sys write(unsigned int fd, const char * buf, 
size t count) 


145 { 

146 Ssize t ret; 

147 struct file * file; 

148 

149 ret = -EBADF; 

150 file = fget (fd); 

151 if (file) { 

152 if (file->f mode & FMODE WRITE) { 

153 struct inode *inode = file->f. dentry—>d_inode; 

154 ret = locks verify area(FLOCK VERIFY WRITE, inode, file, 

155 file-^f pos, count); 

156 if (fret) Í 

157 ssize t (#write) (struct file *, const char *, 
size t, loff_t *); 

158 ret = -EINVAL; 

159 if (file-^f op && (write = file—^f op->write) !- NULL) 

160 ret = write(file, buf, count, &file-^f pos); 

161 } 

162 } 

163 if (ret > 0) 

164 inode_dir notify (file—>f_dentry—>d_parent—>d_inode, 

165 DN_MODIFY) ; 

166 fput (file); 

167 } 

168 return ret; 

169  ] 


注意 ， 在 调用 参数 中 并 不 指明 在 文件 中 写 的 位 置 ， 因 为 文件 的 file 结构 代表 着 一 个 上 下 文 ， 记 录 
着 在 文件 中 的 “当前 位 置 ”。 函数 fget( ) 根 据 打 开 文 件 号 fd 找到 该 已 打开 文件 的 file 结构 ， 这 个 inline 


- 583 . 


Linux AIR Ro CLAD 
函数 的 代码 定义 十 include/linux/file.h F: 


[sys_write( ) > fget( )] 


125 struct file * fget (unsigned int fd) 


126 { 

127 struct file * file; 

128 struct files struct *files = current—>files; 
129 

130 read lock(&files >file_lock) ; 
131 file = fcheck (fd); 

132 if (file) 

133 get_file(file); 

134 read unlock(&files-^file lock); 
135 return file; 

136 ) 


I< RAK, 或 者 更 确切 地 说 是 它 里 面 的 宏 操 作 get_file(), XE IE 5355 — T EA fpo 配对 使 用 的 ， 
因为 这 二 者 一 个 递增 file 结构 中 的 共享 计数 ， 另 一 个 则 递减 这 个 计数 。 哪 一 个 过 程 在 开始 时 递增 了 某 
AS file 结构 中 的 共享 计数 ,就 负 有 责任 在 结束 时 递减 这 个 计数 ,这 里 get. file( ) xg X £e include/linux/fs.h 
中 : 


521  f&define gei file(x) atomic inc(&(x)-^f count) 
根据 打开 文件 号 找到 file 结构 ， 具 体 是 由 fcheck( ) 完 成 的 ， 其 代码 在 file. tH: 


[sys_write( ) > fget( ) > fcheck( )] 


4] — /* 

42 * Check whether the specified fd has an open file 
43 */ 

44 static inline struct file * fcheck(unsigned int fd) 
45 { 

46 struct file * file = NULL; 

AT struct files struct *files - current—>files; 

48 

49 if (fd < files max fds) 

50 file = files-^fd[fd]; 

51 return file; 

52. ] 


一 个 进程 要 对 一 个 已 打开 文件 进行 写 操 作 ， 应 满足 几 个 必 此 条 件 。 其 一 是 相应 file 结构 里 f mode 
字段 中 的 标志 位 FMODE_WRITE 为 1。 这 个 字段 的 内 容 是 在 打开 文件 时 根据 对 系统 调用 open ) 的 参数 
flags 经 过 变换 而 来 的 , 具体 见 前 一 节 中 filp_open( ) 和 dentry_open( ) 的 代码 。 若 标志 位 FMODE WRITE 
为 0， 则 表示 这 个 文件 是 按 “ 只 读 ” 方 式 打开 的 ， 所 以 该 标志 位 为 1 是 写 操作 的 一 个 必要 条 件 。 

取得 了 日 标 文 件 的 file 结构 指针 :并 确认 文件 是 按 可 写 方式 打开 以 后 ， 还 要 检查 文件 中 从 当前 位 置 
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f pos HARY count 个 字 节 是 否 对 写 探 作 加 十 了 “ 坚 制 锁 ”。 这 上 是 通过 locks verity area( ) 完 成 的 ， 其 代 
I fs.h H: 


[sys write( ) > locks_verify_area( )] 


906 static inline int locks verify area(int rcad write, struct inode *inode, 


907 struct file *filp, loff t offset, 

908 size t count) 

909 d 

910 if (inode->i flock && MANDATORY LOCK (inode)) 

911 return locks mandatory area(read write, inode, filp, offset, count); 
912 return 0; 

93 } 


THA TARA fS DURAS for UBI. QTR, JE BL n Ae ER BBR, 
就 进 “ 步 通过 locks mandatory area( Aa A AT 38 5K A possit fe v da qs B BUE T o XX BREL FE TE 
fs/lock.c F, BAT AIR BRAG To MISE ALAR TAY, 无 非 就 是 扫描 该 文件 的 inode 结构 中 的 i_flock 
SU HIER “个 file lock 数据 结 梅 并 进行 比 对 。 从 这 里 读者 可 以 看 出 为 什么 强制 锁 并 不 总 是 比 协调 锁 
优越 ， 因 为 对 每 “次 读 / 写 探 作 它 者 此 扫描 这 个 队列 进行 比 对 ， 这 显然 会 降低 文件 恋 写 的 速度 。 特 别 
是 如 果 每 次 读 / 写 的 长 诬 剖 很 小 ， 那 样 花 在 强制 锁 检 查 | 的 开销 所 占 比例 就 相当 大 了 。 

通过 了 对 强制 锁 的 检查 以 后 ， 就 是 写 操作 本 身 了 。 可 想 而 知 ， 不 同 的 文件 系统 有 不 同 的 气 操作 ， 
具体 的 文件 系统 通过 其 file operations 数据 结构 提供 用 填写 操作 的 函数 指针 ， 就 Ext2 文件 系统 而 言 ， 
它 有 两 个 这 样 的 数据 结构 ， 个 是 ext2_file_operations， 另 一 个 是 ext2_dir_operations， 视 操作 的 日 标 为 
文件 或 日 录 而 选择 其 一 ， 在 打开 该 文件 时 “安装 ”在 其 file 结构 中 。 对 于 普通 的 文件 ， 这 个 函数 指针 
18 |n] generic_file_write( )， 其 代码 在 mm/filemap.c 中 ， 我 们 分 段 来 看 。 


[sys write( ) > generic_file_write( )] 


2426 /* 

2421 * Write to a file through the page cache. 

2428 * 

2429 * We currently put everything into the page cache prior to wriling it. 
2430 * This is not a problem when writing full pages. With partial pagos, 

2431 * however, we first have to read the data into the cache, then 

2432 * dirty the page, and finally schedule it for writing. Alternatively, we 
2433 * could write-through just the portion of data that would go into that 
2434 * page, but that would kill performance for applications that write data 
2435 * line by line, and it's prone to race conditions. 

2436 * 

2437 * Note that this routine doesn't try to keep track of dirty pages. Each 
2438 * file system has to do this all by itself, unfortunately. 

2439 * okir&monad. swb, de 

2440 */ 


244] ssize t 
2442 generic file write (struct file *file, const char *buS, size_t count, 
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loff t *ppos) 


2443 { 

2444 struct inode *inode = file->f_dentry—>d_inode; 
2445 struct address space *mapping = inode->i mapping; 
2446 unsigned long limit = current—>rlim[RLIMIT FSIZE). rlim cur; 
2447 loff_t pos; 

2448 struct page *page, *cached_page; 

2449 unsigned long written; 

2450 long status; 

2451 int err; 

2452 

2453 cached page = NULL; 

2454 

2455 down(&inode-^i sem); 

2456 

2451 pos = *ppos; 

2458 err = -EINVAL; 

2459 if (pos < 0) 

2460 goto out; 

2461 

2462 err = file—^f error; 

2463 if (err) { 

2464 file-^f error = 0; 

2465 goto out; 

2466 ) 

2467 

2468 written = 0; 

2469 

2470 if (file->f_flags & O APPEND) 

2471 pos = inode->i_size; 

2472 

2473 /* 

2474 * Check whether we've reached the file size limit. 
2475 */ 

2476 err = -EFBIG; 

2477 if (limit != RLIM_INFINITY) { 

2478 if (pos >= limit) { 

2479 send_sig(SIGXFSZ, current, 0); 
2480 goto out; 

2481 } 

2482 if (count > limit - pos) { 

2483 send sig(SIGXFSZ, current, 0); 
2484 count = limit - pos; 

2485 } 

2486 } 

2487 

2488 status = 0; 

2489 if (count) { 
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2490 remove suid(inode); 

2491 inode->i_ctime = inode->i_mtime = CURRENT TIME; 
2492 mark_inode_dirty_sync (inode) ; 

2493 } 

2494 


Wav ATI, inode 结构 中 有 个 指针 i_mapping， 指 向 一 个 address space 数据 结构 ， 其 定义 在 
include/linux/fs.h FP: 


365 struct address space | 


366 struct list head clean pages; /* list of clean pages */ 

367 struct list head dirty pages; /* list of dirty pages */ 

368 struct list head locked pages; /* list of locked pages */ 

369 unsigned long nrpages; /* number of total pages */ 

370 struct address space operations *a ops; /* methods */ 

371 struct inode *host ; /* owner: inode, block device */ 

372 struct vm area struct *i_mmap: /* list of private mappings */ 
313 struct vm area struct  -*i mmap shared; /* list of shared mappings */ 
374 spinlock t i shared lock; /* and spinlock protecting it */ 

315 Js 


通常 这 个 数据 结构 就 在 inode 结构 中 ， 成 为 inode 结构 的 一 部 分 ， 那 就 是 idata〈 注 意 切 莫 与 
ext2_inode_info 结构 中 的 数组 data[ ] 相 混淆 )。 结 构 中 的 队列 头 pages 就 是 用 米 维 持 缓冲 页 面 队列 的 。 
如 果 将 文件 映射 到 某 些 进程 的 用 户 空间 ， 则 指针 i mmap Bi] PEARKE, Bvm area, struct £545. 
其 中 的 每 一 个 数据 结构 都 代表 着 该 文件 在 其 一 个 进程 中 的 空间 映射 。 还 有 个 指针 a_ops 也 是 很 重要 的 ， 
它 指 向 一 个 address_space_operations 数据 结构 。 这 个 结构 中 的 函数 指针 给 出 了 缓冲 页 面 与 具体 文件 系 
统 的 设备 层 之 间 的 关系 利 操作 ， 例 如 怎样 从 县 体 文件 系统 的 设备 上 读 或 写 一 个 缓冲 页 面 等 等 。 就 Ext2 
文件 系统 来 说 ， 这 个 数据 结构 为 ext2_aops， 是 在 fs/ext2/inode.c 中 定义 的 : 


669 struct address space operations ext2 aops - | 
670 readpage: ext2 readpage, 

671 writepage: ext2 writepage, 

672 sync page: block sync page, 

673 prepare write: ext2 prepare write, 

674 commit write: generic commit write, 

675 bmap: ext2_bmap 

676s ; 


我 们 在 系统 调用 … 章 中 讲 过 ， 在 某 些 条 件 下 系统 调用 会 中 途 流产 ， 而 流产 以 后 的 对 策 就 是 重新 执 
行 一 遍 系 统 调用 。 文 件 操 作 也 是 这 样 。 但 是 ， 在 某 些 特殊 的 情况 下 ， 如 桌 在 中 途 流产 的 同时 或 之 前 已 
发 生 了 其 他 的 出 错 ， 则 此 时 的 重新 执行 所 应 该 做 的 只 是 将 出 错 代 码 返 回 给 进程 ， 而 不 应 进行 任何 实质 
性 的 操作 ，file 结构 中 的 ferror 字段 就 是 为 此 目的 而 设 的 。 

如 果 在 打开 文件 时 的 参数 由 将 O0, APPEND 标志 位 设 为 1， 则 上 表示 对 此 文件 的 写 操作 只 能 在 尾 端 添 
加 ， 所 以 要 将 当前 位 置 pos 调整 钊 六 件 的 尾 端 。 此 外 ， 对 每 个 进程 可 以 使 用 的 各 种 资源 ， 包 括 文 件 大 
小 ， 是 可 以 加 上 限制 的 。 进 程 的 task. struct 结构 中 有 个 数组 rim 就 规定 了 对 该 进程 使 用 各 种 资源 的 上 
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限 。 其 中 有 Th, BU EROS RLIMIT_FSIZE 处 的 元 素 ， 就 表示 对 该 进程 的 文件 大 小 的 限制 。 如 果 企 终 
写 入 的 位 置 超出 了 这 个 限制 ， 那 就 要 给 这 个 进程 发 个 信号 SIGXFSZ， 并 且 让 系统 调用 失败 而 返 装 出 
错 代 码 一 EFBIG。 

全 此 ， 只 此 待 写 的 长 度 不 为 0， 那 就 是 “次 有 效 的 写 操作 了 ， 所 以 要 在 inode 结构 中 打上 叶 间 印记 
并 将 该 inode 标 志 成 * 胜 岂 表 示 其 内 容 应 写 回 设 备 上 的 相应 索引 各 点 .这 里 还 有 一 个 函数 remove_suid( )， 
其 代码 在 同一 文件 mm/filemap.e F: 


[sys_write( ) > generic file write( ) > remove, suid( )] 


2411 static inline void remove suid(struct inode *inode) 

2412 { 

2413 unsigned int mode; 

2414 

2415 /* set S_IGID if S IXGRP is set, and always set S ISUID */ 
2416 mode = (inode-^i mode & S IXGRP)*(S ISGID/S IXGRP) | S ISUTD; 
2417 

2418 /* was any of the uid bits set? */ 

2419 mode &- inode-^i mode; 

2420 if (mode && !capable(CAP FSETTD)) | 

2421 inode-^i mode &- "mode; 

2422 mark inode dirty (inode) ; 

2423 } 

2424 j 


XX BURUSE f s Be e br Fco cs Br, an CS FEA EC “set uid”, BY S. ISUID 标志 位 的 特权 ， 
而 目标 文件 的 set uid 标志 位 S. ISUID 和 S. ISGID 为 1， 则 应 将 inode 结构 中 的 这 些 标志 位 清 成 0, 也 就 
是 测 夺 该 文件 的 set uid 和 set gid 特性 。 之 所 以 费 这 样 做 的 原因 是 简单 的 〈 我 们 把 它 留 给 读者 , 抑 本 段 后 
的 附加 说 明 )， 查 是 这 里 的 代码 却 不 那么 直观。 函数 中 的 局 部 量 mode 实际 上 是 作为 弃 政 字 使 用 的 ， 第 
2416 行 的 日 的 就 是 注释 中 所 说 的 。 如 果 i mode 和 的 标志 位 S_IXGRP 为 0， 那么 两 项 相 乘 以 后 的 结 
也 是 0， 所 以 mode 成 为 S_ ISUID。 而 如 果 i mode 中 的 标志 位 为 1， 那么 相 乘 以 后 的 结果 为 S_ISGID， 
所 以 mode 就 成 为 (S_ISGID 1S_ISUID)。 其 余 的 就 比较 简单 直观 了 。 

此 处 顺便 请 读者 考虑 ， 如 果 当 前 进程 不 具备 设置 $_ISUID 的 特权 ， 却 共有 对 一个 已 经 存在 的 set 
uid 可 执行 文件 的 写 访问 权 ， 则 它 可 以 把 这 个 文件 中 的 内 容 侈 部 改写 。 这 样 ， 就 相当 十 当前 进程 创建 
T HGB set uid 可 执行 文件 。 

回 到 generic_file_write( ) 的 代码 中 继续 往 下 看 。 


[sys write( ) > generic file write( )] 


2495 while (count) { 

2496 unsigned long bytes, index, offset; 

2497 char *kaddr; 

2498 int deactivate - 1; 

2499 

2500 /* 

2501 * Try to find the page in the cache. Tf it isn't there, 
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2502 
2503 
2504 
2505 
2506 
2507 
2508 
2509 
2010 
2511 
2512 
2513 
2514 
2515 
2516 
2917 
2518 
2519 
2520 
2521 
2522 
2523 
2524 
2025 
2526 
2521 
2528 
2529 
2530 
2531 
2532 
2533 
2534 
2535 
2036 
2037 
2538 
2039 
2540 
2541 


2542 
2543 
2544 
2545 
2546 
2547 
2548 


* allocate a free page. 
*/ 
offset - (pos & (PAGE CACHE SIZE -1)); /* Within page */ 
index = pos >> PAGE CACHE SHIFT; 
bytes = PAGE CACHE SIZE - offset; 
if (bytes > count) { 
bytes = count; 
deactivate = 0; 


} 


/* 
* Bring in the user page that we will copy from first. 
* Otherwise there's a nasty deadlock on copying from the 
* same page as we're writing to, without it being marked 
* up-to-date. 
*/ 
{ volatile unsigned char dummy; 

__get_user (dummy, buf); 

__get_user (dummy, buf*bytes-1); 


status = -ENOMEM; /* we'll assign it later anyway */ 
page = __ grab cache page(mapping, index, &cached page); 
if (!page) 

break; 


/* We have exclusive IO access to the page.. */ 
if (!PageLocked(page)) { 

PAGE BUG (page) ; 
} 


mapping-^a ops prepare write(file, page, offset, offsettbytes) ; 
if (status) 
goto unlock; 
kaddr = page address (page) ; 
status = copy from user(kaddr*offset, buf, bytes); 
flush dcache. page (page) ; 
if (status) 
goto fail write; 
status = mapping->a_ops—>commit_write(file, page, 
offset, offsett+bytes) ; 
if (!status) 
status = bytes; 


if (status >= 0) { 
written += status; 
count —= status; 
pos += status; 
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2549 buf += status; 

2550 } 

2551 unlock: 

2552 /* Mark it unlocked again and drop the page.. */ 
2553 UnlockPage (page) ; 

2554 if (deactivate) 

2555 deactivate page (page) ; 

2556 page_cache_release (page) ; 

2557 

2558 if (status < Q) 

2559 break: 

2560 } 

2561 *ppos = pos; 

2562 

2563 if (cached page) 

2564 page cache free(cached pago); 

2565 

2566 /* For now, when the user asks for O SYNC, we'll actually 
2567 * provide 0 DSYNC. */ 

2568 if ((status >= 0) && (file->f flags & O_SYNC)) 
2569 status = generic osync inode(inode, 1); /* 1 means datasync */ 
2970 

2571 err = written ? written : status; 

2572 out: 

2573 

2574 up (&inode->i_ sem); 

2575 return err; 

2576 fail_write: 

2577 status = -EFAULT; 

2578 ClearPagelptodate (page) ; 

2579 kunmap (page) ; 

2580 goto unlock; 

2581 } 


写 操作 的 主体 部 分 是 由 一 个 while 循环 实现 的 。 循环 的 次 数 肥 决 于 与 的 长 度 和 位 置 , 在 每 一 次 人 循环 
中 ， 只 往 一 个 缓冲 页 面 中 写 ， 并 且 将 当前 位 置 pos 相应 地 向 前 推进 ,而 刹 下 未 写 的 长 度 count 则 逐次 减 
少 。 首 先 此 根据 当前 位 置 pos HEH ARIK IE PES INS index, TET XLI T TJA ni offset 以 及 
SAKE bytes 。 计 算 时 将 整个 文件 的 内 容 当 作 个 连续 的 线性 存储 空间 ， 将 pos AH 
PAGE_CACHE_SHIFT 位 跟 将 pos 被 页 而 大 小 所 整除 是 等 价 的 (但 是 更 快 ;。 计 算出 了 缓冲 页 面 在 日 标 
文件 中 的 逻辑 序号 index 以 后 ， 就 通过 __grab_cache_page( ) 找 旬 该 缓冲 页 面 ， 如 找 不 到 ， 就 分 配 、 建 立 
一 个 缓冲 页 面 ， 其 代码 在 filemap.c F: 


[sys write( ) > generic file write( ) > grab cache page()] 


2378 static inline struct page * 
. grab cache page(struct address space *mapping, 
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2379 unsigned long index, struct page **cached_page) 
2380 { 

2381 struct page *page, **hash = page hash(mapping, index); 

2382 repeat: 

2383 page = __ find lock page(mapping, index, hash): 

2384 if (!page) { 

2385 if (!*cached_page) | 

2386 *cached page = page cache alloc( ); 

2387 if (!*cached_page) 

2388 return NULL; 

2389 } 

2390 page = *cached page; 

2391 if (add to page cache unique(page, mapping, index, hash)) 
2392 goto repeat; 

2393 *cached page - NULL; 

2394 } 

2395 return page: 

2396 } 


BAB MRA U AM RMA page hash table 中 找到 所 在 或 应 该 在 的 杂凑 队列 。 与 
page_hash( ) 有 关 的 代码 和 定义 在 include/linux/pagemap.h 中 : 


68 #define page_hash (mapping, index) (page hash table* page hashfn(mapping, index)) 


46 struct page **page hash table; 


50 /* 

51 * We use a power-of-two hash table to avoid a modulus, 

52 * and get a reasonable hash by knowing roughly how the 

53 * inode pointer and indexes are distributed (ie, we 

54 * roughly know which bits are "significant") 

55 * 

56 * l'or the time being it will work for struct address space too (most of 
57 * them sitting inside the inodes). We might want to change it later. 

58 */ 


59 extern inline unsigned long | page hashfn(struct address space * mapping, 
unsigned long index) 
6€ ( 
61 #define i (((unsigned long) mapping)/ \ 
(sizeof (struct inode) &~(sizeof(struct inode) - 1))) 
62 #define s(x) ((x)+((x)>>PAGE_HASH_BITS)) 
63 return s(itindex) & (PAGE HASH SIZE-1): 


64 #undef i 
65 Sundef s 
66 } 


(ATER, AAT SPR eS index 外 还 使 用 了 指针 mapping， 这 是 内 为 页 面 在 
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文件 中 的 逻辑 序号 在 系统 范围 内 并 不 是 惟 的。 

这 里 page_hash( ) 返 目的 是 个 指向 数组 page hash table 中 其 “元 素 的 指针 ， 侧 这 个 元 素 本 身 则 又 
是 一 个 page 结 购 指针 ， 指 疝 队列 中 的 第 一 个 page 结构 。 

找到 了 日 标 页面 所 在 ， 或 者 应 该 在 的 杂 凌 队 全 后， 就 要 搜索 这 个 队列 ， 找 到 该 页 而 的 page 结构 ， 
这 是 由 __find_lock_page( ) 完 成 的 。 我 们 在 这 里 就 不 看 这 些 低层 函数 的 代码 了 ， 读 者 不 妨 凹 克 -下 第 2 
章 中 的 代码 。 

总 之 ， 如 果 在 队列 中 找到 了 上 月 标 页 面 就 万 事 大 寺 ， 找 不 刘 就 要 通过 page cache alloc( )2) ÉC — ^t 
W OZA) 的 页 面 ， 并 通过 add_to_page_cache_unique( ) 将 其 链 入 相应 的 杂 凌 队列 中 。 不 过 ， 在 调 
用 __grab_cache_page( ) 时 也 串 以 通过 调 川 参数 带 下 一 个 空间 页 面 米 ， 此 时 就 把 带 下 来 的 页 面 先 用 掉 ， 
而 不 分 配 新 的 页 面 了 。 

这 样 ， 只 上 归 系 统 中 还 有 可 用 的 页 和 耐 ， 从 __grab_cache_page( RIE] generic_file_write( ) 中 时 一 定 已 
经 有 了 一 个 缓 六 页 面 ， 只 是 这 个 页 面 有 可 能 是 个 新 分 配 的 空白 页 面 。 新 分 配 的 空 良 页 面 与 业已 存在 的 
缓冲 贞 面 除 在 内 容 上 有 根木 性 的 区 别 外 ， 在 结构 上 也 有 个 重要 的 区 别 。 必 就 是 前 面 所 讲 的 ， 缓 冲 页 和 
一 方面 与 一 个 page 结构 相 联 系 ， 另 一 方面 义 要 与 若 十 记录 块 缓冲 区 的 头 部 , Bl buffer head 数据 结构 相 
联系 ， 市 新 分 配 的 页 面 则 尚 无 buffer_head 结构 与 之 挂钩 。 所 以 ， 对 于 新 分 卫 的 空白 页 面 一 来 要 为 其 配 
备 相应 的 buffer head 数据 结构 ， 二 来 疲 将 日 标 页 面 的 内 容 先 从 设备 路 读 入 〈 因 为 写 操 作 术 必 是 整个 页 
面 的 写 入 )。 不 仪 如 此 ， 就 是 业已 存在 的 老 页 面 也 有 个 缓冲 负面 中 的 内 容 是 否 “up_to_date”， 即 是 人 省 一 
致 的 问题 。 这 里 所 谓 “一 致 ”， 是 指 缓 冲 页 而 或 缓冲 区 中 的 内 容 与 设备 上 的 洲 辑 内 容 ( 沾 一定 是 物理 内 
容 ) — Br, Eau Anm. block commit write ) 的 讨论 。 换 言 之 ， 企 开始 写 入 前 还 此 做 一 些 准备 
工作 ， 而 这 些 准 备 工作 与 具体 文件 系统 有 关 ， 所 以 由 具体 的 address space operations AGE £i Filis og 
数 指针 prepare, write 提供 具体 的 操作 函数 ， 就 Ext2 CHARM 7, XX ERN. ext2_prepare_wrete( )， 
其 代码 在 fs/ext2/inode.c P: 


[sys_write( ) > generic_file_write( ) > ext2_prepare_write( )] 


661 static int ext2 prepare write (struct file *file, struct page *page, 
unsigned from, unsigned to) 

662 { 

663 return block prepare write (page, from, to, ext2_get block); 


} 


这 里 block_prepare_write( ) 古 个 通用 的 函数 , 定义 于 fs/buffer.c, 其 上 基体 的 低层 操作 出 作为 参数 传递 
的 函数 指针 决定 ， 而 这 里 传 下 去 的 前 数 为 ext2_get_block( )。 


[sys_write( ) > generic file write( ) > ext2 prepare write( ) > block prepare write( )] 


1832 int block prepare write(siruct page *page, unsigned from, unsigned to, 
1833 get block t *gct block) 

1834 { 

1835 struct inode *inode - page—>mapping->host; 

1836 int err = __ block prepare write(inode, page, from, to, get block): 
1837 if (err) | 

1838 ClearPageUptodate (page) : 
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1839 kunmap (page) ; 
1840 } 

1841 return err; 

1842 } 


显然 ， 这 个 孙 数 的 主体 是 __block_prepare_write( )， 它 的 代码 也 在 同一 文件 fs/buffer.c 中 : 


[sys_write( ) > generic file write( ) > ext2_prepare_write( ) > block prepare. write( ) > 
..block prepare write( )] 


1557 static int ^ block prepare write (struct inode *inode, struct page *page, 


1558 unsigned from, unsigned to, get block t *get block) 
1559 { 

1560 unsigned block, start, block end; 

1561 unsigned long block; 

1562 int err = 0; 

1563 unsigned blocksize, bbits; 

1564 struct buffer head *bh, *head, *wait[2], **wait_bh=wait: 
1565 char *kaddr = kmap (page) ; 

1566 

1567 blocksize = inode->i_sb->s blocksizo; 

1568 if (!page->buffers) 

1569 creato empty buffers(page, inode->i dev, blocksizo); 
1570 head = page->buffers:; 

1571 

1572 bbits = inode->i_sb->s_blocksize bits; 

1573 block = page->index << (PAGE CACHE SHIFT - bbits); 

1574 

1575 for (bh = head, block start = 0; bh != head || !block start; 
1576 block++, block start-block end, bh ~ bh->b this pago) { 
1577 if (!bh) 

1578 BUG( ) ; 

1579 block end = block start*blocksize; 

1580 if (block end <= from) 

1581 continue; 

1582 if (block start >= to) 

1583 break; 

1584 if (!buffer mapped(bh)) { 

1585 err = get block(inode, block, bh, 1); 

1586 if (err) 

1587 goto out; 

1588' if (buffer new(bh)) | 

1589 unmap underlying metadata (bh); 

1590 if (Page Uptodate(page)) { 

1591 set bit(BH Uptodate, &bh—^b state); 

1592 cont inue; 

1593 ] 

1594 if (block end > to) 
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1595 memset (kaddr+to, 0, block end-to): 
1596 if (block start < from) 

1597 memset (kaddr+block_start, 0, from-block start); 
1598 if (block_end > to || block_start < from) 
1599 flush dcache page (page) ; 

1600 continue; 

1601 } 

1602 } 

1603 if (Page Uptodate(page)) { 

1604 set bit(BH Uptodate, &bh->b state); 

1605 continue; 

1606 } 

1607 if (buffer uptodate (bh) && 

1608 (block start < from || block end > to)) { 
1609 1l rw block (READ, 1, &bh); 

1610 *wait_bh+t+=bh; 

1611 } 

1612 } 

1613 /* 

1614 * If we issued read requests - let them complete. 
1615 */ 

1616 while(wait bh > wait) { 

1617 wait on buffer(*--wait bh); 

1618 err - -EIO; 

1619 if (buffer_uptodate Ckwait bh)) 

1620 goto out; 

1621 ] 

1622 return 0; 

1623 out: 

1624 return err; 

1625  ] 


参数 get. block 是 个 函数 指针 ， 对 于 Ext2 文件 系统 它 指 疝 exi2, get. block( )«. 3X4 FRAIS HEA 
一 个 给 定 的 缓冲 页 面 中 的 记录 块 缓冲 区 做 好 写 入 的 准备 。 如 前 所 述 ， 因 具体 文件 系统 和 设备 的 不 同 ， 
记录 块 的 大 小 也 可 能 不 同 ， 其 实际 的 大 小 记录 在 设备 的 超级 块 中 ， 从 而 在 super_block 结构 中 。 一 个 页 
面 由 芳 干 个 记录 块 构成 。 对 于 原 已 存在 的 页 面 ， 这 些 缓冲 区 的 buffer_head 结构 都 通过 指针 b this page 
指向 同一 页 面 中 的 下 -个 buffer head， 耐 形成 缓冲 页 面 page 结构 里 的 队列 buffers。 而 如 果 是 新 分 配 建 
立 的 页 而 ， 则 要 道 过 create_empty_buffers( ) 为 该 页 面 配备 好 相应 的 buffer head 结构 ， 并 建立 起 这 个 队 
列 。 这 个 函数 的 代码 也 在 bufferc 中 : 


[sys write( ) > generic file write( ) > ext2 prepare write( ) »block prepare write( ) > 
. .block prepare write( ) > create empty. buffers( )] 


1426 static void create empty buffers (struct page *page, kdev t dev, 
unsigned long blocksize) 

1427 | 

1428 struct buffer head *bh, *head, *tail; 
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1429 

1430 head = create buffers(page, blocksize, 1); 
1431 if (page->buffers) 

1432 BUG( ) ; 

1433 

1434 bh = head; 

1435 do { 

1436 bh-5b dev = dev; 

1437 bh->b_blocknr - 0; 
1438 bh~>b_end_io = NULL; 
1439 tail = bh; 

1440 bh = bh->b this page; 
1441 } while (bh); 

1442 tail-5b this page = head; 
1443 page-»buffers = head; 
1444 page cache get(page); 

1445 } 


这 里 的 page. cache. get( ) 只 是 递增 page 结构 中 的 共享 计数 。 

回 到 __block_prepare_write( ) 的 代码 中 。 如 前 所 述 , 虽然 在 文件 系统 层次 上 是 以 页 而 为 单位 缓冲 的 ， 
在 设备 层次 上 却 是 以 记录 块 为 单位 缓冲 的 。 所 以 ， 如 采 一 个 缓冲 页 面 的 内 容 是 : 致 的 ， 就 意味 着 构成 
这 个 页 面 的 所 有 记 法 块 的 内 容 都 “ 致 ， 肥 过 来 ， 如 果 一 个 缓冲 页 面 不 一 化 ， 则 未 必 每 个 记录 块 都 不 一 
致 。 因 此 ， 上 要 根据 所 入 的 位 置 和 长 度 找到 其 体 涉及 的 记录 块 ， 针 对 这 些 记录 块 做 扎 入 的 准备 。 

做 些 什么 准备 呢 ? 简 而 言 之 就 起 使 有 关 记 录 块 缓冲 区 的 内 容 与 设备 上 相关 记录 块 的 内 容 相 M 
如 果 缓 冲 页 面 已 经 建立 起 对 物理 记录 块 的 映射 ， 则 需要 做 的 只 是 恰 查 一 个 月 录 记 录 块 的 内 容 契 和 否 … 致 
( 见 第 1607 行 和 1608 F), WRT MAT 1L_rw_block() 将 设备 上 的 记录 块 读 到 缓冲 区 中 。 出 此 可 
见 ， 对 文件 的 写 操 作 实际 上 往往 是 “ 写 中 有 读 尖 “和 欲 写 先 读 ” 

可 是 ， 如 果 绥 六 页 面 是 新 的 ， 尚 未 映射 到 物理 记录 块 妮 ?” 那 号 比较 复杂 一 些 了 ， 因 为 根据 页 面 号 、 
页 面 大 小 、 记 录 块 大 小 计算 所 得 的 记 淫 块 号 ( 见 1585 行 ) 只 是 文件 内 部 的 逻辑 坝 号 ， 这 是 在 假定 文件 
的 内 容 为 连续 的 线性 字 间 这 么 一 个 前 提 下 计算 出 来 的 ， 而 实际 的 记录 块 在 设备 上 的 位 置 则 是 动态 地 分 
配 和 回收 的 。 另 一 方面 ， 在 设备 层 也 根本 没有 文件 的 概念 ， 而 只 能 按 设 备 上 的 记录 块 号 读 写 。 设 备 十 
的 记录 块 号 也 是 逻辑 块 号 ， 与 设备 上 的 记录 块 位 图 相对 应 。 而 设备 上 的 逻辑 块 号 与 物理 记录 块 有 着 一 
一 对 应 的 关系 ， 所 以 在 文件 层 也 可 以 认为 是 “物理 块 号 ”。 总 而 音 之 ， 这 里 有 一 个 从 文件 内 的 逐 辑 记录 
块 写 到 设备 上 的 记录 鼎 号 之 间 的 映射 问题 。 缺 少 了 对 这 种 映射 关系 的 描述 ， 就 无 法 根据 文件 内 的 逻辑 
块 号 在 设备 上 找到 相应 的 记录 块 。 可 想 而 知 ， 不 同 的 文件 系统 可 能 有 不 同 的 映射 关系 或 过 程 ， 这 就 是 
要 由 作为 参数 传 给 __block_prepare_write( ) 的 函数 指针 get. block 来 完成 这 种 映射 的 原因 。 对 十 Ext2 文 
件 系 统 这 个 函数 是 exi2, get. block( ) YE fs/ext2/inode.c P: 





[sys write( ) > generic_file_write( ) > ext2 prepare write( ) > block prepare write( ) > 
. block prepare write( ) > ext2 get block( )] 


506 static int ext2_get_block (struct. inode *inode, long iblock, 


struct buffer head *bh result, int create) 
507 { 
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508 int err = -ETO; 

509 int offsets([4]; 

510 Indirect chain[4]; 

511 Indirect *partial; 

512 unsigned long goal; 

513 int left; 

514 int depth = ext2 block to path(inode, iblock, offsets); 

515 

516 if (depth == 0) 

517 goto out; 

518 

519 lock kernel ( ); 

520 reread: 

521 partial = ext2 get branch(inode, depth, offsets, chain, &err); 
522 

523 /* Simplest case - block found, no allocation needed */ 

524 if (!partial) { 

525 got it: 

526 bh_result—>b dev = inode-?i dev; 

527 bh result->b blocknr = 1e32 to cpu(chain[depth-1]. key) ; 
528 bh result->b state |= (1UL << BH Mapped); 

529 /* Clean up and exit */ 

530 partial = chain*depth-1; /* the whole chain */ 

531 goto cleanup; 

532 ) 

533 

534 /* Next simple case - plain lookup or failed read of indirect block */ 
535 if (!create || err == -EIO) { 

536 cleanup: 

537 while (partial > chain) { 

538 brelse (partial—>bh) : 

539 partial--; 

540 } 

541 unlock kernel( ); 

542 out: 

543 return err; 

544 ) 

545 

546 /* 

547 * Indirect block might be removed by truncate while we were 
548 * reading it. Handling of that case (forget what we've got and 
549 * reread) is taken out of the main path. 

550 */ 

551 if (err == -EAGAIN) 

552 goto changed; 

553 

554 if (ext2 find goal(inode, iblock, chain, partial, &goal) < 0) 
555 goto changed; 
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556 

557 left = (chain + depth) - partial; 

558 err = ext2 alloc branch(inode, left, goal, 

559 offsets*(partial-chain), partial); 
560 if (err) 

561 goto cleanup; 

562 

563 if (ext2 splice branch(inode, iblock, chain, partial, left) < 0) 
564 goto changed; 

565 

566 bh result-^»b state i= (1UL << BI] New) ; 

567 goto got it; 

568 

569 changed: 

570 while (partial > chain) { 

571 bforget (partial->bh) ; 

572 partial--; 

513 } 

914 goto reread; 

575 } 


参数 iblock 表示 所 处 理 的 记录 块 企 文件 中 的 逻辑 块 号 , inode 则 指向 文件 的 inode 结构 ; 参数 create 
表示 是 否 需要 创建 。 从 __block_prepare_write( ) 中 传 上 的 实际 参数 值 为 1, 所 以 我 们 在 这 里 只 关心 create 
为 1 的 情景 。 从 文件 内 块 号 到 设备 上 块 写 的 映射 ， 最 简单 最 迅速 的 当然 莫 过 于 使 用 一 个 以 文件 内 块 号 
为 下 标的 线性 数组 ， 并 日 将 这 个 数组 置 于 索引 节点 inode 结构 由。 可 是 ， 那 样 就 需要 很 大 的 数组 ， 从 而 
使 索引 节点 和 inode 结构 也 变 得 很 人 ， 或 者 就 得 使 用 吕 变 长 度 的 索引 节点 而 使 文件 系统 的 结构 更 加 复 


男 一 种 方法 是 采用 间接 寻 址 ， 也 就 是 将 上 述 的 数组 分 块 放 在 设备 上 本 米 可 用 十 存储 数据 的 若 于 记 
录 块 中 ， 向 将 这 些 记录 块 的 块 叶 放 在 索引 节点 和 inode 结构 中 。 这 些 记录 块 虽然 在 设备 上 的 数据 区 (市 
不 是 索引 节点 区 》 中， 却 并 不 构成 文 什 本 身 的 内 容 ， 而 只 是 些 管理 信息 。 由 十 索引 节点 《和 inode 
结构 应 该 是 固定 大 小 的 ， 所 以 当 文 件 较 大 时 还 要 将 这 种 间接 导 址 的 结构 框架 做 成 树 状 或 链 状 ， 这 样 
能 随 关 文件 人 本身 的 大 小 而 扩 央 其 容量 ， 显 然 ， 这 种 方法 解决 了 容量 的 问题 ， 但 是 降低 了 运行 时 的 效 

其 于 这 些 考虑 ， 从 Unix 早期 就 采用 了 -- 种 折衷 的 方法 ， 吕 以 说 是 直接 与 间接 相 结 合 。 其 方法 是 把 
整个 文件 的 记录 块 寻 址 分 成 几 个 部 分 来 实现 。 第 -部 分 是 个 以 文件 内 抉 号 为 下 标的 数组 ， 这 是 采用 下 
接 映 射 的 部 分 , 对 于 较 小 的 文件 这 一 部 分 就 够 用 了 。 出 于 根据 文件 内 块 号 就 可 以 在 inode 结构 里 的 数组 
中 直接 找 公 相 应 的 设备 上 块 号 ， 所 以 效率 很 高 。 全 于 比较 大 的 文件 ， 其 开头 那 一 部 分 记录 块 呈 也 同样 
直接 就 可 以 找 人 到 ， 但 是 当 文 件 的 大 小 超出 这 一 部 分 的 容 景 时， 超出 的 那 一 部 分 就 要 采用 间接 二 址 了 。 
Ext2 文件 系统 的 这 一 -部 分 的 大 小 为 12 个 记录 块 ， 即 数组 的 人 小 为 12。 当 记录 块 大 小 为 1K 字 节 时 ， 相 
应 的 文件 大 小 为 12K 字 节 。 在 Ext2 文件 系统 的 ext2_inode_info 结构 中 ， 有 个 大 小 为 15 的 整 型 数组 
i_data[ ]， 其 开头 12 个 元 素 邮 用 于 此 项 日 。 当 文件 大 小 超过 这 一 部 分 的 容量 时 ， 该 数组 中 的 第 13 个 元 
素 指 癌 一 个 记录 快 ， 这 个 记录 块 的 内 容 也 是 一 个 整 型 数组 ， 其 中 的 每 个 元 素 部 指向 一 个 设备 上 记录 块 。 
如 果 记 录 块 大 小 为 1K 字 节 , 则 该 数 纽 的 大 小 为 2$6, 也 就 是 说 间接 寻 址 的 容量 为 256 个 记录 块 , 即 256K 
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字 节 。 这 样 ， 两 个 部 分 的 总 容量 为 12K + 256K=268K 字 节 。 可 是 ， 更 大 的 文件 还 是 容纳 不 下 ， 所 以 超 
过 此 容量 的 部 分 此 进一步 采用 双重 (二 层 〉 间 接 导 址 。 此 时 inode 结构 申 i data ] 数 组 中 的 第 14 个 元 
素 指向 另 一 个 记录 块 ， 该 记录 上 岂 的 内 容 也 是 … 个 数组 ， 但 是 每 个 元 素 前 指向 另 一 个 记录 块 中 的 数组 ， 
那 才 是 文件 内 块 号 至 设备 上 块 号 的 映射 表 。 这 么 一 来 ， 双 重 间接 寻 址 部 分 的 能 力 为 256X256=64K 个 
记录 块 ， 旭 | 64M 字 节 。 依 此 类 推 ， 数 组 i_data[ ] 中 的 第 15 个 元 素 用 于 二 重 (三 层 ) 间接 导 址 ， 这 一 部 
分 的 容量 可 达 256X256X256=16M 个 记录 块 ， 也 就 是 16G 字 节 ， 所 以 ， 对 于 32 位 结构 的 系统 ， 当 记 
录 块 大 小 为 1K 字 节 时 ， 文 件 的 最 大 容量 为 16G+64M+256K+12K。 如 果 设 备 的 容量 大 于 这 个 数值 ， 就 
得 采用 更 大 的 记录 块 大 小 了 。 网 5.7 是 -个 关于 直接 和 间接 映射 的 示意 图 。 

i data[15] 





一 次 间 址 
二 次 问 址 








NOU 人 
aa) A 


三 次 间 址 














间 址 块 





图 5.7 多 重 间 接 映射 示意 图 


从 严格 意义 上 说 ，i_data[ ] 其 实 不 能 党 是 一 个 数组 ， 因 为 它 的 元 素 并 不 都 是 同一 类 型 的 。 但 是 ， 从 
另 一 个 角度 说 ， 则 这 些 元 素 毕 竞 都 是 长 整数 ， 都 代表 着 设备 上 个 记录 块 ， 只 是 这 些 记录 块 的 用 途 不 
同 而 已 。 

这 里 还 要 注意 ,在 inode 结构 中 有 个 成 分 名 为 i_data, 这 是 一 个 address. space 数据 结构 .向 作 为 inode 
结构 一 部 分 的 ext2_inode_info 结构 中 ， 也 有 个 名 为 i_data 的 数组 ， 实 际 MIR, AS 
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无 关系 。 从 概念 上 说 ，inode 结构 是 设备 上 的 索引 节点 即 ext2_inode 结构 的 对 应 物 ， 但 实际 上 inode 结 
构 中 的 很 多 内 容 并 非 米 自 ext2_inode 结构 。 相 比 之 下 ， ext2_inode_info 结构 中 的 信息 才 是 基本 上 与 设备 
上 的 索引 节点 相对 应 的 。 例 如 ， 与 ext2 inode info 中 的 数组 i data[ ] 相 对 应 ， 在 ext2_inode 结构 中 也 有 有 
个 数组 i_block[ ]， 两 个 数组 的 大 小 也 相同 。 而 ext2_inode_info 中 的 数组 i_dataf ] 之 所 以 不 能 再 大 一 些 ， 
就 是 因为 索引 节点 中 的 数组 i_block[ ] 只 能 这 么 大 了 。 那 么 内 存 中 的 inode 结构 为 什么 与 设备 上 的 索引 
节点 有 相当 大 的 不 同 呢 ? 原因 在 于 设备 上 索引 节点 的 大 小 受到 更 多 的 限制 ， 所 以 在 索引 节点 中 只 能 存 
储 必 需 的 信息 ， 而 且 是 相对 静态 的 信息 。 而 内 存 中 的 inode 结构 就 不 同 了 ， 它 受 的 限制 比较 小 ， 除 了 来 
自 索引 节点 的 必需 信息 外 还 可 以 用 来 保存 - - 些 为 方便 和 提高 运行 效率 所 需 的 信息 ， 还 有 …- 些 运行 时 需 
要 的 更 为 动态 的 信息 , 如 各 种 指针 , 以 及 为 实现 某 些 功能 所 需 的 信息 , 如 i_sock, i pipes i wait 和 ji flock 
等 等 。 还 应 提醒 读者 ， 设 备 上 的 索引 节点 数量 与 设备 的 大 小 以 及 文件 系统 格式 的 设计 有 直接 的 关系 ， 
设备 上 的 每 一 个 文件 都 有 - -个 索引 节点 , 但 是 内 存 中 的 inode 结构 则 主要 起 缓冲 性 质 的 , 实际 上 只 有 很 
小 一 部 分 文件 在 内 存 中 建立 并 保持 inode 结构 。 


有 了 这 些 背 景 知识 ， 我 们 就 可 以 深入 到 ext2_get_block( ) 的 代码 中 了 。 这 里 用 到 的 -- 些 宏 定 义 都 在 
include/linux/ext2, fs.h FP: 


85 # define EXT2 BLOCK SIZE (s) ((s3)—s blocksize) 
90  #define EXT2 ADDR PER BLOCK(s) (EXT2 BLOCK SIZE(s)/sizeof ( u32) ) 


97 #define EXTZ ADDR PER BLOCK BITS(s) ((s)->u. ext2 sb.s addr per block bits) 


174 /* 

175 * Constants relative to the data blocks 

176 */ 

177 #define EXT2 NDIR BLOCKS 12 

178 &define EXT2 IND BLOCK EXT2 NDIR BLOCKS 

179 define EXT2 DIND BLOCK (EXT2_IND BLOCK + 1) 
180 #define EXT2_TIND BLOCK (EXT2_DIND BLOCK + 1) 
181 #define EXT2 N BLOCKS (EXT2 TIND BLOCK + 1) 


这 些 定义 中 的 EXT2, NDIR. BLOCKS 为 12， 表 示 直 接 映射 的 记录 块 数量 。EXT2_IND_BLOCK 的 
信也 是 12， 表 示 在 i data[ ] 数 组 中 用 于 -次 间接 映射 的 元 素 下 标 。 而 EXT2 DIND BLOCK 和 
EXT2_TIND_BLOCK 则 分 别 为 用 于 二 次 间接 和 三 次 间接 的 元 素 下 标 。 至 于 EXT2_N BLOCKS 则 为 
i data[ ] 数 组 的 大 小 。 

首先 根据 文件 内 块 号 计算 出 这 个 记录 块 落 在 哪 一 个 区 间 ， 此 采用 几 重 映射 (1 表示 直接 )。 这 是 由 
ext2_block_to_path( ) 完 成 的 ， 其 代码 在 fs/ext2/inode.c 中 : 


{sys_write( ) > generic_file_write( ) > ext2_prepare_write( ) > block_prepare_write( ) > 
..block prepare write( ) > ext2 get block( ) > ext2_block_to_path( )] 


144  /** 
145 * extZ block to path - parse the block number into array of offsets 
146 * @inode: inode in question (we are only interested in its superblock) 
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6i block: block number to be parsed 
Goffsets: array to store the offsets in 


To store the locations of file's data ext2 uses a data structure common 
for UNIX filesystems - tree of pointers anchored in the inode, with 
data blocks at leaves and indirect blocks in intermediate nodes. 

This function translates the block number into path in that tree - 
return value is the path length and Goffsets[n] is the offset of 
pointer to (n+l)th node in the nth one. If @block is out of range 
(negative or too large) warning is printed and zero returned. 


Note: function doesn't find node addresses, so no IO is needed. All 
we need to know is the capaciiy of indirect blocks (taken from the 


Xo X X X He Xo X X X* X KH KR KH OX 


inode->i_sb). 


x 
N 


N 
* 


Portability note: the last comparison (check that we fit into triple 
indirect block) is spelled differently, because otherwise on an 
architecture with 32-bit longs and 8Kb pages we might get into trouble 
if our filesystem had 8Kb blocks. We might use long long, but that would 
kill us on x86. Oh, well, at least the sign propagation does not matter 
i block would have to be negative in the very beginning, so we would not 
get there at all. 


t X X % HF X* X 


*/ 


static int ext2 block to path(struct inode *inode, long i block, 
int offsets[4]) 
{ 
int ptrs = EXT2 ADDR PER BLOCK (inode->i_sb) ; 
int ptrs bits = EXT2 ADDR PER BLOCK_BITS (inode->i_sb) ; 
const long direct blocks = EXT2 NDIR BLOCKS, 
indirect blocks = ptrs, 
double blocks = (1 «€ (ptrs bits * 2)); 


int n = 0; 


if (i block < 0) 1 
ext2 warning (inode-i sb, “ext2 block to path”, "block < 0”); 
} else if (i block < direct blocks) { 
offsets[nt+] = i block; 
| else if ( (i block -= direct blocks) < indirect blocks) { 
offsets[nt+] = EXT2 IND BLOCK; 
offsets[n**] = i block; 
} else if ((i block -= indirect blocks) < double blocks) { 
offsets[n++] = EXT2 DIND BLOCK; 
offsets[n*^] = i block >> ptrs bits; 
offsets[nt++] = i block & (ptrs - 1); 
) else if (((i block -= double blocks) >> (ptrs bits * 2)) < ptrs) { 
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194 offsets[n*4] = EXT2 TIND BLOCK; 

195 offsets[n++] = i block >> (ptrs bits * 2); 

196 offsets[nt*] = (i block >> ptrs bits) & (ptrs - 1); 

197 offsets[n^^] = i block & (ptrs - 1); 

198 } else { 

199 ext2 warning (inode->i_sb, "ext2 block to path”, “block > big”); 
200 } 

201 return n; 

202  ] 


根据 上 面 这 些 宏 定 义 ， 在 记录 块 大 小 为 IK 字 节 时 ， 代 但 中 的 局 部 量 ptrs WAX 256, Mih 
indirect blocks 也 是 256. + ptrs 相对 应 的 ptrs_bits 则 为 8， 因 为 256 是 由 1 左 移 8 位 而 成 的 。 同 样 地 ， 
二 次 间接 的 容量 double blocks 就 是 由 1 AH 16 位 ， 即 64K。 而 一 次 间接 的 容量 为 由 1 左 移 24 位 ， 即 
16M. 

BRB “CORRE” Sh, VSXESEULTE RE UN HO, BU Fes SRT REQUE HR 
放 在 一 个 数组 offset ] 中 备用 。 例 如 , 文件 内 块 号 10 不 需要 间接 了 映射, 一 步 就 能 到 位 , 所 以 返回 值 为 1， 
并 于 offset[0] 中 返回 在 第 一 个 数组 ， 即 i_datal ] 中 的 位 移 10。 可 是 ， 假 若 文件 内 块 号 为 9， 则 返回 值 
为 2， 而 offset[0] 为 12，offset[1] 为 8。 这 样 ， 就 在 数组 offset ] 中 为 各 层 映 射 提供 了 一 条 路 线 。 数 组 的 
大 小 是 4, 因为 最 多 就 是 三 重 间 接 。 BK offset 实际 上 是 一 个 指针 , 在 C 语言 里 数组 名 与 指针 是 等 价 的 。 

如 果 ext2, block to path( ) 的 返回 值 为 0 表示 出 了 错 ， 因 为 文件 内 块 号 与 设备 上 块 号 之 问 至 少 也 得 
映射 一 次 。 出 错 的 原因 可 能 是 文件 内 块 号 太 大 或 为 负 值 ， 或 是 下 面 要 讲 到 的 冲突 。 否 则 ， 就 进一步 从 
磁盘 上 逐 层 读 入 用 于 间接 映射 的 记录 块 ， 这 古山 ext2, get. branch( ) 完 成 的 。 


[fsys_write( ) > generic. file, write( ) > ext2 prepare write( ) » block prepare write( ) 
». block prepare write( ) > ext2 get block( ) > ext2 get branch( )] 


204 /** 

205 * ext2 get branch - read the chain of indirect blocks leading to data 
206 * @inode: inode in question 

207 * (depth: depth of the chain (1 - direct pointer, etc.) 

208 * @offsets: offsets of pointers in inode/indirect blocks 

209 * (chain: place to store the result 

210 * (err: here we store the error value 

211 * 

212 * Function fills the array of triples <key, p, bh> and returns %NULL 
213 * if everything went OK or the pointer to the last filled triple 

214 * (incomplete one) otherwise. Upon the return chain[i]. key contains 
215 * the number of (i*1)-th block in the chain (as it is stored in memory, 
216 * i.e. little-endian 32-bit), chainli].p contains the address of that 
217 * number (it points into struct inode for i--0 and into the bh-^b data 
218 * for i>0) and chain[i].bh points to the buffer head of i-th indirect 
219 * block for i>0 and NULL for i--0. In other words, it holds the block 
220 * numbers of the chain, addresses they were taken from (and where we can 
221 * verify that chain did not change) and buffer heads hosting these 

222 * numbers. 

223 * 
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Function stops when it stumbles upon zero pointer (absent block) 
(pointer to last triple returned, *@err == 0) 

or when it gets an IO error reading an indirect block 
(ditto, *@err == -EIO) 

or when it notices that chain had been changed while it was reading 
(ditto, *@err == -EAGAIN) 

or when it reads all Gdepth-1 indirect blocks successfully and finds 

the whole chain, all way to the data (returns *WNULL, *err == 0). 


*X * * X X X X 项 


*/ 


static inline Indirect *ext2 get branch(struct inode *inode, 


int depth, 

int *offsets, 
Indirect chain(4], 
int *err) 


kdev t dev = inode—^i dev; 

int size = inode-^i sb-5s blocksize; 
Indirect *p - chain; 

Struct buffer head *bh; 


*err = 0; 
/* i data is not going away, no lock needed */ 
add chain (chain, NULL, inode-^u.ext2 i.i data + *offsets); 
if (!p— key) 
goto no block; 
while (--depth) { 
bh = bread(dev, 1e32 to cpu(p key), size): 
if (!bh) 
goto failure; 
/* Reader: pointers */ 
if (!verify chain(chain, p)) 
goto changed; 
add chain(^*p, bh, (u32*) bh->b_data + ***offsets); 
/* Reader: end */ 
if (!p->key) 
goto no block; 
) 
return NULL; 


changed: 


*err = -EAGAIN; 
goto no block; 


failure: 


*err = -EIO; 


no_block: 


} 
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与 前 -个 函数 中 的 offset[ ] 一 样 ， 这 里 的 参数 chain[ ] 也 是 一 个 指针 ， 指 向 “个 Indirect 结构 数组 ， 
其 类 型 定义 于 fs/ext2/inode.c: 


125 typedef struct { 


126 u32 *p; 

127 u32 key; 

128 struct buffer head *bh; 
129 ) Indirect; 


根据 数组 offset[ | (BR offsets 指向 这 个 数组 》 的 指引 ， 这 个 函数 逐 层 将 用 十 记录 块 号 映射 的 记录 块 
读 入 内 存 ， 并 将 指向 缓冲 区 的 指针 保存 在 数组 chain[ ] 的 相应 元 素 ， 即 Indirect 结构 中 。 间 时 ， 还 要 使 
该 Indirect 结构 中 的 指针 p 指向 本 层 记 录 块 号 了 映射 去 〈 数 组 ) 中 的 相应 表 项 ， 并 使 字段 key 持 有 该 表 项 
AA. RA Indirect 结构 的 内 容 是 由 add. chain( ) 设 置 的 : 


[sys write( ) > generic file. write( ) > ext2 prepare write( ) > block prepare write( ) > 
...block prepare write( ) > ext2 get block( ) > ext2 get branch( ) > add, chain( )] 


131 static inline void add chain(lndirect *p, struct buffer head *bh, u32 *v) 
132 { 


133 p->key = *(p->p - v); 
134 p->bh = bh; 
135} 


Ta EA BI rft Pr 2S E PSI APO SEE Bil. 文件 内 块 号 10 不 需要 间接 映射 ， 所 以 只 用 chain[0] 一 个 Indirect 
结构 。 其 指针 bh 为 NULL， 因 为 没有 用 十 间接 映射 的 记录 块 ， 指 针 p 指向 映射 表 中 直接 映射 部 分 下 标 
为 10 kb, Bü&inode-»u.ext2 i.i data[10]; 出 key 则 持 有 该 表 需 的 内 容 ， 即 所 映射 的 设备 上 块 号 。 相 比 
LP, MARS 20 需要 一 次 间接 映射 ， 所 以 要 用 chain[0] 和 chainf1] 两 个 表 项 。 第 一 个 表 项 chain[0] 
中 的 指针 bh 仍 为 NULL， 因 为 在 这 一 层 上 没有 用 十 间接 映射 的 记录 块 ; 指针 p 指向 映射 表 中 下 标 为 12 
处 ， 妈 &&inode->u.ext2_i.i_data[12]， 这 是 用 寺 一 层 间 接 映 射 的 表 项 ; 而 key 则 持 有 该 表 项 的 内 容 ， 即 用 
于 一 层 间 接 映射 的 记录 块 的 设备 上 块 号 。 第 二 个 表 项 chain[1] 中 的 指针 bh 则 指向 该 记录 块 的 缓冲 区 ， 
这 个 缓冲 区 的 内 容 就 是 几 作 映射 表 的 一 个 整数 数组 。 所 以 chain[1] 中 的 指 外 p 指 疝 这 个 数组 中 下 标 为 8 
处 ,而 key 则 持 有 该 表 项 的 内 容 ， 即 经 过 间接 映射 后 的 设备 上 抉 号 。 这 样 , 根据 具体 映射 的 深度 depth, 
数组 chain[ ] 中 的 最 后 一 个 元 素 ， 更 确切 地 说 是 chain[depth 一 1].key， 总 是 持 有 目标 记录 块 的 物理 上 央 号 。 
而 从 chain[ | 中 的 第 一 个 元 素 chain[0] 到 具体 映射 的 最 后 一 个 元 素 chain[depth — 1], 则 提供 了 具体 映射 的 
整个 路 径 ， 构 成 了 一 条 映射 链 ， 这 也 是 数组 名 chain 的 由 来 。 如 果 把 映射 的 过 程 看 成 “ 疏 树 ”的 过 程 ， 
则 一 条 映射 链 也 可 看 成 决定 着 树 上 的 个 分 枝 ， 所 以 HU ext2_get_branch( )。 

给 定 chain[ ] 数 组 中 的 上 山 个 Indirect 结构 ， 可 以 通过 一 个 吸 数 verify_chain( ) 检 查 它 们 是 否 构 成 一 条 
有 效 的 映射 链 (fs\ext2\inode.c): 


[sys write( ) > generic file write( ) > ext2 prepare write( ) > block prepare write( ) 
».. block prepare write( ) > ext2 get block( ) > ext2 get branch() > verify. chain( )] 


137 static inline int verify chain(lndirect *from, Indirect *to) 
138 { 
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139 while (from <= to && from->key == *from->p) 
140 fromt+; 

141 return (from > to); 

142 } 


fr ex, get branch( ) 的 代码 中 可 以 看 到 : 从 设备 上 逐 层 读 入 用 于 间接 映射 的 记录 块 时 ， 每 通过 
bread( ) 读 入 ”个 记录 块 以 后 都 要 调 川 verify_chain( ) 再 检查 .于 映射 链 的 有 效 性 ， 实 质 上 是 检查 各 层 觅 
AeA IN PAN A SUAE Y ( 匈 代 码 中 的 条 件 from->key = = *from->p)。 为 什么 有 可 能 改变 呢 ? 这 是 
因为 从 设备 上 读 入 -个 记录 块 是 费时 间 的 操作 ， 当 前 进程 会 进入 胜 卢 而 系统 会 调度 其 他 进程 运行 。 这 
样 ， 就 有 可 能 发 生 冲 突 了 。 例 如 ， 被 调度 运行 的 进程 可 能 会 打开 这 个 文件 并 加 以 截 尾 ， 即 把 文件 诛 有 
的 内 容 删 除 。 所 以 ， 当 因 等 待 读 入 中 间 记 录 块 和 进入 睡眠 的 进程 恢复 运行 的 时 候 ， 可 能 会 发 现 原来 有 
效 的 映射 链 已 经 变 成 无 效 了 ， 此 时 ext2_get branch( ) 返 回 一 个 出 错 代 码 一 EAGAIN。 当 然 ， 发 生 这 种 情 
况 的 概率 是 很 小 的 ， 但 是 一 个 软件 是 否 “健壮 ”就 在 于 是 否 考虑 到 了 所 有 的 可 能 。 全 于 bread( )， 那 已 
是 属于 设备 驱动 的 范畴 ， 读 者 可 参阅 块 设备 豫 动 一 章 中 的 有 关内 容 。 

这 样 ，ext2_get_branch( ) 深 化 了 ext2_block_to_path( ) 所 取得 的 结果 ,二 者 合 在 一 起 基本 完成 了 从 文 
件 内 抉 号 到 设备 上 块 号 的 映射 。 

从 ext2_get_branch( ) 返 局 的 值 有 两 种 可 能 。 首 先 ， 如 果 顺 利 完成 了 映射 则 返回 值 为 NULL。 其 次 ， 
WREE : 层 上 发 现 映 射 表 内 的 相应 表 项 为 0， 则 说 明 这 个 表 项 (记录 块 ) 原 米 并 不 存在 ， 现 在 因为 写 
操作 而 需要 扩充 文件 的 大 小 。 此 时 返回 指向 该 层 Indirect 结构 的 指针 ， 表示 映射 在 此 “断裂 ”了 。 此 外 ， 
如 有 果 映 射 的 过 程 中 出 了 错 ， 例 如 读 记 隶 块 失败 ， 则 通过 参数 err 返回 个 出 错 代码 。 

回 到 ext2_get_block( ) 的 代码 中 。 如 果 顺 利 完 成 了 上 映射， 就 把 所 得 的 结果 填 入 作为 参数 传 下 来 的 组 
冲 区 结构 bh. result 中 ， 然 后 把 映射 过 程 中 读 入 的 缓冲 区 (用 于 间接 映射 ) 全 都 释放 ， 就 最 后 完成 了 记 
录 块 号 的 映射 。 

可 是 ， 此 是 ext2_get_branch( ) 返 回 了 一 个 非 0 指针 《代码 中 的 局 部 量 partial1)， 那 就 说 明 上 映射 在 其 
一 层 上 断裂 了 。 和 根据 映射 的 深度 和 断裂 的 位 置 〈 层 次 )， 这 个 记录 块 也 许 还 只 是 个 中 间 的 、 用 于 间接 呐 
射 的 记录 块 ， 也 许 就 是 最 终 的 日 标记 录 块 。 总 之 ， 在 这 种 情况 下 ， 要 在 设备 上 为 目标 记录 块 以 及 可 能 
需要 的 中 间 记 录 块 分 配 空间 。 

首先 从 本 文件 的 角度 为 目标 记录 块 的 分 配 提 出 一 个 “建议 块 号 ?， 由 ext2_find_goal( ) 确 定 
(fs\ext2\inode.c): 





[sys_write( ) > generic file write( ) > ext2 prepare write( ) > block_prepare_write( ) > 
.. block prepare, write( ) > ext2_get_block( ) > ext2_find_goal( )] 


309 /** 

310 * ext2_find_goal - find a prefered place for allocation. 

311 * @inode: owner 

312 * (block: block we want 

313 x @chain: chain of indirect blocks 

314 * @partial: pointer to the last triple within a chain 

315 * (goal: place to store the result. 

316 * 

317 * Normally this function find the prefered place for block allocation, 
318 * stores it in ¥*@goal and returns zero. Tf the branch had been changed 
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319 * under us we return -EAGAIN. 

320 */ 

321 

322 static inline int ext2 find goal(struct inode *inode, 
323 long block, 

324 Indirect chain[4], 

325 Indirect *partial, 

326 unsigned long *goal) 

327 ^d 

328 /* Writer: ->i next alloc* */ 

329 if (block == inodc-^u.ext2 i.i next alloc block + 1) { 
330 inode-^u. ext2 i.i next alloc block++; 

331 inode~>u. ext2 i.i next alloc goal-*; 

332 ] 

333 /* Writer: end */ 

334 /* Reader: pointers, —i next alloc* */ 

335 if (verify chain(chain, partial)) ( 

336 /* 

337 * try the heuristic for sequential allocation, 
338 * failing that at least try to get decent locality. 
339 */ 

340 if (block == inode ->u. ext2 i.i next alloc block) 
341 *goal = inode-2u.ext2 i.i next alloc goal; 
342 if (!*goal) 

343 *goal = ext2_find_near (inode, partial); 

344 return 0; 

345 } 

346 /* Reader: end */ 

347 return -EAGAIN; 

M8  ] 


参数 block 为 文件 内 还 辑 块 号 ，goal 则 用 求 返回 所 建议 的 设备 上 日 标 块 号 。 从 本 文件 的 和 角度， 当然 
布 望 所 有 的 记录 块 在 设备 上 都 紧 挨 在 一 起 并 且 连 续 。 为 此 日 的 ， 在 ext2 inode info 数据 结构 中 设置 了 
aS BL, Ll i_next_alloc_block 和 i_next_alloc_goal。 前 者 用 来 记录 于 一 次 要 分 配 的 文件 内 块 号 ， 后 省 
则 用 来 记录 希望 下 一 次 能 分 配 的 设备 上 块 号 ,在 正常 的 情况 下 对 文件 的 扩充 是 顺序 的 , 所 以 每 次 的 文件 
ARS MST 次 的 连续 ， 而 理想 的 设备 上 块 号 也 同样 连续 ， 二 者 平行 地 向 前 推进 。 当 然 ， 这 只 是 从 
一 个 特定 文件 的 角度 提出 的 建议 值 ， 能 否 实现 还 要 看 条 件 是 再 允许 ， 但 是 内 核 会 尽量 满足 监 求 ， 不 能 
满足 也 会 尽 可 能 靠近 建议 的 块 号 分 配 。 

可 总 ， 文 件 内 逻辑 块 号 也 有 可 能 不 连续 ， 也 就 是 说 对 文件 的 扩充 是 跳跃 的 ， 新 的 逻辑 块 号 与 文件 
原 有 的 最 后 一 个 逻辑 块 号 之 间 留 下 了 “空洞 ”。 这 种 情况 发 生 在 通过 系统 调用 lseek( ) 将 已 打开 文件 的 当 
前 读 写 位 置 推进 到 了 超出 文件 本 尾 之 后 ， 可 以 在 文件 中 造成 这 样 的 空洞 是 lseek( ) 的 一 个 重要 性 质 。 在 
这 种 情况 下 怎 翌 确 定 对 设备 上 记录 快 号 的 建议 值 呢 ? 这 就 是 调用 ext2. find near( ) 的 有 的 。 


[sys_write( ) > generic file write( ) > exi2 prepare write( ) > block prepare write( ) 
> . block prepare write( ) > ext2 —get block( ) > ext2 find goal( ) > €xt2 find near( )] 
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272 /六 六 

273 * ext2 find near - find a place for allocation with sufficient locality 
214 * @inode: owner 

215 * @ind: descriptor of indirect block. 

216 * 

277 * This function returns the prefered place for block allocation. 

278 * It is used when heuristic for sequential allocation fails 

279 * Rules are: 

280 * + if there is a block to the left of our position - allocate near it. 
281 * + if pointer will live in indirect block - allocate near that block. 
282 * + if pointer will live in inode - allocate in the same cylinder group 
283 * Caller must make sure that @ind is valid and will stay that way. 

284 */ 

285 


286 static inline unsigned long ext2_find_near (struct inode *inode, 
Indirect *ind) 


287 d 

288 u32 *start = ind->bh ? (u32*) ind->bh->b_data : inode->u. ext2_i. i_data; 
289 u32 *p; 

290 

291 /* Try to find previous block */ 

292 for (p = ind->p - 1; p >= start; p—) 

293 if (*p) 

294 return le32 to cpu(*p); 

295 

296 /* No such thing, so let's try location of indirect block */ 

297 if (ind->bh) 

298 return ind->bh->b_blocknr; 

299 

300 /* 

301 * It is going to be refered from inode itself? OK, just put it into 
302 * the same cylinder group then. 

303 */ 

304 return (inode—u.ext2 i.i block group * 

305 EXT2 BLOCKS PER GROUP(inode-^i sb)) + 

306 1e32 to cpu(inode-^i sb-?u. ext2 sb.s es-?s first data block); 
307 } 


首先 将 起 点 start 设置 成 指向 当前 映射 表 〈 映 射 过 程 中 首次 发 现 喘 射 断裂 的 那个 映射 表 ) 的 起 点 ， 
然后 在 当前 映射 表 内 往 回 搜索 。 如 果 要 分 配 的 是 空洞 后 面 的 第 … 个 记录 块 ， 那 就 要 往 回 找到 空洞 之 前 
的 表 项 所 对 应 的 物理 块 号 ， 并 以 此 为 建议 块 号。 当然 ， 这 个 物理 块 已 经 在 使 用 中 ， 这 个 要 求 是 不 可 能 
满足 的 。 但 是 ， 内 核 在 分 配 物 理 记录 块 时 会 在 位 图 中 从 这 里 开始 往 前 搜索 ， 就 近 分 配 空闲 的 物理 记录 
块 。 还 有 一 种 可 能 ， 就 是 空洞 在 “个 间接 映射 表 的 开头 处 ， 所 以 往 回 搜索 时 在 本 映射 表 中 找 不 到 宁 洞 
之 前 的 表 项 ， 此 时 就 以 间接 映射 表 本 身 所 在 的 记录 块 作为 建议 块 号 。 同 样 ， 内 核 在 分 配 物理 块 号 时 也 
会 从 此 开始 向 前 搜索 。 最 后 还 有 一 种 可 能 ， 空 润 就 在 文件 的 开头 处 ， 那 就 以 索引 节点 所 企 块 组 的 第 一 
AS BORER REA BRS 
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回 到 ext2_get_block( ) 的 代码 中 。 设 备 上 具体 记录 块 的 分 配 ， 包 括 目 标记 录 块 和 可 能 需要 的 用 于 间 


接 映射 的 中 间 记 录 块 ， 以 及 映射 的 建立 ， 是 由 ext2_alloc_branch( ) 完 成 的 。 调 用 之 前 先 要 算出 映射 断 列 
点 离 终点 的 距离 ， 也 就 是 还 有 几 层 映射 需要 建立 。 有 关 的 代码 都 在 fslext2/inode.c 中 : 


[sys_write( ) > generic, file write( ) > ext2 prepare write( ) > block prepare write( ) 
2. block prepare write( ) > ext2 _get_block( ) > ext2_alloc_branch( )] 


350 [ex 

351 * ext2 alloc branch - allocate and set up a chain of blocks 

352 * @inode: owner 

353 * @num: depth of the chain (number of blocks to allocate) 

354 * @offsets: offsets (in the blocks) to store the pointers to next. 

355 * @branch: place to store the chain in. 

356 * 

357 * This function allocates Gnum blocks, zeroes out all but the last one, 
358 * links them into chain and (if we are synchronous) writes them to disk. 
359 * In other words, it prepares a branch that can be spliced onto the 

360 * inode. 1t stores the information about that chain in the branch[ ], in 
361 * the same format as ext2 get branch( ) would do. We are calling it after 
362 * we had read the existing part of chain and partial points to the last 
363 * triple of that (one with zero —key). Upon the exit we have the same 
364 * picture as after the successful ext2 gel block( ), excpet that in one 
365 * place chain is disconnected - *branch->p is still zero (we did not 
366 * set the last link), but branch key contains the number that should 
367 * be placed into *branch->p to fill that gap. 

368 * 

369 * If allocation fails we free all blocks we’ ve allocated (and forget 
370 * ther buffer heads) and return the error value the from failed 

371 * ext2 alloc block( ) (normally -ENOSPC). Otherwise we set the chain 
372 * as described above and return 0. 

373 */ 

374 

375 static int ext2_alloc_branch (struct inode *inode, 

376 int num, 

377 unsigned long goal, 

378 int *offsets, 

379 Indirect *branch) 

380 { 

381 int blocksize = inode—>i_sb->s_blocksize: 

382 int n = 0; 

383 int err; 

384 int i; 

385 int parent = ext2 alloc block(inode, goal, &err): 

386 

387 branch[0]. key = cpu to le32(parent): 

388 if (parent) for (n = 1; n < num; nit) { 

389 struct buffer head *bh; 
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390 /* Allocate the next block */ 

391 int nr = ext2 alloc block(inode, parent, &err); 

392 if (!nr) 

393 break; 

394 branch[n]. key = cpu to le32(nr) ; 

395 /* 

396 * Get buffer head for parent block, zero it out and set 
397 * the pointer to new one, then send parent to disk. 
398 */ 

399 bh = getblk(inode->i_dev, parent, blocksizo); 

400 if (buffer uptodate(bh)) 

401 wait on buffer (bh); 

402 memset(bh-^b data, 0, blocksize); 

403 branch[n]. bh = bh; 

404 branch[n]. p = (u32*) bh->b data + offsets[n]; 

405 *branch{n].p = branch[n]. key; 

406 mark buffer uptodate(bh, 1); 

407 mark buffer dirty (bh); 

408 if (IS SYNC(inode) || inode->u. ext2 i.i osync) { 
409 1l rw block (WRITE, 1, &bh) ; 

410 wait on buffer (bh); 

411 } 

412 parent = nr; 

413 ) 

414 if (n == num) 

415 return 0; 

416 

417 /* Allocation failed, free what we already allocated */ 
418 for (i = 1; i < n; i++) 

419 bforget (branch[i]. bh) ; 

420 for G = 0; i < n; i++) 

42] ext2 free blocks(inode, 1e32 to cpu(branchfil.key), 1); 
422 return err; 

423 } 


参数 num 表示 还 有 几 层 映射 需要 建立 ， 实 际 上 也 就 是 - 共 需 要 分 配 几 个 记录 块 ， 指 针 branch 指向 
前 面 的 数组 chain[ ] 中 从 映射 断裂 处 开始 的 都 一 部 分 ，offset 则 指向 数组 offsets[ ] 中 的 相应 部 分 。 例 如 ， 
假若 具体 的 映射 是 三 重 间接 映射 , 而 在 第 二 层 装 接 映射 表 中 发 现 相 应 表 项 为 0, HS branch fih] chain[2] 
而 offset 指向 offsets[2], num 则 为 2， 此 时 需要 分 配 的 是 用 寸 第 三 层 间接 映射 表 的 记录 块 以 及 目标 记录 
块 。 从 某 种 意义 上 ， 分 配 记录 块 和 建立 映射 的 过 程 可 以 看 作 是 对 这 两 个 数组 的 “修复 ”， 是 在 完 成 
ext2_get_branch( ) 和 ext2_block_to_path( ) 未 竞 的 事业 。 注意 代码 中 的 branch]0] zs 断裂 点 的 Indirect 4 
构 ， 所 以 是 顺 着 映射 的 路 线 “ 自 顶 向 下 ” 逐 层 地 通过 ext2_alloc_block( ) 在 设备 上 分 配 记 录 块 和 建立 映 
射 。 
除 最 底层 的 记录 块 , 即 目 标记 录 块 以 外 , 其 他 的 记录 块 ( 见 代 码 中 的 for 循环 ?部 要 通过 getblock() 
为 其 在 内 存 中 分 配 缓 冲 区 ， 并 通过 memset ) 将 其 缓冲 区 清 成 全 0， 然 后 在 该 缓冲 区 中 建立 起 本 层 的 映 
射 (403 一 405 行 )， 再 把 它 标志 成 “ 脏 ”。 如 果 此 求 同 步 操作 的 话 ， 还 要 立即 调用 IL nw. block HES 
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问 到 设备 上 。 注 意 代码 中 的 for 循环 里 而 为 之 分 配 缓 冲 区 的 是 parent， 这 都 是 用 于 间接 映射 的 记录 块 ， 
而 不 是 位 十 最 上 研 层 的 日 标记 录 块 。 

那么 为 什么 日 标记 录 块 是 个 例外 ， 不 需要 为 其 分 配 缓冲 区 呢 ? 内 为 它 的 缓冲 区 在 调用 
ext2_get_block( ) 之 前 就 已 经 存在 了 , 并 有 在 调用 ext2_get_block( ) 时 把 指向 这 个 buffer. head 结构 的 指针 
作为 参数 传 了 下 来 ; 而 ext2_get_block( ) 需 要 做 的 就 是 找到 目标 记录 块 的 块 号 ， 把 它 设置 到 这 个 
buffer head 结构 的 b blocknr 字段 中 。 前 面 ， 对 于 成 幼 的 映射 ， 即 ext2, get branch( ) 返 回 NULL Hj, 
exi2 get, block( ) 已 经 在 其 标号 got it 处 〈 见 525 41). 这 样 做 了 上 ， 恋 者 不 妨 问 过 去 看 看 。 另 一 方面 ， 在 
目标 记录 块 的 缓冲 区 中 当然 不 需要 再 建立 什么 映射 。 

还 要 注意 到 ， 在 顶层 ， 即 版 米 映 射 开 始 断 开 的 那 一 县 上 《【 代 人 色 中 的 branch[0])， 所 分 配 的 记录 块 
号 只 是 记 入 了 这 一 层 Indirect 结构 中 的 key 字段 , 却 并 未 写 入 相应 的 映射 表 表 项 中 (由 指针 p 所 指 之 处 )。 
路 好 像 我 们 有 了 一 根 树枝 ， 但 是 还 没有 使 它 长 在 树 土 。 

函数 ext2_alloc_block( ) 的 代码 也 在 fs/ext2/inode.c P: 





[sys_write( ) > generic, file write( ) > ext2 prepare write( ) > block prepare write( ) 
> block prepare write( ) > ext2 get block( ) > ext2_alloc_branch( ) > ext2_alloc_block( )] 


85 static int ext2 alloc block (struct inode * inode, 
unsigned long goal, int *err) 

86 { 

87 #ifdef EXT2FS DEBUG 

88 static unsigned long alloc hits = 0, alloc attempts = 0; 

89 #endif 

90 unsigned long result; 

91 

92 

93 #ifdef EXT2 PREALLOCATE 

94 /* Writer: —^i prealloc* */ 

95 if (inode-^u.ext2 i.i prealloc count && 

96 (goal == inode~>u. ext2_i. i_prealloc block || 

97 goal + 1 == inode->u. ext2 i.i prealloc block)) 

98 { 

99 result = inode->u. ext2_i. i_prealloc_block++; 

100 inode->u. ext2_i. i_prealloc_count--: 

101 /* Writer: end */ 

102 #ifdef EXT2FS DEBUG 

103 ext2 debug (“preallocation hit (%lu/%lu). Wn", 

104 ++alloc_hits, **alloc attempts); 

105 Hendif 

106 } else { 

107 ext2 discard prealloc (inode); 

108 #ifdef EXT2FS DEBUG 

109 ext2 debug (“preallocation miss (%lu/%lu). Wn" 

110 alloc hits, ++alloc attempts) ; 

111 #endif 

112 if (S ISREG(inode-^i mode)) 

113 result = ext2 new block (inode, goal, 


- 609 . 


Linux ARERR (EAD 


114 &inode->u. ext2 i.i prealloc count, 

115 &inode >u. ext2 i.i prealloc block, err); 

116 else 

117 result = ext2 new block (inode, goal, 0, 0, err); 
118 } 

119 Helse 

120 result = ext2 new block (inode, goal, 0, 0, err); 

121 Hendif 

122 return result; 

123 ] 


参数 goal 表示 建议 分 配 的 〈 或 更 求 分 配 的 ) 设备 上 记录 块 号 , 函数 的 返回 值 则 为 实际 分 配 的 块 号 。 
内 核 在 编译 时 有 个 选择 项 EXT2 PREALLOCATE， 使 文件 系统 可 以 “ 预 分 配 ” 若 征 记 录 块 ， 
ext2_inode_info 结构 中 的 i_prealloc_block 和 i_prealloc_count 两 个 字段 即 用 于 这 个 日 的 。 我 们 假定 并 未 
采用 这 个 选择 项 ， 所 以 就 只 剩 下 对 ext2_new_block( ) 的 调用 ， 这 个 函数 的 代码 在 fs\ext2\balloc.c 中 。 可 
FE, ext new block ) 的 代码 很 长 ， 有 250 行 以 上 ， 而 逻辑 却 并 不 复杂 ， 所 以 我 们 把 它 留 给 读者 ， 这 果 
只 给 出 一 些 简短 的 说 明 。 

分 配 时 首先 试图 满足 “顾客 ”的 要 求 ， 如 果 所 建议 的 记录 块 还 空闲 着 就 把 它 分 配 出 去 。 否 则 ， 如 
果 所 建议 的 记录 块 已 经 分 配 掉 了 ， 就 试图 在 它 附近 32 个 记录 块 的 范围 内 分 配 。 还 不 行 就 向 前 在 本 块 组 
的 位 图 中 搜索 ， 先 找 位 图 中 整个 字 凶 都 是 0， 即 至 少 有 连续 8 个 记录 块 空闲 的 区 间 ， 若 达 不 到 目的 再 降 
格 以 求 。 最 后 ， 如 果实 在 找 不 到 ， 就 在 整个 设备 的 范围 内 寻找 和 分 配 。 

前 面 说 过 ， 除 目标 记录 块 以 外 ， 对 分 配 的 其 余 记 录 块 都 要 通过 getblk( ) 为 其 在 内 存 中 分 配 缓冲 区 ， 
这 个 函数 的 代码 在 fs\buffer.c FP: 


[sys_write( ) > generic file write( ) > ext2 prepare write( ) > block prepare write( ) > 
.. block prepare write( ) > ext2_get_block( ) > ext2 alloc branch( ) > getblk( )] 


968 /* 

969 * Ok, this is getblk, and it isn't very clear, again to hinder 

970 * race-conditions. Most of the code is seldom used, (ie repeating), 
971 * so it should be much more efficient than it looks 

972 * 

973 * The algorithm is changed: hopefully better, and an elusive bug removed 
974 * 

975 * 14.02.92: changed it to sync dirty buffers a bit: better performance 
976 * when the filesystem starts to get full of dirty blocks (1 hope). 

977 x/ 

978 struct buffer head * getblk(kdev t dev, int block, int size) 

979 { 

980 struct buffer head * bh; 

981 int isize; 

982 

983 repeat: 

984 spin lock(&lru list lock): 

985 write lock(&hash table lock); 

986 bh = get hash table(dev, block, size); 
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if (bh) 
goto out; 


isize = BUFSIZE INDEX (size); 

spin lock(&free list[isize]. lock); 

bh = free list[isize].list; 

if (bh) i 
. remove from free list(bh, isize): 
atomic set(&bh-^b count, 1); 

} 


spin unlock (&free list[isize]. lock); 


/* 
* OK, FINALLY we know that this buffer is the only one of 
* its kind, we hold a reference (b count?0), it is unlocked, 
* and it is clean. 
*/ 
if (bh) { 

init_buffer (bh, NULL, NULL); 

bh->b dev = dev; 

bh->b_blocknr = block; 

bh->b_state = 1 << BH Mapped; 


/* Insert the buffer into the regular lists */ 
. insert into queues(bh); 
out: 
write unlock(&hash table lock); 
spin unlock(&lru list lock); 
touch buffer (bh); 
return bh; 


) 


/* 

* If we block while refilling the free list, somebody may 
* create the buffer first ... search the hashes again. 

*/ 

write unlock(&hash table lock); 

spin unlock(&lru list lock); 

refill freelist(size) ; 

goto repeat; 


) 


这 里 的 参数 block 为 设备 上 块 号 。 首 先 在 杂 凌 表 队 列 中 查找 ， 因 为 这 个 记录 块 虽 是 新 分 配 的 ， 以 前 


为 其 分 配 的 缓冲 区 却 有 可 能 还 在 。 如 不 成 功 则 试图 从 free_list[ ] 的 相应 队列 中 分 配 。 如 果 分 配 成 功 就 如 
以 初始 化 并 道 过 insert_into_queues )&E A AH DY B] 28 28 Zz BÀ SAN LRU [A Zt (fs/buffer.c): 


[sys_write( ) > generic file write( ) > ext2 prepare write( ) > block prepare write( )> 
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__block_prepare_write( ) > ext2_get_block( ) > ext2_alloc_branch( ) > getblk( ) > __insert_into_queues( )] 


494 static void | insert into queues (struct buffer head *bh) 


495 { 

496 struct buffer head **head = &hash(bh->b_dev, bh->b_blocknr) ; 
497 

498 __hash_link (bh, head); 

499 __insert_into_lru_list(bh, bh->b_list); 

500  ] 


当然 ， 从 free list[ ] 分 配 缓冲 区 有 可 能 尖 败 ， 那 就 要 通过 refill freelist( ) 再 增添 一 些 或 者 回收 一 些 
缓冲 区 以 供 周 转 ， 其 代码 在 fs/buffer.c H: 


[sys. write( ) > generic file write( ) > ext2. prepare write( ) > block prepare write( )> 
. .block, prepare, write( ) > ext2 get block( ) > ext2 alloc branch( ) > getblk( ) > refill freelist( )] 


755 /* 

756 * We used to try various strange things. Let’s not 
757 * We'll just try to balance dirty buffers, and possibly 
758 * launder some pages. 

159 */ 

760 static void refill freelist (int size) 

761 { 

762 balance dirty (NODEY) ; 

763 if (free shortage( )) 

764 page launder(GFP BUFFER, 0); 

165 grow buffers(sive); 

166 } 


读者 将 会 看 到 ， 对 文件 的 所 操作 是 分 商 步 到 位 的 。 第 一 步 是 将 内 容 写 入 缓冲 负 徊 中， 使 缓冲 页 面 
成 为 “ 脏 ” 页 面 ， 然 后 就 把 “ 脏 ” 页 面 链 入 一 个 LRU SAMI, FE “HR 28” AAA bdflush; 第 二 步 
是 由 bdflush KEZE “AR” RMS ASHES. Wi, MRA, WHAT Rial 
KT. ARF bdflush fd: £84& —"PJGPR A898, ALR ATER, BER BRR RE "np" i OE? X 
面 ， 然 后 又 进入 睡眠 。 但 是 ， 为 了 提高 效率 ， 并 不 是 只 要 有 了 A “AE” AARNE bdflush， 而 是 要 
到 积累 起 一 定数 量 的 “ 脏 ” 页 面 时 ， 或 者 每 过 一 段 时 间 才 唤醒 它 。 函 数 balance dirty ) 的 作用 就 是 检查 
是 否 已 经 积累 起 太 多 的 “ 脏 ” 页 面 ， 如 有 果 积累 太 多 了 ， 就 把 bdfiush 唤醒 ， 其 代码 在 fs/buffer.c P: 


[sys. write( ) > generic, file write( ) > ext2 prepare write( ) > block_prepare_write( )> 
__block prepare write( ) > ext2 get block( ) > ext2_alloc_branch( ) > getblk( ) > refill freelist( ) > 
balance, dirty( )] 


1064 /* 

1065 * if a new dirty buffer is created we need to balance bdflush. 
1066 * 

1067 * in the future we might want to make bdflush aware of different 
1068 * pressures on different devices - thus the (currently unuscd) 
1069 * 'dev' parameter. 
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[sys write( ) > generic file write( ) > ext2. prepare write( ) > block, prepare write( )> 
— block. prepare, write( ) > ext2 get. block( ) > ext2 alloc branch( ) > getblk( ) > refill freelist( ) » 


*/ 
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void balance dirty (kdev_t dev) 


{ 


} 


int 


state = balance dirty state(dev); 


if (state < 0) 


return; 


wakeup bdflush (state); 


先 通过 balance dirty. stat( ) 恰 查 是 否 因为 已 经 积累 起 太 多 “ 脏 ” 页 面 而 应 该 唤醒 bdflush. 


balance dirty( ) > balance_dirty_state( )] 
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/* -1 -> no need to flush 

0 -> async flush 

1 -> sync flush (wait for I/O completation) */ 
balance dirty state (kdev t dev) 


int 


unsigned long dirty, tot, hard dirty limit, soft dirty limit; 


int 


dirty = size buffers type[BUF DIRTY] >> PAGE SHIFT; 
tot - 


shortage; 


nr free buffer pages( ); 


dirty *= 200; 
soft dirty limit = tot * bdf prm.b un. nfract; 
hard dirty limit = soft dirty limit * 2; 


/* First, check for the “real” dirty limit. */ 
if (dirty > soft dirty limit) { 


} 


/* 


if (dirty > hard_dirty limit) 
return l; 
return Q; 


* Tf we are about to get low on free pages and 
* cleaning the inactive_dirty pages would help 
* fix this, wake up bdflush. 


*/ 


shortage = free shortage( ); 


if (shortage && nr inactive dirty pages > shortage && 


nr inactive dirty pages > freepages. high) 
return Q; 
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890 return -1; 
891  ] 


RREPERI, endi [ELLE A n T4 Ro COD UA SERERE. Rl, Xm "EC SURÉS 
数量 还 不 多 ， 因 而 不 需要 唤醒 bdflush; 返回 0， 表 示 虽 然 已 经 积累 起 相当 数量 的 “ 脏 ” 页 面 ， 但 还 不 
是 很 多 ， 可 以 让 bdflush 异步 地 冲刷 而 不 需要 停 下 来 等 待 ; 返回 1， 则 表示 “ 脏 ” 页 面 的 数量 已 经 很 大 ， 
不 但 要 唤醒 bdflush， 而 月 当前 进程 需要 停 下 来 等 待 其 完成 ， 因 为 此 时 即使 继续 入 前 也 多 半分 配 不 到 空 
闲 页 而 了。 不过， 在 具体 实现 的 时 候 又 作 了 一 些 优化 。 这 是 因为 : 一 来 不 知道 bdflush 与 当前 进程 的 优 
Jc ELLE SES, WME bdflush 的 优先 级 比 当前 进程 的 低 则 即使 览 醒 了 也 调度 不 上 ; 二 来 既然 急 着 要 用 空 
闲 页 面 , 需求 量 又 不 大 , 还 不 如 “自己 动手 , EKER”, ARR AT OAR” 页面, 然后 再 让 bdflush 
继续 慢 慢 冲刷 。 这样, 将 这 个 函数 的 返回 值 用 作 调 用 wakeup_bdflush( ) 的 参数 , 就 决定 了 在 唤醒 bdflush 
以 后 是 否 直 接 调 用 flush_dirty_buffers( )。 

[sys_write( ) > generic file write( ) > ext2_prepare_write( ) > block prepare write( )> 
. block prepare write( ) > ext2 get block( ) > ext2_alloc_branch( ) > getblk( ) > refill freelist( ) > 
balance, dirty( ) » wakeup. bdflush( )] 


2591 struct task siruct *bdflush tsk = 0; 


2592 

2593 void wakeup bdflush(int block) 

2594 { 

2595 if (current != bdflush_tsk) { 
2596 wake up process (bdflush_tsk) ; 
2597 

2598 if (block) 

2599 flush dirty buffers (0) ; 
2600 } 

} 


这 里 的 全 局 量 指针 bdflush tsk 在 初始 化 时 设置 成 指向 bdflush 的 task struct 结构 。 这 里 的 
wake_up_process( ) 是 个 inline 函数 ， 它 将 目标 进程 唤醒 ， 并 道 过 reschedule_idle( ) 比 较 月 标 进程 和 当前 
进程 的 综合 权 值 ， 如 果 日 标 进程 的 权 值 更 高 就 把 当前 进程 的 need. schedule 字段 设 成 1， 请 求 一 次 调度 

( 详 见 第 4 章 )。 然 后 就 根据 参数 的 值 决 定 是 否 直接 调用 flush dirty buffers), 其 代码 在 fs/buffer.c 中 : 
[sys. write( ) > generic file write( ) > ext2, prepare write( ) > block prepare write( )> 


. block prepare write( ) > ext2 get block( ) > ext2_alloc_branch( ) > getblk( ) > refill, freelist( ) > 
balance, dirty( ) > wakeup bdflush( ) > flush, duty buffers( )] 














2530 /¥ =-===========-=-====== bdflush support --7----------—- * / 

2531 

2532 /* This is a simple kernel daemon, whose job it is to provide a dynamic 
2533 * response to dirty buffers. Once this process is activated, we write back 
2534 * a limited number of buffers to the disks and then go back to sleep again. 
2535 */ 

2536 


2537 /* This is the only function that deals with flushing async writes 
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2538 
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to disk. 
NOTENOTENOTENOTE: we _only_ need to browse the DIRTY lru list 
as all dirty buffers lives only, in the DIRTY lru list. 
As we never browse the LOCKED and CLEAN lru lists they are infact 
completly useless. */ 
static int flush_dirty_buffers (int check flushtime) 
{ 
struct buffer_head * bh, *next; 
int flushed = 0, i; 


restart: 
spin lock(&lru list lock); 
bh = lru list[BUF DIRTY]; 
if (!bh) 
goto out unlock; 
for (i = nr buffers type[BUF DIRTY]; i-- > 0; bh = next) { 
next = bh->b_next free; 


if (!buffer dirty (bh)) { 
__refile buffer (bh) ; 
continue; 

} 

if (buffer locked(bh)) 
continue; 


if (check flushtime) { 
/* The dirty lru list is chronologically ordered so 
if the current bh is not yet timed out, 
then also all the following bhs 
will be too young. */ 
if (time before(jiffies, bh->b_flushtime)) 
goto out unlock; 
} else { 
if (++flushed > bdf_prm. b_un. ndirty) 
goto out_unlock; 


} 


/* OK, now we are committed to write it out. */ 
atomic inc(&bh-5»b count); 

spin unlock(&iru list lock); 

1l rw block(WRITE, 1, &bh); 

atomic dec(&bh ->b count); 


if (current—>need_resched) 
schedule( ); 
goto restart; 


} 


out_unlock: 
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2586 spin unlock(&lru list lock); 
2587 

2588 return flushed; 

2580  ] 


XÀXTAETd AM, RAIA BAER TABU PPR ATR, Hm 2581 
的 current-»need. resched 是 在 前 面 wake_up_process( ) 中 根据 bdflush 和 当前 进程 的 优先 级 相对 类 小 而 

设置 的 。 
冲刷 一 个 “ 脏 ” 页 面 的 结果 是 把 它 的 内 容 写 回 到 文件 中 ， 为 内 存 页 面 的 回收 创造 了 条 件 ， 但 是 并 
不 等 于 已 经 回收 了 页 面 。 另 一 方面 ， 只 要 内 存 页 面 不 很 短缺 ， 则 保留 这 些 丰 面 的 内 容 为 可 能 发 生 的 进 
一 步 读 写 提供 了 缓冲 ,有 利 十 提高 效率 。 所 以 , ME refill_freelist( ) 的 代码 中 以 后 ,接着 ( 见 前 面 的 763 
行 一 764 行 ) 就 根据 系统 中 页 面 短缺 的 程度 决定 是 否 调用 page_launder( )， 详 情 串 参 考 第 2 章 中 的 有 关 
内 容 。 

最 后 通过 grow. buffers( ) 再 分 配 若干 页 面 ， 制 造 出 一 些 缓冲 区 来 ， 现 在 条 件 已 经 具备 了 。 我 们 把 
grow_buffers( ) 的 代码 列 在 这 里 让 读者 自 eiu. 


ki Ca 


[sys write( ) > generic file write( ) > ext2 prepare write( ) > block, prepare write( )> 
.. block prepare write( ) > ext2 get block( ) > ext2 alloc branch( ) > getblk( ) > refill freelist( ) > 
grow. buffers( )] 


2244 /* 

2245 * Try to increase the number of buffers available: the size argument 
2246 * is used to determine what kind of buffers we want. 
2247 */ 

2248 static int grow buffers(int size) 

2249 {f 

2250 struct page * page; 

2251 struct buffer head *bh, *tmp; 

2252 struct buffer head * insert point; 

2253 int isize; 

2254 

2255 if ((size & 511) || (size > PAGE SIZE) 1 

2256 printk( VFS: grow buffers: size = %d\n”, size); 
2251 return 0; 

2258 } 

2259 

2260 page = alloc page (GFP_BUFFER) ; 

2261 if (!page) 

2262 goto out; 

2263 LockPage (page) ; 

2264 bh = create buffers(page, size, 0); 

2265 if (!bh) 

2266 goto no buffer head; 

2267 

2268 isize = BUFSIZE INDEX(size); 

2269 
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spin lock(&free listlisize]. lock) ; 
insert point - free list|isize]. list; 
tmp > bh; 
while (1) { 
if (insert point) { 
tmp->b_next_free = insert_point->b_next_free: 
tmp->b_prev_free = insert point; 
insert_point->b_next free->b_prev_free = tmp; 
insert point— b next free = tmp; 
} eise { 
tmp->b_prev free = tmp; 
tmp->b_next free = tmp; 


} 
insert point = tmp; 
if (tmp->b this page) 
tmp = tmp-5b this page; 
else 
break; 
} 
tmp->b_this_page ~ bh; 
free list[isize].list - bh; 
spin unlock(&free list[isize]. lock) ; 


page->buffers = bh; 

page->flags &- ~(1 << PG referenced); 
lru_cache_ add (page) ; 

UnlockPage (page) ; 

atomic inc (&buffermem pages) ; 

return 1; 


no buffer head: 


UnlockPage (page) ; 
page cache release(page);: 


return 0; 


} 


结束 了 ext2 alloc branch ( ) 芍 执行 ， 回 到 ext2, get block( Hit, 我 们 已 经 在 设备 上 分 本 了 所 需 的 


记录 块 ， 包 括 用 于 间接 映射 的 中 间 记 录 块 ， 但 是 原先 映射 开始 断 开 的 最 高 层 上 所 分 配 揭 记 录 块 号 只 是 
记 入 了 其 Indirect 结构 中 的 key 字段 ， 却 并 未 写 入 相应 的 映射 表 中 。 现 在 就 要 把 “树枝 ” 接 到 树 上 《将 
米 ， 随 着 文件 内 容 的 扩展 ， 这 树 层 会 长 成 了 树 )。 同 时 ， 还 需要 对 所 属 inode 结构 中 的 有 关内 容 作 一 些 
调整 。 这 些 都 是 由 ext2_splice_branch( ) 完 成 的 ， 其 代码 在 fs\ext2\inode.c 中 : 





[sys_write( ) > generic file write( ) > ext2_prepare_write( ) block prepare write( ) > 
__block_preparc_write( ) > ext2_get_block( ) > ext2_splice_branch( )] 


425 
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* ext2 splice branch - splice the allocated branch onto inode. 

* @inode: owner 

* block: (logical) number of block we are adding 

* @chain: chain of indirect blocks (with a missing link - see 

* ext2 alloc branch) 

* @where: location of missing link 

* (num: number of blocks we are adding 

* 

* This function verifies that chain (up to the missing link) had not 
* changed, fills the missing link and does all housekeeping needed in 
* inode (->i blocks, etc.). In case of success we end up with the full 
* chain to new block and return 0. Otherwise (== chain had been changed) 
* we free the new blocks (forgetting their buffer heads, indeed) and 
* return —EAGAIN. 

*/ 


static inline int ext2 splice branch(struct inode *inode, 
long block, 
Indirect chain[4], 
Indirect *where, 
int num) 


int 1; 
/* Verify that place we are splicing to is still there and vacant */ 


/* Writer: pointers, -^i next alloc*, ->i blocks */ 
if (Iverify chain(chain, where-1) || *where->p) 

/* Writer: end */ 

goto changed; 


/* That's it */ 

*where->p = where->key; 

inode->u. ext2 i.i next alloc block = block; 
inode-^u.ext2 i.i next alloc goal = 1e32 to cpu(where[num-1]. key) ; 
inode-^i blocks += num * inode->i_sb->s_blocksize/512; 

/* Writer: end */ 

/* We are done with atomic stuff, now do the rest of housekeeping */ 
inode-^i ctime = CURRENT TIME; 

/* had we spliced it onto indirect block? */ 

if (where->bh) { 


mark buffer dirty (where->bh) ; 
if (IS SYNC(inode) !| inode->u. ext2 i.i osync) { 
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474 ll rw block (WRITE, 1, &where-^bh); 
475 wait on buffer (where->bh) ， 

416 ) 

477 } 

478 

479 if (IS SYNC(inode) |; inode->u. ext2_i.i_osync) 
480 ext2 sync inode (inode); 

481 eise 

482 mark inode dirty(inode); 

483 return 0; 

484 

485 changed: 

486 for (i = 1; i € num; i++) 

487 bforget (whereli]. bh); 

488 for (i = 0; i < num; i++) 

489 ext2 free blocks(inode, 1e32 to cpu(where[i].key), 1): 
490 rcturn -EAGAIN; 

493  ] 


这 里 的 第 459 行将 原来 映射 开始 断 开 的 那 一 层 上 所 分 配 的 记录 块 号 写 入 了 相应 的 映射 表 中 。 这 个 
映射 表 也 许 就 是 inode 结构 中 《确切 地 说 是 ext2_inode_info 结构 中 ) 的 数组 i_data[ ], 也 许 是 一 个 用 于 问 
接 映 射 的 记录 块 。 如 果 相 应 Indirect 结构 中 的 指针 bh 为 0 (必定 是 chain[0])， 则 映射 表 就 在 inode 结构 
中 。 否则 ， 就 定 是 个 间接 映射 表 ， 因 此 在 改变 了 其 内 容 以 后 要 将 其 标志 成 “ 脏 ”。 如 果 要 求 同 步 写 ， 
则 还 要 立即 把 它 写 回 设备 。 

又 问 到 ext2_get_block( ) 中 ， 现 在 已 经 万 事 俱 备 了 。 转 到 标号 got it 处 ， 把 映射 后 的 记录 块 号 连同 
设备 号 置 入 bh_result 所 指 的 缓冲 区 结构 中 ， 就 完成 了 任务 。 有 了 这 些 信息 ， 将 来 就 可 以 把 缓冲 区 的 内 
容 写 到 设备 上 了 。 

从 ext2 get block( ) 返回 ， 就 回 到 了 __block_prepare_write( ) 中 的 第 1586 行 。 对 于 
-~block_prepare_write( ) 而 言 ，ext2_get_block( ) 为 其 完成 了 从 文件 内 块 号 到 设备 上 块 号 的 映射 ， 这 个 目 
标记 录 块 也 许 是 新 的 ， 也 许 原来 就 存在 。 如 果 日 标记 录 块 是 个 新 分 配 的 记录 块 ， BUE ERES I) 
内 容 与 设备 上 的 内 容 是 否 一 敏 的 问题 。 但 是 如 果 内 存 中 的 某 - 个 其 他 缓冲 区 仍 持 有 该 记录 块 以 前 的 内 
窜 ， 并 且 还 在 杂凑 表 的 某 个 队列 中 ， 则 此 将 那个 缓冲 区 从 杂凑 队列 中 脱 链 并 释放 。 这 是 通过 
unmap_underlying_metadata( ) 完 成 的 。 反 之 ,如果 目 标记 录 块 是 原 已 存在 的 记录 块 ， 则 仍 有 内 容 是 否 一 
至 的 问题 ， 如 果 个 -至 就 要 先 通 过 rw block ) 从 设备 上 读 入 。 这 样 ， 当 block_prepare_write( ) 中 的 
for 循环 结束 时 ， 所 有 涉及 本 次 写 操作 的 物理 记录 块 CBX) 都 已 找到 ， 需 要 从 设备 上 读 入 的 则 已 经 
向 设备 驱动 层 发 出 谈 入 记录 抉 的 命令 。 通过 wait_on_buffer( ) 等 待 这 些 命令 执行 完毕 (IL 1616 行 ~1621 
T) 以 后 ， 写 操作 的 准备 工作 就 完成 了 。 

由 于 __block_prepare_write( ) 是 block_prepare_write( ) 的 主体 ，“. 旦 从 前 者 返回 ， 后 者 也 就 结束 了 ， 
而 后 者 又 实际 上 就 是 ext2_prepare_write( )， 所 以 就 返回 到 了 generic file write). 

在 generic. file, write( ) 中 是 在 一 个 while 循 玉 中 通过 由 具体 文件 系统 所 提供 的 函数 为 写 文件 操作 作 
准备 的 。 准 备 好 了 以 后 就 可 以 从 用 户 空间 把 待 写 的 内 容 复制 到 缓冲 区 中 ， 实际 上 十 缓冲 页 面 中 。 为 方 
便 读者 陪读， 我们 再 把 while 循 坏 体 中 的 . -个 片段 列 出 ; 
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[sys_write( ) > generic file write( )] 


2533 status = mapping-^a ops prepare write(file, page, 
offset, offsettbytes) ; 
2534 if (status) 
2535 goto unlock; 
2536 kaddr = page address (page) ; 
2537 status = copy from_user(kaddrtoffset, buf, bytes); 
2538 flush_dcache_page (page) ; 
2539 if (status) 
2540 goto fail write; 
2541 status = mapping—^a ops-?commit write(file, page, 


offset, offsettbytes) ， 


为 写 操作 作 好 了 准备 以 后 ， 从 缓冲 区 〈 缓 冲 页 面 ) 到 设备 上 的 记录 块 这 条 路 就 畅通 了 。 这 样 才 可 
以 从 用 户 空 间 把 待 写 的 内 容 复制 过 来 。 

如 前 所 述 ， 目 标记 录 块 的 缓冲 区 在 文件 层 是 作为 缓冲 页 而 的 -部 分 而 存在 的 ， 所 以 这 是 从 用 户 空 
间 到 缓冲 页 面 的 拷贝 ， 具 休 道 过 copy_from_user( ) 完 成 。 这 里 buf 指向 用 户 空 间 的 缓冲 区 ， 而 《kaddr+ 
offset) 为 缓冲 页 面 中 的 起 始 地 址 ，bytes 则 为 该 页 而 中 待 拷贝 的 长 度 ， 这 些 都 是 在 while 循环 的 开头 计 
算 好 了 的 。 对 于 1386 结构 的 处 理 器 ，flush_dcache_page( ) 是 空 操作 。 

写 入 缓冲 页 面 以 后 ， 还 此 把 这 些 缓冲 页 面 提交 给 内 核 线程 kflushd， 这 样 写 操作 才 算 完 成 。 至 才 
kflushd 是 否 来 得 及 马上 将 这 些 记录 块 写 回 设备 上 ， 那 是 另 一 回 事 了 。 这 个 将 缓冲 页 面 提交 给 kflushd 
的 操作 也 是 因 文 件 系统 而 异 的 ， 由 具体 文件 系统 通过 其 address space operations. 结构 中 的 函数 指针 
commit, write 提供 ， 对 于 Ext2 文件 系统 ， 这 个 函数 是 generic_commit_write( )， 其 代码 在 fs/buffer.c 中 : 


[sys write( ) > generic file write( ) > generic commit. write( )] 


1844 int generic commit write (struct file *file, struct page *page, 
1845 unsigned from, unsigned to) 

1846  ( 

1847 struct inode *inode = page-Pmapping-^host; 

1848 loff_t pos = ((loff t)page-^index << PAGE CACHE SHIFT) + to; 
1849 __ block _commit_write (inode, page, from, to) ; 

1850 kunmap (page) ; 

1851 if (pos > inode->i size) { 

1852 inode->i_size = pos; 

1853 mark_inode_dirty (inode) ; 

1854 } 

1855 return 0; 

1856 } 


其 主体 __block_commit_write( ARA 7EII—SC7F FR, fü kunmap( XIF 1386 ARYA ib EB dg JJ E 
BE. 
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[sys write( ) > generic_file_write( ) > generic commit write( ) > block commit write( )] 


1627 static int , block commit write (struct inode *inode, struct page *page, 


1628 unsigned from, unsigned to) 

1629 ( 

1630 unsigned block start, block end; 

1631 int partial = 0, need balance dirty = 0; 

1632 unsigned blocksize; 

1633 struct buffer head *bh, *head; 

1634 

1635 blocksize = inode->i_sb->s_blocksize; 

1636 

1637 for (bh = head = page->buffers, block start = 0; 

1638 bh != head || !block start; 

1639 block start-block end, bh = bh-^b this page) { 

1640 block end = block start + blocksize; 

1641 if (block end <= from |] block start >= to) | 

1642 if (‘buffer uptodate (bh) ) 

1643 partial = 1; 

1644 } else { 

1645 set bit (BH Uptodate, &bh->b state); 

1646 if (latomic set buffer dirty(bh)) { 

1647 . mark dirty (bh); 

1648 buffer insert inode queue(bh, inode); 

1649 need balance dirty = 1; 

1650 } 

1651 } 

1652 } 

1653 

1654 if (need balance dirty) 

1655 balance dirty (bh->b dev); 

1656 /* 

1657 * is this a partial write that happened to make all buffers 
1658 * uptodate then we can optimize away a bogus readpage( ) for 
1659 * the next read( ). Here we ’ discover’ wether the page went 
1660 * uptodate as a result of this (potentially partial) write. 
1661 */ 

1662 if (!partial) 

1663 SetPageUptodate (page) ; 

1664 return 0; 

1665 } 


KARK for 循 坏 扫描 缓冲 页 面 中 的 每 个 记录 块 ， 如 果 一 个 记录 块 与 写 入 的 范围 《从 from 到 to) 
相交 ， 就 把 该 记录 块 的 缓冲 区 设 成 “up to date”, 即 与 设备 上 的 记录 块 相 - 致 ， 并 将 其 标志 成 dirty， 下 
面 的 事 就 交 给 kflushd 了 。 值 得 注意 的 总 这 里 已 经 将 缓冲 区 的 BH_Uptodate 标志 位 设 成 1， 表示 缓冲 区 
的 内 容 已 经 与 设备 上 相 … 致 。 可 是 ， 实 际 上 此 时 缓冲 区 的 内 容 尚未 号 回 设备 ， 所 以 从 物理 上 说 显然 是 
^ 致 的 。 但 是 ， 由 于 写 操作 本 车 已 接近 完成 ， 涉 及 的 缓冲 区 即将 提交 给 kflushd， 从 逻辑 的 角度 上 绥 
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冲 区 中 的 内 容 与 设备 上 的 内 容 已 经 3r. MAIA “一致 ”或 “不 致 ”只 是 一 个 逻辑 上 的 概念 ， 
而 并 非 物 理 上 的 概念 。 只 要 写 入 的 内 容 已 经 “ 提 父 ”(commit)， 就 认为 已 经 一 禾 了 。 出 不 一 致 的 状态 
只 发 生 人 在 写 操作 的 中 途 ， 即 改变 了 缓冲 区 或 部 分 缓 部 区 》 的 内 容 而 尚未 提交 之 前 。 在 写 入 的 准备 阶 
B, AR - 致 的 缓冲 区 就 此 从 设备 上 重新 读 入 ， 就 是 因为 有 木 完成 的 号 操作 存在 向 破坏 了 缓冲 区 的 
内 容 。 此 外 ,在 将 缓冲 区 设置 成 dirty 时 ,如 果 该 缓冲 区 原来 是 “干净 ”的 ,那么 一 来 此 调用 __mark_dirty( )， 
二 来 要 将 need, balance dirty 设 成 1。 调用 __mark_dirty( ) 的 目的 是 将 缓冲 区 根据 有 具体 情况 转移 到 合适 
的 LRU 队列 中 ， 有 关 的 代码 均 在 文件 fs/buffer.c P: 


[sys_write( ) > generic file write( ) > generic_commit_write( ) > __ block_commit_write( ) 
> mark dirty( )] 

1080 static | inline void , mark dirty (struct buffer head *bh) 

1081 { 


1082 bh->b_flushtime = jiffies + bdf prm.b un. age buffer; 
1083 refile buffer (bh) ; 
1084 } 


{sys_write( ) > generic file write( ) > generic_commit_write( ) > __ block commit, write( ) 
> mark dirty( ) > refile buffer( )] 


1124 void refile buffer (struct buffer head *bh) 


1125 { 

1126 spin_lock (&lru_list_lock) ; 
1127 __yrefile_buffer (bh) ; 

1128 spin unlock(&lru list lock); 
1129 ) 


[sys write( ) > generic file write( ) > generic commit write( ) > __ block commit, write( ) 
> mark dirty( ) > refile buffer( )] 





1102 /* 

1103 * A buffer may need to be moved from one buffer list to another 
1104 * (e.g. in case it is not shared any more). Handle this. 
1105 */ 

1106 static void __refile buffer(struct buffer head *bh) 

1107 ( 

1108 int dispose = BUF_CLEAN; 

1109 if (buffer locked (bh) ) 

1110 dispose = BUF LOCKED; 

1111 if (buffer dirty (bh)) 

1112 dispose = BUF DTRTY; 

1113 if (buffer_protected (bh) ) 

1114 dispose = BUF_PROTECTED; 

1115 if (dispose !- bh->b list) | 

1116 remove from lru list(bh, bh 5b list); 

1117 bh-5»b list = dispose; 

1118 if (dispose == BUF CLEAN) 
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1119 remove inode queue (bh) ; 

1120 insert into lru list(bh, dispose); 
1121 ] 

1122 3 


数据 结构 buffer head 通过 其 指针 b. next. free 和 b. prev. free 链 入 人 到 空闲 缓冲 以 队列 或 菜 个 LRU 
队列 中 ， 而 作为 记录 块 缓冲 区 LRU 队列 头 部 的 Iru_list[ ] 则 是 一 个 指针 数组 ， 其 定义 见 文件 fs/buffer.c: 


82 static struct buffer head *lru list[NR LIST]; 


这 个 数组 是 以 记录 块 缓冲 区 的 状态 为 下 标的 (include/linux/ts.h) 。 


991 #define BUF_CLEAN 0 

992 #define BUF LOCKED 1 /* Buffers scheduled for write */ 

993 #define BUF DIRTY 2 /* Dirty buffers, not yet scheduled for write */ 
994 8define BUF PROTECTED 3 /* Ramdisk persistent storage */ 

995 #define NR LTST 4 


这 样 ， 对 处 于 各 种 不 同 状态 的 记录 块 缓冲 区 ， 就 各 自 有 一 个 LRU 队列 ， 而 bdflush 就 只 扫描 
lru_list[BUF_DIRTY] 队 列 。 

最 后 ， 只 要 有 记录 块 缓冲 区 从 “干净 ”状态 变 成 “及 ”状态 ,也 就 是 如 果 need balance dirty 为 1， 
就 要 通过 balance_dirty( ) 看 看 这 样 的 记录 块 是 否 已 经 积累 到 了 一 定 的 数量 ， 如 果 是 ， 就 唤 同 bdflush 进 
行 一 次 “冲刷 ”。 这 个 函数 的 代 个 已 经 在 前 面 看 证 过 了 。 

TEETE bdflush， 总 之 此 后 的 事情 就 交 给 它 了 。 我 们 将 在 设备 最 动 一 章 小 回 刘 这 个 话题 
上 来 。 

完成 了 generic commit, write( ) 以 后 ，generic_file_write( ) 中 的 一 轮 循 坏 ， 也 就 是 对 一 个 缓冲 页 面 的 
写 入 就 完成 了 。 从 而 对 该 页 面 的 使 用 也 结束 了 ， 所 以 要 通过 page cache release( ) 递 减 对 该 页 面 的 使 用 
计数 。 

总 结对 一 个 缓冲 页 面 的 写 文件 操作 ， 大 致 可 以 分 为 三 个 阶段 。 第 一 是 准备 阶段 ， 第 二 是 缓冲 页 面 
的 写 入 阶段 ， 最 后 是 提交 阶段 。 完 成 了 对 所 涉及 的 所 有 页 面 的 循 坏 ， 整 个 写 文件 操作 的 主体 
generic_file_write( ) 就 告 结 束 ， 并 且 sys_write( ) 也 随 着 结束 了 。 

理解 了 sys_write( ), 再 来 看 sys_read( ) 就 容易 一 些 了 .这 两 个 函数 几乎 是 一 样 的 ,只 是 在 sys. write( ) 
中 要 验证 上 用户 空间 的 缓冲 区 可 读 ， 并 且 使 用 file operations 结构 中 的 函数 指针 write, MÆ sys_rcad( ) 
中 则 要 验证 用 户 空 间 的 缓冲 区 可 写 ， 并 且 使 用 file_operations 结构 中 的 函数 指针 read. sib Ext2 文件 系 
统 的 读 操作 而 言 ， 这 个 函数 指针 指向 generic_file_read( }， 其 代码 也 人 在 mm/filemap.c 中 : 


[sys read( ) > generic file read( )] 


1237 /* 

1238 * This is the "read( )" routine for all filesystems 

1239 * that can use the page cache directly. 

1240 */ 

1241 ssizo t generic file read(struct file * filp, char * buf, 


size t count, loff t *ppos) 
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1242 { 
1243 ssize t retval; 
1244 
1245 retval - -EFAULT; 
1246 if (access ok(VERIFY WRITE, buf, count)) | 
1247 retval - 0; 
1248 
1249 if (count) { 
1250 read descriptor t desc; 
1251 
1252 desc. written = 0; 
1253 dese. count = count; 
1254 dese. buf = buf; 
1255 desc. error = 0; 
1256 do generic file read(filp, ppos, &desc, file read actor); 
1257 
1258 retval = desc. written: 
1259 if (!retval) 
1260 retval = desc. error; 
1261 } 
1262 } 
1263 return retval; 
1264 } 
显然 ， 这 个 函数 只 是 do_generic_file_read( ) 的 “包装 ”。 其 日 的 在 于 检查 对 用 户 字 间 缓冲 区 的 写 访 


间 权 ， 并 为 读 文 件 操作 准备 下 一 个 “ 读 操作 描述 结构 ” HIE read descriptor t 数据 结构 ， 以 减少 在 凋 川 
do_generic_file_read( ) 时 传递 参数 的 个 数 。 
由 于 do, generic. file read( ) 的 代码 比较 长 ， 我 们 还 是 分 段 阅 读 ， 其 代码 在 同一 文件 filemap.c 中 : 


[sys read( ) > generic file read( ) > do generic file_read( )] 


1005 /* 

1006 * This is a generic file read routine, and uses the 

1007 * inode->i op->readpage( ) function for the actual low-level 

1008 * stuff 

1009 * 

1010 * This is really ugly. But the goto s actually try to clarify some 

1011 * of the logic when it comes to error handling etc 

1012 */ 

1013 void do generic file read(struct file * filp, loff t *ppos, 
read descriptor t * desc, read actor t actor) 

1014 { 

1015 struct inode *inode = filp->f_dentry—>d_inode; 

1016 struct address space *mapping ~ inode-^i mapping; 

1017 unsigned long index, offset; 

1018 struct page *cached page; 

1019 int reada ok; 
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1020 int error; 

1021 int max readahead = gct max rcadahead(inode); 

1022 

1023 cached page - NULL; 

1024 index = *ppos >> PAGE CACHE SHIFT; 

1025 offset = *ppos & "PAGE CACHE MASK; 

1026 

1027 /* 

1028 * Tf the current position is outside the previous read-ahead window, 
1029 * we reset the current read-ahead context and set read ahead max to zero 
1030 * (will be set to just needed value later), 

1031 * otherwise, we assume that the file accesses are sequential enough to 
1032 * continue read-ahead. 

1033 */ 

1034 if (index > filp->f_raend || index + filp->{ rawin < filp->f_raend) { 
1035 reada ok - 0; 

1036 filp->f_raend = 0; 

1037 filp->f ralen = 0; 

1038 filp->f ramax = 0; 

1039 filp->f_rawin = 0; 

1040 } else { 

1041 reada_ok = 1; 

1042 } 

1043 /* 

1044 * Adjust the current value of read-ahead max. 

1045 * If the read operation stay in the first half page, force no readahead. 
1046 * Otherwise try to increase read ahead max just enough to do the read request. 
1047 * Then, at least MIN READAHEAD if read ahead is ok, 

1048 * and at most MAX READAHEAD in all cases. 

1049 */ 

1050 if (index && offset + desc-»count <= (PAGE CACHE SIZE >> 1)) { 
1051 filp->f_ramax = 0; 

1052 } else { 

1053 unsigned long needed; 

1054 

1055 needed = ((offset + desc->count) >> PAGE CACHE SHIFT) + 1; 

1056 

1057 if (filp-^f ramax € needed) 

1058 filp->f_ramax = needed; 

1059 

1060 if (reada ok && filp->f_ramax < MTN READAHEAD) 

1061 filp->f_ramax = MIN READAITEAD; 

1062 if (filp->f_ramax > max_readahcad) 

1063 filp->f_ramax = max_readahead; 

1064 } 

1065 


参数 actor 是 一 个 函数 指针 , 这 里 的 实际 参数 是 file_read_actor( )， 这 个 函数 的 作用 是 将 文件 的 内 容 
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从 缓冲 页 面 拷贝 到 州 户 空间 的 缓冲 区 中 。 


文件 的 读 操 作 有 个 比 写 操作 史 复 杂 之 处 ， 那 就 是 预 读 。 我 们 在 本 节 开 头 时 曾 谈 人 到 过 预 读 ， 现 在 
就 要 涉及 其 体 的 代码 了 了。 项 读 量 的 大 小 是 与 具体 设备 有 关 的 ， 内 核 中 设置 了 一 个 以 主 设备 号 为 下 标的 


数组 max_readahead[ ]， 其 定义 在 drivers/block/ll. rw. blk.c P: 


111 
112 
113 
114 


数组 中 的 每 个 元 素 都 是 指针 ， 指 向 以 次 设备 号 为 下 标的 另 一 个 整数 数组 ， 那 个 数组 中 的 元 素 就 是 
每 个 具体 设备 的 最 大 预 读 量 。 同 时 ， 内 核 中 还 提供 了 -个 inline 函数 get. max readahead( )， 利 用 这 个 
函数 根据 inode 结构 中 的 设备 号 就 可 确定 对 特定 文件 的 最 大 蔬 读 量 。 这 个 函数 的 定义 在 mnyfilemap.c 


/* 


* 


The following tunes the read-ahead algorithm in mm/filemap.c 


*/ 
int * max readahead [MAX BLKDEV] ; 


中 ， 代 但 的 作者 偿 为 之 写 了 一 大 段 注释 ， 我 们 把 它 … 并 列 在 下 面 。 


[sys. write( ) > generic file read( ) > do generic file read( ) > get max readahead( )] 


829 
830 
831 
832 
833 
834 
835 
836 
837 
838 
839 
840 
841 
842 
843 
844 
845 
846 
847 
848 
849 
850 
851 
852 
853 
854 
855 
856 
857 


/® 


* 


* * X X X X KX X X X X KF OX 


* 
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Read-ahead context: 
The read ahead context fields of the "struct file^ are the following: 
- f raend : position of the first byte after the last page we tried to 
read ahead. 

- f ramax : current read-ahead maximum size 
- f ralen : length of the current IO read block we tried to read-ahead. 
- f rawin : length of the current read-ahead window. 

if last read-ahead was synchronous then 

f rawin = f ralen 
otherwise (was asynchronous) 
f rawin = previous value of f ralen + f ralen 


Read ahead limits: 
MIN READAHEAD — : minimum read-ahead size when read-ahead. 
MAX READAHEAD : maximum read-ahead size when read-ahead. 


Synchronous read-ahead benefits: 


Using reasonable IO xfer length from peripheral devices increase system 

performances 

Reasonable means, in this context, not too large but not too small. 

The actual maximum value is: 

MAX READAHEAD * PAGE CACHE SIZE - 76k is CONFIG READA SMALL is undefined 
and 32K if defined (4K page size assumed). 


Asynchronous read-ahead benefits: 
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859 * Overlapping next read request and user process execution increase system 

860 * performance. 

861 * 

862 * Read-ahead risks: 

863 a R 

864  * We have to guess which further data are needed by the user process 

865 * Tf these data are often not really needed, it's bad for system 

866 * performances. 

867 * However, we know that files are often accessed sequentially by 

868 * application programs and it seems that it is possible to have some good 

869 * strategy in that guessing 

870 * We only try to read-ahead files that seems to be read sequentially. 

871 * 

872 * Asynchronous read-ahead risks: 

873 * Sates Sea CMT 

874 * In order to maximize overlapping, we must start some asynchronous read 

875 * request from the device, as soon as possible. 

876 * We must be very careful about: 

877 * — The number of effective pending TO read requests 

878 * ONE seems to be the only reasonable value 

879 x — The total memory pool usage for the file access stream. 

880 * This maximum memory usage is implicitly 2 10 read chunks: 

881 * — 2x(MAX READAHEAD + PAGE CACHE SIZE) - 156K if CONFIG READA SMALL 
is undefined, 

882 * 64k if defined (4K page size assumed) 

883 */ 

884 

885 static inline int get max readahead (struct inode * inode) 

886 { 

887 if (!inode->i dev || !max_readahead [MAJOR (inode->i_dev) ]) 

888 return MAX READAHEAD; 

889 return max readahead[MAJOR(inode-^i dev) ] [MINOR (inode->i_dev) ]; 

890 ] 


这 里 的 常数 MAX_READAHEAD 定义 为 31， 姑 31 个 页 面 ，124K 字 节 。 

如 前 所 述 ， 山 于 预 恋 的 引入 ， 现 在 file 结构 中 此 维持 两 个 上 下 文 了 。 一 个 是 以 “当前 位 置 ” 人 pos 
为 代表 的 真正 的 读 / S [下文 ， 另 一 个 则 是 预 读 的 上 下 文 。 为 此 目的 在 file 结构 中 增设 了 f reada. 
f ramax. f raend. f ralen 以 及 f_rawin 等 五 个 字段 。 这 五 个 字段 的 名 称 反 映 了 它们 的 用 途 ， 代 码 作 者 
TER PET UH. MA “EE boc”, Sb hPa. BOR Awe f_raend， 而 窗口 
的 大 小 则 为 _rawin。 与 写 操作 相似 ， 局 部 量 index 为 当前 读 写 位 置 所 在 页 面 的 序号 ，offset WA TIBIA 
的 位 移 。 如 果 读 操作 的 起 始 页 面 落 在 预 读 窗 口 的 外 面 , 也 就 是 index 大 于 预 读 窗口 的 终点 页 而 尸 者 小 于 
预 读 窗口 的 起 始 页 面 ， 邢 么 现存 的 预 读 窗口 与 当前 的 读 操作 就 没有 什么 关系 了 ， 所 以 要 另起炉灶 来 - 
个 新 的 预 读 窗口 ( 见 1034— 1039 行 )»。 否 则 斌 是 如 何 推进 现 有 了 预 读 窗口 的 问题 ， 所 以 先 保 持 现 有 的 窗 
D 不 变 ， 而 将 局 部 量 read ok 设 成 1。 然 后 ， 还 要 对 file 结构 中 的 最 大 预 读 虽 作 些 调整 。 如 果 当 前 所 
要 求 的 读 操 作 仅仅 局 限 在 文件 的 第 一 个 页 而 的 前 半 部 分 中 进行 〔( 见 1050 行 )， 那 就 根本 不 需要 预 读 ， 
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所 以 将 file 结构 中 的 f_ramax 字段 设 成 0。 否则 就 要 依据 整个 读 操 作 所 涉及 的 页 面 数量 needed 和 HEE 
量 、 参 数 适 当 调 整 f_ramax 字段 的 数值 ( 见 1057-1063 行 )。 对 预 读 操 作 上 上 下文 作 了 这 些 准 备 以 后 ， 
就 开始 读 了 。 继 续 看 do_generic_file_read( ) 的 代码 : 


[sys_read( ) > generic_file_read( ) > do generic file read( )] 


1066 for G3) 4 

1067 struct page *page, **hash; 

1068 unsigned long end index, nr; 

1069 

1070 end index = inode-^i size >> PAGE CACHE SIITFT; 
1071 if (index > end index) 

1072 break; 

1073 nr - PAGE CACHE SIZE; 

1074 if (index == end index) { 

1075 nr = inode-^i size & "PAGE CACHE MASK; 
1076 if (nr <= offset) 

1077 break; 

1078 } 

1079 

1080 nr = nr - offset; 

1081 

1082 /* 

1083 * Try to find the data in the page cache. 
1084 */ 

1085 hash = page hash(mapping, index); 

1086 

1087 spin lock(&pagecache lock); 

1088 page = . find page nolock(mapping, index, *hash); 
1089 if (!page) 

1090 goto no cached page; 

1091 found page: 

1092 page cache get (page) ; 

1093 spin unlock(&pagecache lock); 

1094 

1095 if (!Page Uptodate (page) ) 

1096 goto page not up to date; 

1097 generic file readahead(reada ok, filp, inode, page); 
1098 page ok: 

1099 /* If users can be writing to this page using arbitrary 
1100 * virtual addresses, take care about potential aliasing 
1101 * before reading the page on the kernel side. 
1102 */ 

1103 if (mapping-^i mmap shared !- NULL) 

1104 flush dcache page (page); 

1105 

1106 /* 
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1107 * Ok, we have the page, and it's up-to-date, so 

1108 * now we can copy it to user space... 

1109 * 

1110 * The actor routine returns how many bytes were actually used.. 
111 * NOTE! This may not be the same as how much of a user buffer 
1112 * we filled up (we may be padding etc), so we can only update 
1113 * "pos" here (the actor routine has to update the user buffer 
1114 * pointers and the remaining count). 

1115 */ 

1116 nr = actor(desc, page, offset, nr); 

1117 offset += nr; 

1118 index += offset >> PAGE CACHE SIITFT; 

1119 offset &- "PAGE CACHE MASK; 

1120 

112i page cache release(pago); 

1122 if (nr && desc-^count) 

1123 continue; 

1124 break; 

1125 


不 难 想像 ， 整 个 读 操 作 是 通过 “个 循环 完成 的 ， 这 个 循环 依次 走 过 所 涉及 的 每 个 缓冲 页 面 ， 完 成 
从 这 些 页 面 的 读 出 。 由 于 这 个 for 循环 内 部 的 流程 比较 复杂 ， 我 们 通过 一 个 假想 的 情景 来 遍 访 这 个 for 
循环 的 代码 ， 这 个 情景 涉及 对 二 个 缓冲 页 面 的 读 出 。 

与 写 操作 不 同 ， 当 恋 操作 的 位 置 到 达 了 《或 超出 了 》 文件 的 森 尾 就 结束 了 《〈 见 1070— 1078 行 )， 
而 不 像 写 操作 或 lseek( ) 那 样 将 文件 的 末尾 向 前 推进 。 只 要 还 没有 到 达 文 件 的 末尾 ， 语 根据 页 面 的 大 小 
或 者 日 标 文件 在 其 最 后 一 个 页 面 中 的 大 小 nr, 以 太 讯 操作 在 当前 负面 中 的 起 点 offset 计算 出 从 当前 页 面 
读 出 的 长 度 ( 见 1073~ 1080 行 )。 

决定 了 从 当 脐 页 面 中 读 出 的 长 度 以 后 ， 就 要 设法 找 伸 或 读 入 相应 的 缓冲 奥 和 面 了 。 首 先 当 然 吓 根据 
Fy fo UE AY ae BM ARS EBA SUP EEE CSL 1085—1088 行 )。 和 寻找 的 结果 有 三 种 可 能 ， 第 :种 是 找 不 
到 ， 第 二 种 是 找到 了 ， 但 是 该 缓冲 页 面 的 内 容 不 一 致 ， 第 三 种 是 上 既 找 到 了 所 需 的 缓冲 页 面 ， 抽 面 的 内 
RLH 

在 我 们 的 情景 里 ， 假 定 第 个 缓冲 页 面 找 到 了 ， 并 且 一 致 ， 所 以 就 到 达 了 第 1098 行 的 page ok 
标号 处 。 既 然 找 到 了 目标 负面 ， 下 面 的 事情 就 顺理成章 了 。 如 前 所 述 ， 参 数 actor 是 个 函数 指针 ， 这 个 
攻 针 实际 上 指向 file read actor( )。 它 的 作用 就 是 从 缓冲 页 面 把 内 容 复 制 到 用 户 空间 的 缓冲 区 小 ， 并 相 
应 调整 读 操 作 描 述 结构 中 的 待 读 出 长 度 ， 壤 后 返回 已 复制 的 长 度 。 完 成 了 从 绥 冲 页 面 中 的 读 出 以 后 ， 
就 根据 file read. actor( ) 的 返回 值 nr 将 index 和 offset 两 个 变量 的 值 向 前 推进 ， 并 将 当前 页 面 释放 OS 
减 其 使 用 计数 )。 在 我 们 这 个 情景 中 ， 从 这 个 页 面 读 出 的 长 度 nr 非 0， 尚 待 读 出 的 长 度 也 还 未 达到 O, 
所 以 经 由 第 1123 行 的 continue 诸 句 开始 下 一 轮 循环 (否则 就 经 山 第 1124 行 的 break 语句 结束 循环 )。 

我 们 假定 寻找 第 二 个 月 标 页 面 的 结果 也 找到 了 ， 但 是 页 面 的 内 容 不 … 致 ， 所 以 在 第 1096 行 转移 到 
标号 page not up to date 处 : 


[sys_read( ) > generic file read( ) > do generic file read( )] 
1126 /* 
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1128 
1129 
1130 
1131 
1132 
1133 
1134 
1135 
1136 
1137 
1138 
1139 
1140 
1141 
1142 
1143 
1144 
1145 
1146 
1147 
1148 
1149 
1150 
1151 
1152 
1153 
1154 
1155 
1156 
1157 
1158 
1159 
1160 
1161 
1162 
1163 
1164 
1165 
1166 
1167 
1168 
1169 
1170 
1171 
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* Ok, the page was noi immediately readable, so let's try to 
read ahead while we're at it.. 
*/ 
page not up to date: 
generic file readahead(reada ok, filp, inode, page); 


if (Page Uptodate (page) ) 
goto page ok; 


/* Get exclusive access to the page ... */ 
lock page (page); 


/* Did it get unhashed before we got the lock? */ 
if (page mapping) { 

UnlockPage (page) ; 

page cache release(page); 

continue; 


) 


/* Did somebody else fill it already? */ 
if (Page Lptodate(page)) { 

UnlockPage (page) ; 

goto page ok; 


readpage: 
/*... and start the actual read. The read will unlock the page. */ 
error = mapping->a_ops—>readpage (filp, page); 


if (terror) { 
if (Page Uptodate (page) ) 
goto page ok; 


/* Again, try some read-ahead while waiting for the page to finish.. */ 
generic file readabead(reada ok, filp, inode, page); 
wait on page (page); 
if (Page Uptodate (page)) 
goto page ok; 
error = -EIO; 


} 


/* UHHUH! A synchronous read error occurred. Report it */ 
desc-^error = error; 

page cache release (page) ; 

break; 


由 二 页 面 的 内 容 不 一 致 ， 所 以 不 能 马上 从 这 个 页 而 读 出 。 页 而 内 容 不 一 致 吓 个 暂时 的 现象 ， 这 古 
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由 于 某 个 进程 正在 写 包 插 这 个 页 面 在 内 的 某 些 页 而 ,但 尚未 提交 所 造成 的 ， : 般 只 要 等 待 一 会 儿 就 行 了 。 
可 既然 要 等 待 ， 就 不 如 乘机 预 读 一 些 页 面 进来 ， 所 以 通过 generic_file_readahead( ) 启 动 预 读 。 我 们 把 这 
个 函数 的 阅读 和 暂时 放 一 下 ， 在 这 里 只 旧 扼 道 这 个 函数 启动 预 读 就 行 了 。 不 过 划 注 意 ， 这 里 说 的 是 启动 
预 读 ， 而 不 是 完成 预 读 ， 实 际 的 页 面 读 入 是 异步 的 。 

启 荔 了 预 读 以 后 ， 再 米 检查 当前 的 晶 标 负面 是 否 已 经 一 致 ( 见 第 1132 行 )。 如 果 已 经 一 致 了 那 就 
Af] page ok 标号 处 (第 1098 行 )， 下 面 就 与 第 个 页 面 的 情况 相同 了 。 如 果 还 没有 GE? 那 就 要 
从 设备 上 把 这 个 页 而 读 回 来 。 读 之 前 娄 先 把 页 面 锁 住 ， 注 意 这 里 的 lock_page( ) 可 能 隐 含 着 等 待 ， 因 为 
这 页 面 可 能 已 经 被 别 的 进程 锁 住 了 。 特 别 是 这 个 页 面 还 不 一 致 ， 就 说 明 有 某 个 进程 正在 对 其 进行 写 操 
作 ， 很 可 能 就 是 这 个 进程 锁 住 了 页 面 。 所 以 ，lock_page( ) 的 过 程 实 际 上 就 是 睡眠 等 待 当 前 锁 住 这 个 页 
面 的 进程 完成 其 操作 并 且 解 锁 的 过 程 。 当 从 lock_page( ) 返 回 时 ， 这 个 页 面 已 经 被 当前 进程 锁 住 了 。 正 
因为 这 样 ， 就 很 有 可 能 当 加 锁 成 功 时 页 面 已 经 一 致 了 ， 所 以 要 再 次 加 以 检查 ， 如 果 确 已 一 化， 就 把 锁 
解除 并 转向 page ok. 

要 是 加 了 锁 而 抽 面 仍 肯 没有 达到 一 致 ， 那 就 无 计 可 施 ， 只 好 从 设备 上 把 页 面 读 回来 ， 这 就 到 了 标 
号 readpage 处 。 对 具体 文件 系统 和 设备 的 读 操作 是 由 具体 的 address_space_operations 数据 结构 道 过 函 
数 指针 readpage 提供 的 ， 对 于 Ext2 文件 系统 这 个 函数 是 ext2_readpage( )， 其 代码 在 fs/ext2/inode.c P: 


[sys read( ) > generic file read( ) > do generic file read( ) > ext2 readpage( )] 


657 static int ext2 readpage(struct [ile *file, struct page *page) 
658 | 

659 return block read full page(page,ext2 get block); 

660 } 


ix^ eh Be M TH TI EI block read full page( ) 完 成 操作 ， 而 以 ext2, get. block( ) 作 为 调 
用 的 参数 之 一 。 读 者 应 该 还 记得 ，ext2_get_block( ) 完 成 Ext2 3cft 3R EE ME PYRE su EB 
HST AX block read full page( ) 的 代码 在 fs/buffer.c 中 : 


[sys_read( ) > generic. file read( ) > do, generic file read( ) > ext2 readpage( ) > block read full page( )] 


1667 /* 

1668 * Generic “read page” function for block devices that have the normal 
1669 * get block functionality. This is most of the block device filesystems. 
1670 * Reads the page asynchronously ——- the unlock buffer( ) and 

1671 * mark buffer uptodate( ) functions propagate buffer siate into the 

1672 * page struct once IO has completed 

1673 */ 


1674 int block read full page (struct page *page, get block t *get block) 
1675 { 


1676 struct inode *inode = page >mapping->host; 

1677 unsigned long iblock, lblock; 

1678 struct buffer head *bh, *head, *arr[MAX BUF PER PAGE]: 
1679 unsigned int blocksize, blocks; 

1680 int nr, i; 

1681 
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1682 if (!PageLocked (page) ) 

1683 PAGE, BUG (page) ; 

1684 blocksize = inode->i sb->s_blocksize; 

1685 if (!page->buffers) 

1686 create empty buffers(page, inode->i_dev, blocksize) ; 
1687 head = page->butfers: 

1688 

1689 blocks = PAGE CACHE STZE >> inode->i_sb->s_blocksize bits; 


1690 iblock - page->index << 
(PAGE CACHE SHIFT - inode-^i sb >s blocksize bits): 


1691 Iblock = (inode->i_sizetblocksize-1) >> inode-^i sb-^s blocksize bits; 
1692 bh = head; 

1693 nr = 0; 

1694 i = 0; 

1695 

1696 do { 

1697 if (buffer_uptodate (bh) ) 

1698 continue; 

1699 

1700 if (!buffer mapped(bh)) { 

1701 if (iblock < Iblock) { 

1702 if (get block(inode, iblock, bh, 0)) 

1703 continuo; 

1704 } 

1705 if (!buffer mapped(bh)) | 

1706 memset (kmap (page) 4 i*blocksize, 0, blocksize); 
1707 flush dcache page (page) ; 

1708 kunmap (page) ; 

1709 set bit (BI Uptodate, &bh-»b stato); 

1710 continuo; 

1711 j 

1712 /* get block( ) might have updated the buffer synchronously */ 
1713 if (buffer uptodate(bh)) 

1714 continue; 

1715 ) 

1716 

1717 arr[Ínr] = bh; 

1718 nrit; 

1719 ) while (i++, iblock++, (bh - bh—b this page) !- head); 
1720 

1721 if (!nr) { 

1722 /* 

1723 * all buffers are uptodate - we can set the page 
1724 * uptodate as well. 

1725 */ 

1726 SetPageUptodate (page) ; 

1727 UnlockPage (page) ; 

1728 return 0; 
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1729 } 

1730 

1731 /* Stage two: lock the buffers */ 
1732 for (1-0; i < nr; ili) 1 

1733 struct buffer head * bh = arr[i]; 
1734 lock buffer(bh); 

1735 bh »b end io = end buffer io async; 
1736 atomic inc(&bh-2b, count) ; 

1737 } 

1738 

1739 /* Stage 3: start the IO */ 

1740 for (i = 0; i < nr; i++) 

1741 submit bh(READ, arr[il); 

1742 

1743 return 0; 

144  ] 


入 个 缓冲 页 面 都 包含 着 若干 记录 块 缓冲 区 ,page 数据 结构 中 的 buffer. head 指针 buffers 指向 这 些 组 
冲 区 的 buffer head 数据 结构 队列 。 如 果 一 个 缓冲 页 面 尚未 建立 起 这 样 的 队列 ， 就 要 通过 
create empty. buffers( ) 加 以 创建 。 很 自然 地 ， 然后 是 对 构成 该 负面 的 各 个 记录 块 缓冲 区 的 循环 。 以 前 讲 
过 ，~ 个 页 和 而 的 内 容 不 一 致 并 不 说 明 构成 这 个 页 面 的 所 有 记录 块 都 不 一 化。 所 以 ， 如 果 “个 记录 抉 的 
AA: Sgt CASS 1698 行 的 continue 语 凶 )。 如 果 一 个 记录 块 缓冲 区 尚未 与 设备 上 上 的 物 
理 记 录 块 建立 起 映射 关系 ( 见 第 1700 行 ) 并 卫 这 个 记录 块 的 起 始 地 址 并 未 超出 文件 的 末尾 5( 见 第 1701 
行 和 第 1702 行 )， 就 要 通过 作为 参数 传递 下 米 的 函数 建立 起 映射 。 在 这 里 ， 对 十 Ext2 文件 系统 而 言 ， 
这 个 函数 就 是 ext2_get_block( )， 我 们 已 经 在 前 面 读 过 它 的 代码 。 

Ait, 这 时 对 这 个 函数 的 调用 与 写 文件 时 有 所 不 同 ， 那 就 是 第 三 个 参数 为 0， 贞 在 写 操 作 时 这 个 参 
数 为 1。 这 个 参数 表示 如 果 尚 末 为 给 定 的 风 辑 记录 块 分 配 物 理 记 录 岂 的话， 是否 要 为 之 分 配 一 个 。 我们 
在 前 面 读 ext2_get_block( OWH CIF SEE T HRABRA 0 时 的 那 一 部 分 ， 现 在 回 过 头 去 看 一 下 。 沪 函 
数 代码 中 标号 cleanup 前 有 个 这 lcreat ...) 语 句 ， 当 ext2_get_branch( ) 返 回 了 一 个 非 0 指针 ， 表 示 尚 未 为 
给 定 的 逻辑 记录 块 分 卫 物 理 记 录 块 时 ,就 由 这 个 if 语 句 决 定 怎么 办 。 如 果 参 数 create 为 0， 就 表示 不 为 
之 分 配 物 理 记 录 块 ， 此 时 并 不 设置 相 必 缓 冲 区 头 部 中 的 有 关 字 段 ， 也 并 不 将 其 BH_MAPPED 标志 位 设 
AM 1. 

所 以 ， 如 果 在 调用 了 ext2_get_block( ) 以 后 缓冲 区 的 映射 仍 森 建立， 就 表示 这 个 逻辑 记录 块 尚 无 与 
之 对 应 的 物理 记录 上 块 。 这 种 情况 发 生存 通过 lseek( ) 系 统 调用 在 文件 中 引入 了 空洞 以 后 。 

从 空洞 中 读 出 的 内 容 是 什么 昵 ?请 看 卜 面 紧 接 着 的 儿 行 。 就 是 说 ， 如 果 迪 辑 记 录 块 洲 人 在 一 个 空 泣 
内 ， 就 把 它 清 成 全 0， 所 以 读 出 的 内 容 也 是 全 0。 那么 ， 什 么 时 候 才 为 这 个 网 辑 记录 块 分 配 设 备 上 的 物 
P^]? 要 等 到 对 这 个 记录 块 进行 写 操作 的 时 候 。 SIDE, 调用 ext2_get_block( ) 的 第 三 个 参数 create 
是 1， 就 会 为 之 分 配 物 理 记录 块 了 。 

除 这 钠 种 情况 以 外 ， 那 就 站 已 经 建立 起 映射 但 是 内 容 不 …- 致 的 页 面 了 。 这 种 页 面 是 真正 需要 从 设 
备 上 读 入 的 页 面 ， 所 以 方面 遂 过 init buffer( ) 对 buffer head 结构 进行 一 些 设置 ， 主 此 是 对 冰 数 指针 
bend io 的 设置 ， 这 个 质数 指针 拓 供 了 当 设 备 的 UO 完成 时 要 局 动 的 操作 ， 在 这 里 是 
end buffer io async(). PAX init buffer( ) 的 代码 也 在 bufferc 中 : 





633 . 


Linux 内 核 源 代 码 情景 分 析 CEAD 


[sys_read( ) > generic file read( ) > do. generic file read( ) > ext2_readpage( ) > block read full page( ) > 
init. buffer( )] 


768 void init_buffer (struct buffer_head *bh, bh_end_io_t *handler, 
void *private) 


769 {f 
770 bh-»b list ~ BUF CLEAN; 
771 bh->b_end io = handler; 
772 bh->b_private = private; 
773 ] 


盟 然 这 个 记录 块 是 肯定 要 从 设备 上 读 入 的 ， 但 是 却 并 不 立即 就 在 循环 体内 启动 对 没 备 的 操作 ， 而 
只 是 先 把 真正 需要 读 入 的 记录 块 缓冲 区 收集 在 一 个 指针 数组 an ] 中 《 见 第 1733 行 )。 这 个 数组 随后 被 
作为 参数 传递 给 IL rw block( )， 将 积累 起 来 的 属于 同 -页 面 的 记录 块 成 批 地 读 入 ， 而 对 1Lrw_block( ) 
的 调用 则 留待 对 记录 块 的 循环 结束 以 后 。 

记录 块 的 读 入 是 需要 一 定时 间 的 ， 而 Ho rw block( ) 实 际 上 只 是 启动 记录 块 的 读 入 ， 所 以 从 
ll bw. block() 以 及 随 之 从 ext2, readpage( ) 的 返回 和 恋 入 的 完成 (通过 DMA 完成 ) 是 异步 的 ， 互相 半 行 
的 。 

这 样 ， 当 返回 到 do_generic_file_read( ) 中 时 (第 1155 行 )， 页面 中 需要 读 入 的 记录 块 也 许 已 经 全 部 
完成 ， 从 而 使 页 面 的 PG_UPTODATE 标志 位 已 经 变 成 了 1， 表明 该 页 面 的 内 容 已 经 一 致 ， 但 是 也 有 可 
能 尚未 全 部 完成 而 页 面 的 内 容 尚 未 一 致 。 如 桌 是 前 者 就 转 入 page_ok， 此 后 的 操作 就 与 前 述 第 -个 页 面 
的 情况 相同 了 。 

可 足 如 时尚 未 完成 吧 ? 那 就 需要 等 待 。 婚 然 要 等 待 ， 那 何不 干脆 再 多 读 一 些 记 录 块 进来 备用 呢 ? 
所 以 这 里 又 调用 处 理 预 读 的 generic file readahead( ). X} FA WMA AA — Bit A 标 与 
page_not_up_to_date 执行 下 来 进入 readpage 的 路 线 而 言 , 这 已 经 是 第 二 次 调用 generic. file readahead() 
T. 但 是 进入 readpage 的 路 线 并 非 只 有 这 么 一条， 所 以 这 里 的 预 读 一 方面 也 是 出 于 对 其 他 情况 的 考虑 ， 
这 一 点 读者 以 后 就 会 看 到 。 

虽然 通过 预 读 消耗 了 一 些 时 间 , 日 标 负 面 的 读 入 仍 不 能 肯定 已 经 完成 ,所 以 要 通过 wait_on_page( ) 
加 以 检验 或 等 待 。 到 页 而 《实际 上 是 其 中 的 若干 记录 块 ) 的 读 入 肯定 已 经 完成 时 ， 页 面 的 PG_uptodate 
标志 位 应 该 为 1， 否 则 就 有 错 了 。 这 里 Page Uptodate( ) 所 作 的 仪 仅 是 一 种 检验 而 不 包含 等 待 ， 而 
wait_on_page( ) 则 包含 了 可 能 的 睡眠 等 待 。 

目标 页 面 的 读 入 顺利 完成 以 后 ， 就 转向 page_ok， 此 后 的 操作 就 义 与 前 述 第 个 页 面相 同 了 。 完 
成 了 第 :个 缓冲 页 面 的 读 出 以 后 ， 由 于 所 要 求 的 读 出 削 未 完成 ， 又 通过 第 1123 行 的 continue 语句 四 到 
T for 循环 的 开头 。 

这 一 次 ， 由 丁 涉及 的 第 三 个 逻辑 页 面 没有 被 缓冲 在 内 存 中 ，__find_page_nolock( ) 返 回 NULL, 所 
以 就 转 到 了 no_cached_page。 我 们 在 文件 filemap.c 中 继续 往 下 看 : 


[sys_read( ) > generic file read( ) > do _generic_file_read( )] 


1172 no cached page: 


1173 /* 
1174 * Ok, it wasn’t cached, so we need LO create a new 
1175 * page.. 


. 634 . 


第 5 章 文件 系统 


1176 * 

1177 * We get here with the page cache lock held 
1178 */ 

1179 if (!cached page) { 

1180 spin unlock(&pagecache lock); 

1181 cached page - page cache alloc( ); 

1182 if (!cached page) 1 

1183 desc—>error = —ENOMEM: 

1184 break ; 

1185 } 

1186 

1187 /* 

1188 * Somebody may have added the page while we 
1189 * dropped the page cache lock. Check for that. 
1190 */ 

1191 spin lock(&pagecache lock); 

1192 page = . find page nolock(mapping, index, *hash) ; 
1193 if (page) 

1194 goto found page; 

1195 } 

1196 

1197 /* 

1198 * Ok, add the new page to the hash-queues... 
1199 */ 

1200 page = cached page; 

1201 . add to page cache(page, mapping, index, hash); 
1202 spin unlock(&pagecache lock): 

1203 cached page = NULL: 

1204 

1205 goto readpage; 

1206 } 

1207 

1208 *ppos = ((loff t) index << PAGE CACHE SHIFT) + offset; 
1209 filp—f reada = 1; 

1210 if (cached page) 

1211 page cache free(cached pago); 

1212 UPDATE ATIME (inode) ; 

1213 } 


既然 在 内 存 中 尚未 为 目标 页 面 建立 起 缓冲 ， 那 就 不 仪 仪 是 从 设备 读 入 的 问题 了 ， 齐 此 之 前 还 费 为 
之 分 配 一 个 负面 。 在 前 面 第 1023 行 中 指针 cached. page 初始 化 成 NULL, RRA CAAA ARE 
用 的 缓冲 页 面 ， 所 以 这 里 通过 page cache alloc( ) 分 配 一 个 负面 备用 。 但 是 ， 在 分 配 成 功 以 后 还 此 上 髓 检 
查 一 次 日 标 页 面 是 否 己 经 缓冲 ( 见 第 1182 行 )， 这 是 因为 在 page_cache_alloc( ) 中 当前 进程 有 可 能 进入 
睡眠 ， 从 而 有 可 能 计 别 的 进程 抢先 为 日 标 页 面 建立 了 缓冲 。 如 果 这 种 情况 果真 发 十 了 ， 那 就 转 入 
found_page， 此 后 的 操作 就 与 前 述 的 第 一 和 第 二 个 页 面相 同 了 。 全 于 分 配 得 的 页 而 cached_page， 则 成 
了 “已 经 分 内 但 尚未 使 用 的 缓冲 员 面 ”， 我 们 不 必 忙 着 将 其 释 族 ， 因 为 也 许 以 后 还 会 有 和 需要， 如 果 确 实 
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没有 需要 就 拖延 到 最 后 在 第 1211 行 中 加 以 释放 。 人 省 则 ， 要 是 没有 发 竺 这 样 的 情况 ， 那 就 将 分 配 得 的 页 
面 链 入 到 所 有 有 关 的 队列 中 ,包括 由 所 属 inode 结构 中 的 指针 i_mapping 所 指向 的 address_space 结构 ( 通 
常 是 inode 结构 中 的 i_data) 里面 的 绥 冲 页 面 队列 、 全 局 性 的 缓冲 页 向 森 竣 表 队列 以 及 全 局 性 的 绥 促 页 
i LRU 队列 。 然 后 就 转向 readpage， 此 后 的 操作 就 与 前 述 第 个 负面 的 一 部 分 操作 相同 了 。 

由 于 这 已 经 是 涉及 的 最 后 一 个 页 面 ， 所 以 从 这 个 页 面 的 恋 出 完成 以 后 ， 就 通过 第 1124 行 的 break 
语句 结束 for 循环 而 到 达 第 1208 行 ， 在 这 里 对 file 结构 中 的 fpos 字段 加 以 调整 。 注 意 ，index 和 offset 
的 值 在 循环 小 每 次 都 在 向 前 推进 ( 见 1117 1119 行 ), 所 以 此 时 已 经 指向 本 次 read( ) 操 作 以 后 的 位 置 上 。 
另 ， 方面 ， 当 前 的 预 读 上 下 文 继 续 有 效 ， 所 以 将 file 结构 中 的 freada 标志 设 成 1。 

由 十 do_generic_file_readahead( ) 是 generic. file read( ) 的 主体 , 至 此 我 们 可 以 认为 读 操作 已 经 完成 。 

在 上 面 的 叙述 中 ， 我 们 此 过 了 预 读 函数 generic file readahead( ) 的 细节 ， 这 个 函数 的 代码 也 在 
mm/filemap.c P: 


[sys_read( ) > generic file read( ) > do. generic file read( ) > generic file readahead( )] 


892 static void generic file readahead(int reada ok, 


893 struct file * filp, struct inode * inode, 
894 struct page * pago) 
895 { 
896 unsigned long end index = inode->i_size >> PAGE CACHE SHIFT; 
897 unsigned long index = page->index; 
898 unsigned long max ahead, ahead; 
899 unsigned long raend; 
900 int max readahead - get_max_readahead (inode) ; 
901 
902 raend = filp->f_raend; 
903 max_ahead = 0; 
904 
905 /* 
906 * The current page is locked. 
907 * If the current position is inside the previous read IO request, do not 
908 * try to reread previously read ahead pages. 
909 * Otherwise decide or not to read ahcad some pages synchronously 
910 * If we are not going to read ahead, sct the read ahead context for this 
911 * page only. 
912 */ 
913 if (PageLocked(page)) 1 
914 if (!filp- f ralen || index >= raend | 
index + filp->f_rawin < raend) { 
915 raend = index; 
916 if (raend < end_index) 
917 max ahead = filp->f_ramax; 
918 filp-^f rawin = 0; 
919 filp-^f ralen = 1; 
920 if (!max ahead) | 
921 filp-^f raend = index + filp—f ralen; 
922 filp-^f rawin i= filp->f_ralen; 
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923 
924 
925 
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956 
957 
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969 
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/* 

* The current page is not locked. 

* If we were reading ahead and, 

* if the current max read ahead size is not zero and, 

* if the current position is inside the last read-ahead IO request, 

* it is the moment to try to read ahead asynchronously. 

* We will later force unplug device in order to force asynchronous read I0. 
*/ 

else if (reada ok && filp— f ramax && raend >= 1 && 
index <= raend && index + filp-^f ralen >= raend) { 

/* 

* Add ONE page to max ahead in order to try to have about the 

same [QO max size 

* as synchronous read ahead (MAX READAHEAD + 1)*PAGE CACHE SIZE. 

* Compute the position of the last page we have tried to read in order to 
* begin to read ahead just at the next page. 


*/ 
raend -= 1; 
if (raend < end index) 
max ahead = filp->f_ramax + 1; 
if (max ahead) | 
filp-^f rawin = filp->f_ralen; 
filp->f_ralen = 0; 
reada_ok = 2: 
} 
} 
/* 


* Try to read ahead pages 
* We hope that ll rw blk( ) plug/unplug, coalescence, requests sort and the 
* scheduler, will work enough for us to avoid too bad actuals IO requests 


*/ 


ahead = 0; 
while (ahead < max ahead) { 
ahead ++; 
if ((raend + ahead) >= end index) 
break; 
if (page cache read(filp, raend + ahead) < 0) 
break; 


/* 

* If we tried to read ahead some pages, 

* |f we tried to read ahead asynchronously, 

* Try to force unplug of the device in order to start an asynchronous 
* read IO request 
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970 * Update the read-ahead context. 

971 * Store the length of the current read-abead window. 
972 * Double the current max read ahead size. 

973 * That heuristic avoid to do some large IO for files that are not really 
974 * accessed sequentially. 

975 */ 

976 if (ahead) { 

977 if (reada_ok == 2) { 

978 run task queue(&tq disk); 

979 ) 

980 

981 filp->f ralen ++ ahead; 

982 filp->f rawin += filp->f ralen; 

983 filp— f raend = raend + ahead + 1; 

984 

985 filp->f_ramax += filp->f_ramax; 

986 

987 if (filp-^f ramax > max readahead) 

988 filp-^f ramax = max readahead; 

989 

990 /* 

991 * Move the pages that have already been passed 
992 * to the inactive list. 

993 */ 

994 drop behind(filp, index); 

995 

996 #ifdef PROFILE READAHEAD 

997 profile readahead((reada ok == 2), filp); 
998 #endif 

999 } 

1000 

1001 return; 

1002 } 


参数 reada_ok 表示 月 标 页 面 page 是 省 在 原来 的 预 读 窗口 之 内 ， 这 是 在 do_generic_file_read( ) 开 头 
时 就 计算 好 了 的 。 

首先 要 根据 具体 情况 确定 个 合适 的 预 读 晤 max_ahead， 这 个 预 读 量 最 初时 假定 为 0， 然 后 根据 具 
体 情况 加 以 修正 。 怎 样 修正 呢 ? 主 旨 取 决 于 当前 页 面 page 是 否 已 经 锁 上 ， 也 就 是 对 这 个 页 面 中 记录 上 
的 设备 层 读 入 请 求 是 否 已 经 发 出 。 如 果 已 经 发 出 ， 而 当前 页 面 又 在 先前 的 预 读 窗口 之 内 ， 并 旦 原来 的 预 
读 窗 口中 已 经 包含 了 对 当前 页面 以 后 若 十 页 面 的 预 读 ， 示 就 保持 max_ahead 为 0， 最 后 泡 功 而 返 。 这 种 

情况 下 generic_file_readahead( ) 只 是 作 了 一 个 简单 的 检测 而 并 不 是 真正 进行 预 读 。 
如 果 当 前 页 面 虽然 已 经 被 锁 住 , 也 就 是 说 已 经 交付 设备 驱动 层 加 以 读 入 , 但 是 原来 并 没有 预 读 Cile 
结构 中 的 foralen 为 0)， 或 者 当前 负面 已 是 预 读 窗口 中 的 最 后 一 个 页 面 或 者 超出 了 预 读 窗口 的 上 党 
(index >= raend)， 或 者 当前 页 面 在 预 读 窗口 的 下 沿 以 下 ， 那 就 赔 明 要 另 起 一 个 预 读 窗 口 了 。 这 个 预 读 
窗口 的 大 小 首先 取决 于 file 结构 中 的 framax, XA) ALTE do_generic_file_read( ) 中 的 for 循环 开始 之 前 
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5j f raend 和 f_rawin 一 起 计算 好 了 的 ; 如 果 在 for 循环 中 已 经 调用 过 generic. file readahead( ) 则 由 上 一 
次 调用 遗留 下 来 。 根 据 具体 情况 的 不 同 ， 这 个 数值 仍 有 可 能 为 0， 那 就 表示 不 要 预 读 。 不 过 ， 如 果 看 一 
下 do generic file read( ) 中 的 第 1050~ 1064 行 ， 就 可 以 发 虎 一 般 情 况 下 这 个 数值 都 不 会 是 0。 

如 果 当 前 页 面 没有 被 锁 住 , 设备 抠 动 层 的 恋 入 请 求 尚未 发 出 呢 ? 与 前 -种 情况 正好 相反 。 在 前 一 种 
ROLF, AEM RRS AE, RAA ERA PI AL. TE Bk 
就 有 预 读 窗口 (read_ok 非 0)， 并 且 当 前 页 面 落 在 原 有 窗口 之 内 时 才 预 读 〔 见 934 行 和 835 行 )。 此 时 的 
HX max ahead 也 来 自 file 结构 中 的 f_ramax， 但 是 要 增加 一 个 页 面 ， 因 为 对 当前 页 面 的 读 入 也 作为 

“了 预 读 ”处 理 了 。 如 果 比 较 `- 下 在 两 种 情况 下 对 filp-»f ralen 的 初始 化 ， 就 可 以 看 到 在 前 一 种 情况 下 将 
其 设置 成 1， 因 为 对 当前 页 面 的 读 入 已 经 在 进行 中 ， 而 在 后 一 种 情况 下 则 将 其 设置 成 0， 因 为 对 当前 页 
面 的 读 入 尚未 开始。 此 外 ， 在 949 行 还 将 reada ok 设置 成 2， 表 示 此 时 的 预 读 为 “异步 预 读 ” 其 区 别 
在 后 面 会 看 到 。 

确定 了 合适 的 预 读 量 以 后 ， 就 开始 通过 一 个 while 循环 依次 启动 对 各 个 页 面 的 读 入 。 函 数 
page cache read( ) 的 代码 在 同文 件 filemap.c 中 : 


[sys_read( ) > generic file read( ) > do_generic_file_read( ) > generic_file_readahead( ) > 
page_cache_read( )] 


545 /* 

546 * This adds the requested page to the page cache if it isn't already there, 
547 * and schedules an I/O to read in its contents from disk. 

548 */ 


549 static inline int page cache read(struci file * file, unsigned long offset) 
550 1 


551 struct inode *inode = file-^f dentry—^d inode; 

552 struct address space *mapping = inode-^i mapping; 
553 struct page **hash = page hash(mapping, offset); 

554 struct page *page; 

599 

556 spin lock(&pagecache lock); 

557 page = find page nolock(mapping, offset, *hash); 
558 spin unlock(&pagecache lock); 

559 if (page) 

560 return 0; 

561 

562 page = page cache alloc( ); 

563 if (!page) 

564 return -PNOMEM ; 

565 

566 if (ladd to page cache unique (page, mapping, offset, hash)) { 
567 int error - mapping-^a ops-?readpage(file, page): 
568 page cache release(page); 

569 return error; 

510 } 

571 /* 

572 * We arrive here in the unlikely event that someone 
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573 * raced with us and added our page to the cache first. 
574 */ 

575 page cache free(page); 

576 return 0; 

577. -] 


读者 对 这 段 代 码 已 经 不 会 感到 隧 生 了 ， 具 体 的 谈 入 由 mapping->a_ops->readpage( ) 启 动 。 对 十 Ex 
文件 系统 这 就 是 ext2_readpage( )， 读 者 忆 经 在 前 面 看 过 它 的 代码 了 。 这 里 要 指出 的 是 ， 如 不 
. find page. nolock( ) 找 到 了 所 需 的 页 面 就 育 接 返 回 0 而 跳 过 了 对 页 面 的 赎 入 ， 但 是 佳 上 面 的 while fü 
rb HTK eus HL SE. HR, XXL RRP OAR N REIS EE ILS oS dH 
是 也 没有 什么 关系 ， 因 为 当 读 这 个 页 面 时 如 果 发 现 仍 不 一 - 致 就 会 在 do, generic file read( ) 中 转 入 
page not up to date 处 加 以 处 型。 i 

只 要 不 在 中 途 到 达 了 文件 的 终点 Cend index 为 最 后 -个 逻辑 记录 块 的 序号 ) ，while 循 坏 就 要 到 
完成 了 由 max. ahead 决定 的 预 读 量 才 会 结束 。 注 意 ， 人 在 ext2_readpage( ) 中 只 是 通过 JUL_rw_block( ) 发 出 
了 对 各 个 记录 鼎 的 读 入 请 求 ， 而 真正 的 读 入 是 通过 DMA 进行 的 ， 当 前 进程 并 不 停 下 来 等 待 其 完成 。 
从 这 个 角度 讲 ， 所 有 的 磁盘 读 / 写 其 实 都 是 “异步 ”的 ， 而 预 读 之 所 以 分 为 “同步 ”和 “ 痢 步 ”， 其 
区 别 在 于 第 978 行 对 run_task_queue( ) 的 调用 ， 即 抽出 时 间 做 点 别 的 什么 ， 我 们 在 “设备 驱动 ”一 章 中 
还 会 回 旬 这 个 话题 。 此 外 ， 除 对 预 恋 窗 口 的 更 新 外 ， 还 将 file 结构 中 的 最 大 预 读 量 f_ramax Ihia CA 
985 行 ) ， 只 是 这 个 数值 不 能 超过 由 get_max_readahead( ) 取 得 的 对 于 文件 所 在 设备 的 最 大 预 读 量 
max_readahead。 所 以 ， 在 同一 个 预 读 上 下 文中 ， 随 着 预 读 次 数 的 增加 ， 预 读 量 通常 会 愈 来 您 大 ， 下 至 
达到 max_readahead。 然后， 得 当 预 读 上 上 下文 改 变 时 ,也 就 是 通过 lseek( ) 将 当前 位 置 改 必 到 当前 预 读 窗 
口 之 外 以 后 的 第 一 次 读 操 作 时 ， 就 会 重新 开始 “个 新 的 上 下 文 而 又 开始 积累 最 大 了 预 读 量 。 

至 于 profile_readahead( )， 那 只是 用 于 统计 信息 的 收集 ， 此 处 我 们 就 对 之 不 感 兴趣 了。 


5.7 其 他 文件 操作 


系统 调用 open( )、close( ) 和 write( ) 无 疑 是 晤 基本 、 最 重要 、 而 旦 也 最 复杂 的 文件 操作 。 除 此 以 外 ， 
AVES FY RES REA RA ARO. DR RE RSA ZB PE, fd 
是 在 不 同 的 应 用 中 分 别 起 着 很 重要 的 作用 ， 限 于 本 书 的 篇 幅 ， 我 们 不 可 能 对 所 有 这 些 系统 调用 都 一 
列举 放 加 以 介绍 。 读 者 可 以 在 第 3 章 的 系统 调用 函数 跳 续 表 中 找到 与 所 有 这 些 系 统 调用 对 应 的 内 核 消 
数 ， 对 丁 这 些 (未 必 是 个 部 ) 系统 调用 的 作用 与 运用 可 以 参考 关于 Unix/Linux BPRS S. TT 
实现 这 些 系统 调用 的 代码 ， 则 大 多 数 要 由 读者 自己 下 功夫 去 阅读 了 。 我 们 在 这 里 选择 其 要 埋 介 绍 几 个 
系统 调用 的 实现 。 

先 看 1seek( )， 这 个 系统 训 用 的 功能 和 实现 虽然 简单 但 却 很 重要 。 内 核 中 实现 这 个 系统 调 川 的 函数 
是 sys_lseek( )， 其 代码 在 fs/read_write.c "P: 


64 asmlinkage off t sys lseek(unsigned int fd, off t offset, 
unsigned int origin) 


65 { 
66 off t retval; 
67 struct file * file; 
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68 
69 
70 
71 
72 
73 
74 
75 
76 
TT 
78 
79 
80 
8l 
82 
83 


zi 
tA 
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retval | —EBADF: 
file = fget (fd): 
if (!file) 
goto bad; 
retval = -EINVAL; 
if (origin <= 2) { 
loff t res ~ llseek(file, offset, origin); 
retval - res; 
if (res !- (loff t)retval) 
retval = -EOVERFLOW;/* LFS: should only happen on 32 bit platforms */ 


} 


fput (file); 
bad: 
return retval; 


i 


参数 origin 的 们 只 能 是 0、1 0 2, KIR offset 的 起 点 ， 本 书 的 读者 应 该 是 早 就 知道 的 。 这 段 代 公 中 


的 第 
We? 


76 行 和 第 77 行 可 能 会 给 读者 带 来 “ 些 困 惑 ， 既 然 把 res 的 值 赋 给 retval， 怎 么 二 者 又 可 能 不 相等 
这 是 因为 二 者 的 类型 不 同 。 变量 res 的 类 型 为 lofft 实际 上 是 64 位 整数 ; 而 retval 的 类 型 为 off t. 


是 32 位 整数 。 有 关 的 定义 克 include/linux/types.h: 


18 


45 


36 


JE 

这 个 
文件 
也 在 


typedef kernel off t off t; 

typedef . kernüel loft t loff t; 

Bee RA! kernel off tW] — kernel loff t 定义 则 见 include/asm_i386/posix_types.h: 
typedef long . kernel off t; 

typedef long long kernel loff t; 


将 64 位 的 数 依 贱 给 32 位 的 变量 , AACA EAS, Skbe 上 :就 起 检查 这 个 32 DEUS T i 
所 以 ， 系 统 调用 Iseck( ) 在 32 位 系统 结构 中 只 适用 二 文件 大 小 不 超过 AGB 的 文件 系统 。 为 了 突破 
IRE, Linux 另外 提供 了 一 个 系统 调用 Useek( )， 使 得 在 32 位 系统 结构 中 也 可 以 处 理 大 于 AGB 的 
， 其 代码 就 在 同 … 文 件 中 ， 我 们 距 不 看 了 。 不 过 ， 二 者 的 主体 都 是 seek( ). PE llseek( ) 的 代码 
la] Xi fs/read_write.c P: 


[sys Iseek( ) > Ilseek( )] 


50 


D m 


C! C! on gi o 
m oo 


ci 


static inline loff t llseek(struct file *file, loff t offset, int origin) 


J 
| 


loff t (fn) (struct file *, Toff t, int); 
loff t retval; 


fn = default ilsceck; 
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if (file->f_op && file->f op->11seek) 
fn = file->f_op->1lseek; 

lock kernel ( ); 

retval = fn(file, offset, origin); 

unlock kernel ( ); 

return retval; 


注意 ， 这 个 函数 返回 值 的 类 型 是 64 位 的 loff_t, BH offset 的 类 型 也 是 lofft- 


具体 的 文件 系统 可 以 通过 file operations 结构 中 的 函数 指针 llseek 提供 相应 的 函数 ， 以 实现 这 个 操 
作 ， 如 果 不 提供 就 等 于 默认 采用 defanlt liseek( )。 就 Ext2 MHRA Ss, CHB wee 


ext2_file_lseek( )， 其 代码 在 fs/ext2/file.c P: 


[sys. lseek( ) > llseek( ) > ext2 file lseek( )] 


39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 


/水 
* Make sure the offset never goes beyond the 32-bit mark.. 


static loff t ext2 file lseek( 


} 


作为 参数 传递 下 来 的 offset 可 以 是 负 什 ， 但 根据 起 始点 origion 加 以 换算 以 后 就 不 容许 负 值 了 。 代 
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struct file *file 
loff t offset, 
int origin) 


struct inode *inode = file->f dentry-?d inode; 


switch (origin) ( 
case 2: 
offset += inode—^i size; 
break; 
case 1: 
offset += file->f pos; 
} 
if (offset«0) 
return -EINVAL; 
if (((unsigned long long) offset >> 32) != 0) { 
if (offset > ext2 max sizes[EXT2 BLOCK STZE BITS (inode->i sb) ] ) 
return -EINVAL; 
} 
if (offset != file->f_pos) | 
file->f pos = offset; 
file->f_reada = 0; 
file->f_version = +tevent; 
} 


return offset; 














第 5 章 XU 


ASHE 58. 59 行 也 是 对 offset 取 值 范围 的 检查 。 位 移 offset 可 以 超过 文件 的 当前 大 小 ， 但 是 不 能 超 
过 文件 大 小 的 上 限 。 这 个 上 限 来 和 月 两 个 方面 ， 其 一 是 不 能 超过 32 位 整数 的 容量 ， 这 就 是 第 58 行 所 检 
AMA; 其 二 是 不 能 超过 前 : 节 中 所 讲 Ext2 文件 系统 中 记录 块 映射 机 制 的 总 容量 。 数 组 
ext2 max sizes| ] 及 有 关 的 定义 都 在 fs/ext2/file.c P: 


28  #define EXT2 MAX SIZE(bits) \ 

29 (((EXT2 NDIR BLOCKS + (ILL << (bits - 2)) + X 

30 (LL << (bits ; 2) * (ILL << (bits - 2)) + 

3l (LL << (bits - 2)) * (ILL << (bits - 2)) * (ILL <<(bits - 2))) * \ 
32 (LL << bits)) - 1) 

33 

34 static long long ext2 max sizes[ ] = { 

35 0, 0, 0, 0; 0, 0, 0, 0, 0, O, 

36 EXT2 MAX SIZE(10), EXT2 MAX SIZE(11), EXT2 MAX SIZE(12), 


EXT2 MAX SIZE(13) 
Ow cA 


Ext2 记录 块 映射 机 制 的 总 容量 取决 于 记录 块 人 小 。 当 记录 块 大 小 为 IK 字 节 ， 即 2 隐 时 ， 这 个 总 容 
量 的 大 小 为 EXT2_MAX_SIZE(10)， 由 直接 、 间 址 、. : 重 间 址 和 三 重 问 址 四 个 部 分 相 加 市 得 。 

除 将 file 结构 中 的 人 _pos 设置 成 offset 的 值 以 外 ， 还 将 这 结构 中 的 f_reada 设置 成 0， 因 为 既然 当前 
位 置 变 了 ， 原 米 的 “ 预 读 ”上 下 文 就 废弃 了 ， 到 下 一 次 读 文件 时 自 会 建立 起 新 的 预 读 上 下 文 。 此 外 ， 
event 是 系统 中 的 一 个 全 局 量 ，file 结构 中 的 f version 字段 就 以 event 的 当前 值 作 为 文件 读 写 上 下 文 的 
"Rs n. 

如 朵 孤立 地 看 ext2_file_lseek( ) 的 代码 ， 孝 么 似乎 就 这 么 一 些 了 。 可 是 ， 如 果 把 它 与 写 文件 操作 的 
代码 结合 起 来 看 ， 里 面 还 隐 凑 着 lseek( ) 的 一 个 重 此 性 质 ， 屠 就 是 可 以 在 文件 中 创造 出 “空洞 ”。 原 因 
在 于 对 offset 的 检验 只 限于 文件 大 小 的 上 限 ， 而 并 不 受 文件 当前 大 小 的 限制 。 举 例 来 说 ， 假 设 文件 的 
当前 大 小 是 1KB， 而 通过 lseek( ) 把 “当前 位 置 ” 移 到 9KB 的 位 置 上 ， 然 后 往 文件 中 写 1 个 字 节 ， 这 
4 来， 文件 的 大 小 变 成 了 9KB 加 1 个 字 节 ， 而 其 中 的 SK 字 节 实际 上 并 没有 物理 记录 块 ， 因 此 成 了 
空洞 。 空 洞 内 的 逻辑 记录 块 要 到 往 里 写 的 时 候 才 会 填 上 ， 也 就 是 为 之 分 配 物 埋 记 录 块 ， 在 此 之 前 车 从 
罕 洞 中 读 则 为 全 0。 有 些 应 用 软件 的 程序 设计 利用 了 lseek( ) 的 这 个 忻 质 。 不 过 应 指出 ， 应 用 软件 不 能 
用 这 个 方法 来 “ 玩 地 ”因为 空洞 是 没有 物理 记录 快 的 ， 并 且 不 保证 当 往 空 润 中 写 时 一 定 能 分 配 到 物理 
记录 块 ， 能 省 分 配 到 记录 块 要 视 当 时 设备 上 是 否 尚 有 空闲 记录 上 块 而 定 。 

在 本 节 中 要 看 的 第 一 个 系统 调用 是 dup) 用 米 “ 复 制 ” 一 个 打开 文件 号 ,使 新 的 打开 文件 号 也 代 
表 原 已 存在 的 文件 操作 上 下 文 。 这 个 系统 调用 虽然 简单 ， 但 是 却 在 Unix/Linux 系统 的 运行 中 扮演 着 很 
重 此 的 角色 。 在 内 核 里 而 ， 这 个 系统 调用 是 由 sys dup ) 实 坝 的 ， 其 代 但 在 fs/fcntLc H: 





187 asmlinkage long sys_dup (unsigned int fildes) 


18 { 

189 int ret = -EBADI: 

190 struct file * file = fget (fildes) ; 
191 

192 if (file) 

193 ret = dupfd(file, 0): 
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194 return ret; 
195  ) 


参数 fildes 为 需要 “复制 ”的 打开 文件 号 ， 操 作 的 主体 为 dupfd( )， 其 代码 中 在 同一 文件 中 : 


[sys dup( ) > dupfd( )] 


116 static int dupfd(struct file *file, int start) 


117 { 

118 struct files struct * files = current—>files; 
119 int ret; 

120 

121 ret = locate fd(files, file, start); 
122 if (ret < 0) 

123 goto out putf; 

124 allocate fd(files, file, ret); 

125 return ret; 

126 

127 out putf: 

128 write unlock (&files—>file_lock) ; 

129 fput (file) ; 

130 return ret; 

131 } 


系统 调用 dup( ) 的 上 日 的 是 在 当前 进程 的 fles_struct 结构 内 的 数组 中 将 一 个 已 打开 文件 的 file 结构 指 
针 复制 到 另 一 个 原来 空 闻 的 位 置 上 ， 使 这 个 新 的 “已 打开 文件 ”也 指向 同一 个 file 结构 。 这 里 的 参数 
start 表示 从 数组 中 的 什么 位 置 〈 下 标 ) 开始 寻找 空闲 的 数组 元 素 。 从 sys. dup ) 的 代码 中 可 以 看 到 传 下 
来 的 实际 参数 值 是 0。 所 以 inline 函数 locate_fd( ) 从 打开 文件 号 0 所 对 应 的 元 素 开 始 寻找 ， 必 要 时 还 可 
以 扩充 数组 的 容量 。 这 个 函数 的 代码 读者 已 经 在 以 前 看 到 过 ， 这 里 就 不 重复 了 。 找 到 了 空闲 的 打开 文 
件 号 以 后 ， 就 通过 allocate_fd( ) 将 作为 参数 传 下 来 的 file 结构 指针 “安装 ”在 这 个 打开 文件 号 所 对 应 的 
位 置 上 ， 其 代码 也 在 同 -… 个 文件 fcntlc H: 


[sys dup( ) > dupfd( ) > allocate_fd( )] 


107 static inline void allocate fd(struct files struct *files, 


108 struct file *file, int fd) 
109  ( 

110 FD SET(fd, files-^open fds); 

111 FD CLR(fd, files-^close on exec); 

112 write unlock(&files-^file lock); 

113 fd install(fd, file); 

114 ] 


至 十 fd install( ) 的 代码 ， 读 者 已 在 sys open( P By T. RIERA, eT CIE 
PRR OK sys_dup( ) 中 的 fildes 所 代表 的 滥 个 文件 了 。 
看 似 简 单 的 这 么 一 个 操作 ， 却 起 着 十 分 重 归 的 作用 ，Unix/Linux 各 种 shell 的 重 定 装机 制 就 是 建立 
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在 这 个 系统 调用 的 基础 上 的 。 我 们 通过 实例 来 看 看 这 具体 是 怎样 实现 的 。 先 看 这 么 一 条 shell 命令 ; 
“echo what is dup?”。 这 条 命令 要 求 shell 进程 执行 一 个 可 执行 文件 echo， 参 数 为 “what is dup?”。 接 
收 到 这 条 命令 ，shell 进程 先 找到 串 执行 文件 bin/echo， 然 后 fork( ) 出 一 个 子 进程 让 它 执行 bin/echo， 并 
将 参数 传递 给 它 ， 这 个 子 进程 从 shell 继承 了 标准 输入 、 标 准 输 出 以 及 标准 出 错 信 息 三 个 通道 ， 即 打开 
文件 号 为 0、1、2 的 三 个 已 打开 文件 。 至 十 这 个 可 执行 文件 本 身 所 规定 的 操作 则 是 很 简单 的 ， 就 是 把 
参数 "what is dup? ”号 到 标准 输出 文件 ,通常 就 是 显示 斌 上 。 现 在 把 命令 行 改 成 <echo what is dup? > foo”, 
要 求 在 执行 时 将 输出 “ 重 定 丫 ” 到 一 个 磁盘 文件 foo 中 去 。 对 此 ，shell 进程 大 体 |: 将 执行 以 下 的 操作 
序列 ， 我 们 假定 在 此 之 前 该 shell 进程 只 有 三 个 已 打开 文件 ， 即 打开 文件 号 为 0、1、2 的 三 个 标准 输入 
/ 输出 文件 ; 
(1) HARCRA foo HRE foo 中 原 有 的 内 容 ， 其 打开 文件 号 为 3。 
(D 道 过 dup() 复 制 已 打开 文件 stdout, 也 就 是 将 打开 文件 号 为 1 处 的 file 结构 指针 复制 到 打开 
文件 号 为 4 处， 目的 是 将 stdout 的 file 指针 暂时 保存 一 下 。 
(3) 关闭 stdout， 即 1 号 已 打开 文件 ， 由 于 筷 的 file 结构 指针 山 经 被 复制 到 打开 文件 号 为 4 处 ， 
这 个 文件 (显示 屏 ) 实际 上 并 没有 最 终 地 关闭 ， 只 是 把 stdout 的 位 置 腾 了 出 来 。 
(4) 通过 dup( )， 复 制 3 号 已 打开 文件 ， 由 于 已 打开 文件 1 号 的 位 置 已 经 空闲 ， 所 以 stdout 位 
ELH file 结构 指针 也 就 指向 了 磁盘 文件 foo. 
(5) 通过 系统 调用 fork( ) 和 exec( ) 创 建 了 进程 并 让 子 进程 执行 echo, 子 进 程 在 执行 echo 前 夕 将 
已 打开 文件 3 号 和 4 号 关闭 而 只 剩 下 0、1、2 三 个 已 打开 文件 ， 但 是 ， 此 时 的 stdout， 即 1 
号 已 打开 文件 实际 上 已 指向 磁盘 文件 foo 而 不 是 显示 屏 ， 所 以 当 echo 将 输出 往 stdout 写 时 
就 写 进 了 文件 foo。 
(0 EF shell 进程 本 身 ， 则 关闭 指向 foo 1.5303 号 已 打开 文件 ， 并 日 通过 系统 调用 dup( ) 
和 close( AE ROR fit in] Sb AN BE AY file 结构 指针 恢复 到 stdout 位 置 上 , 这 样 shell 进程 就 恢复 了 
开始 时 的 三 个 标准 已 打开 文件 。 
由 此 可 见 ， 可 执行 穆 序 echo 共 实 并 不 知道 它 的 标准 输出 文件 stdout 实际 上 通 向 何方 ， 进 程 与 实际 
输出 文件 (设备 ) 的 结合 是 在 运行 时 由 其 父 进程 “包办 ”的 。 
对 于 stdin 和 stderr 也 是 同样 。 这 样 就 简化 了 对 echo 的 程序 设计 。 因 为 在 程序 设计 时 只 要 跟 二 个 地 
辑 上 存在 的 文件 打交道 就 可 以 了 。 熟 悉 “ 面 向 对 象 程序 设计 ”的 读者 大 概 会 联想 到 “多 态 (polymorphism)” 
和 “ 重 载 (overload)” 这 些 概念 ， 从 而 觉得 这 似乎 也 没有 什么 特别 高 明之 处 ， 但 是 请 注意 ， 这 个 机 制 的 
设计 与 实现 是 在 30 年 以 前 ! 
在 dup( ) 的 基础 上 ， 后 玉 叉 增设 了 个 系统 调用 dup2( )， 意 为 “dup to”， 不 同 之 处 在 于 这 个 系统 
调用 多 一 个 参数 ， 即 作为 目标 的 打开 文件 号 ， 也 就 是 说， 将 一 个 已 打开 文件 复制 到 指定 的 位 置 上 。 





和 冉 来 看 系统 调用 ioctl( )， 这 个 系统 调用 通过 一 个 参数 米 间接 地 给 出 具体 的 操作 命令 ， 所 以 可 以 认 
为 是 对 常规 系统 调用 界面 的 扩充 。 其 作用 就 好 像 是 “补遗 ”或 “其 他 ” 凡是 操作 比较 细小 ， 不 适合 为 
之 专门 设置 一 个 系统 调用 或 用 去 一 个 系统 调用 号 的 ， 就 可 以 归 入 这 个 系统 调用 。 不 仅 如 此 ， 在 升 发 基 
T Linux 内 核 的 应 川 而 需要 对 内 核 加 以 扩充 (通常 是 对 特殊 设备 的 驱动 ) 时 ,也 常常 通过 增设 新 的 ioctl( ) 
操作 命令 的 办 法 来 实现 。 特 别 是 当 这 些 扩充 不 能 很 自然 地 落 入 打 升 、 关 闭 、 恋 、 写 这 些 标准 的 文件 操 
作 界 而 时 ，ioct( ) 更 是 扮演 着 重要 的 角色 。 内 核 中 实现 ioctl( ) 的 是 sys_ioctl( )， 其 代码 在 fs/ioctl.c rh: 


48 asmlinkage long sys ioctl(unsigned int fd,unsigned int cmd, unsigned long arg) 
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struct file * filp; 
unsigned int flag; 
int on, error = -EBADF; 


filp = fget (fd); 
if (!filp) 


goto out; 


error = 0; 
lock kernel( ) ; 
switch (cmd) { 


#ifdef 


Hendif 
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case FIOCLEX: 
set close on exec(fd, 1); 
break; 


case FIONCLEX: 
set close on exec(fd, 0); 
break; 


case FIONBIO: 
if ((error = get user(on, (int *)arg)) !- 0) 
break; 
flag = 0 NONBLOCK; 
/* SunOS compatibility item. */ 
if(0 NONBLOCK != O NDELAY) 
flag |= O NDELAY; 


if (on) 

filp-^f flags |= flag: 
else 

filp- f flags &- "flag; 
break; 


case FIOASYNC: 
if ((error = get user(on, (int *)arg)) != 0) 
break; 
flag = on ? FASYNC : 0; 


/* Did FASYNC state change ? */ 

if ((flag ^ filp->f flags) & FASYNO) { 
if (filpO f op && filp->f_op->fasync) 

error = filp- f op-^fasync(fd, filp, on); 

else error = -ENOTTY; 

} 

if (error != 0) 
break; 


BSH 义 件 系统 


97 if (on) 

98 filp-^f flags |= FASYNC: 

99 else 

100 filp->f flags &= "FASYNC; 

101 brcak; 

102 

103 default: 

104 error - -ENOTTY; 

105 if (S ISREG(filp-^f dentry-^d inode-^i mode)) 
106 error - file ioctl(filp, cmd, arg): 

107 else if (filp-^f op && filp—>f_op->ioctl) 

108 error = filp->f op-^ioctl(filp-^f dentry-^d inode, filp, cmd, arg); 
109 } 

110 unlock kernel( ); 

111 fput(filp); 

112 

113 out: 

114 return error; 

115 ] 


参数 fd 为 日 标 文件 的 打开 文件 号 ， cmd 则 为 具体 的 操作 命令 代码 。 另 一 个 参数 arg 可 以 用 作对 具 
体操 作 命令 的 参数 ， 初 看 之 下 似乎 只 能 传递 一 个 整 型 参数 对 于 很 多 操作 是 不 够 的 ， 因 而 限制 了 ioctK ) 
对 内 核 文件 /设备 操作 的 扩充 能 力 。 其 实 不 然 ， 在 需 乾 使 用 更 多 参数 时 可 以 把 这 些 参数 “封装 ”在 一 个 
数据 结构 中 ， 然 后 把 arg 用 作 指 向 该 数据 结构 的 指针 ， 所 以 ， 实 际 上 传递 参数 的 能 力 几 乎 是 不 受 限 制 
的 。 

在 include/linux/ioct.h 中 定义 了 - 些 命令 代码 。 这 些 代码 的 数值 大 臻 上 是 从 0x5401~0x545F, th, 
就 是 说 只 使 用 了 两 个 低 字 节 ， 并 月 其 中 较 高 的 字 节 者 是 0x54， 正 好 是 字符 “T” 的 ASCII 代码 。 由 于 参 
数 cmd 的 类 型 是 32 位 无 符号 整数 ， 其 扩充 空间 是 相当 大 的 。 

(He, AT 个 角度 看 ， 由 寺 不 同 的 人 在 不 同 的 应 用 中 都 有 可 能 要 通过 oct ) 扩 充 内 核 ， 如 何 保 
证 命令 代码 的 惟一 性 而 同时 又 遵循 一 种 统 - :的 格式 就 成 为 一 个 问题 ， 为 了 这 个 目的 ，GNU 建议 将 32 
位 的 命令 代码 cmd 划分 成 四 个 位 段 (如 图 5.8 所 示 )。 





模式 参数 的 数据 结构 大 小 类 型 编号 


5.8 ioct| 命令 代码 的 分 段 组 成 


对 这 些 位 段 的 定义 与 操作 ， 在 inciude/asm_i386/iocth 中 给 出 了 一 些 定义 : 


9 /* ioctl command encoding: 32 bits total, command in lower 16 bits 


10 * size of the parameter structure in the lower 14 bits of the 

11 * upper 16 bits. 

12 * Encoding the size of the parameter structure in the ioctl request 
13 * is useful for catching programs compiled with old versions 
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* and to avoid overwriting user space outside the user buffer arca. 
* The highest 2 bits are reserved for indicating the access mode’ ’ 
* NOTE: This limits the max parameter size to 16kB -i ! 


*/ 


/* 

The following is for compatibility across the various Linux 
platforms. The i386 ioctl numbering scheme doesn’ t really enforce 
a type field. De facto, however, the top 8 bits of the lower 16 
bits are indeed used as a type field, so we might just as well make 
this explicit here. Please be sure to use the decoding macros 

* helow from now on. 

*/ 

#define TOC NRBITS 8 
define TOC TYPEBITS 8 

tdefine _IOC SIZEBITS 14 

#define _IOC_DIRBITS 2 


关 X x * X 


define _10C_NRMASK ((1 << TOC NRBITS) -1) 
Hdefine IOC TYPEMASK — ((1 << TOC TYPEBITS) -1) 
define IOC SIZEMASK — ((1 << .IOC SIZEBITS) -1) 
&define  IOC DIRMASK ((1 << | IOC DIRBITS)-1) 


#define | TOC NRSHIFT 0 

define _IOC_TYPESHIFT (_ TOC NRSHIFT* TOC NRBITS) 
Hdefine IOC STZESHIFT ( IOC TYPESHIFT« IOC TYPEBITS) 
Hdefine 10C DIRSHIFT — ( IOC SIZESHIFT* IOC SIZEBITS) 


/* 

* Direction bits 

*/ 

Sdefine IOC NONE OU 
Hdefine IOC WRITE 1U 
Sdefine IOC READ 2U 


Hdefine L[0C(dir, type, nr, size) \ 
(((dir) «€ IOC DIRSHIET) | \ 
((type) << .IOC TYPESHIFT) 
((nr) | «€ 10C NRSHIFT) | 
((size) << 10C SIZESHIFT)) 


m 
X 


/* used to create numbers */ 
Sdefine  IO(type, nr) _ TOC ( 10€. NONE, (type), (nr), 0) 
Hdefine _lOR(type, nr, size)  TOC( 10€ READ, (type), (nr), sizeof (size)) 
#define IOW(type, nr, size) _TOC( IOC WRITE, (type), (nr), sizeof (size)) 
Hdefine _lOWR(type, nr, size) ^ 

IOC( {OC READ! IOC WRITE, (type), (nr), sizeof (size) ) 
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第 5 章 文件 系统 
例如 ,Linux 内 核 中 有 对 网 上 电话 的 支持 , 在 网 上 电话 的 驱动 程序 中 需要 有 个 控制 收听 音量 的 手段 。 
显然 ， 常 规 的 文件 操作 如 read( )、write( )、lseek( ) 等 都 个 适用 于 这 个 日 的 ， 所 以 就 通过 扩充 ioctl( ) 的 
方法 来 实现 这 项 控制 ， 为 此 口 的 需要 定义 一 个 命令 代 舍 。 这 个 代码 的 定义 在 include/linux/telephony.h 
中 ， 我 们 用 它 作 为 个 实例 但 是 我 们 在 本 书 中 对 网 上 电话 的 实现 本 寺 不 感 兴趣 ): 


#define PHONE PLAY VOLUME _TOW( ‘q? , 0x94, int) 


读者 可 以 根据 上 面 关 寺 _IOW 和 各 个 位 段 的 定义 得 到 命令 码 PHONE_PLAY VOLUME 的 数值 为 Ox 
40045194。 要 保 让 命令 码 的 惟一 性 ， 就 得 保证 类 型 位 段 或 者 类 型 加 编号 位 段 取 值 的 惟一 性 。 在 从 GNU 
FRI Linux 源 代码 中 有 个 文 什 Documentation/ioctL_number.txt， 里 面 “ 方 而 有 更 具体 的 说 时 ， 另 一 方 
面 还 有 个 清单 ， 说 明 类 型 位 段 的 哪 一 些 数值 已 经 在 使 用 ， 以 及 对 于 给 定 的 类 型 位 段 数 值 哪 一 些 编号 已 
经 在 使 用 。 需 旨 遂 过 扩充 ioctl( ) 米 实现 某 些 设备 驱动 的 读者 应 参阅 这 个 文件 。 

RF sys ioctl ) 的 代码 本 身 ， 读 者 应 该 没有 困难 。 在 switch 诸 铝 内 的 岂 种 命令 码 ， 即 FIOCLEX、 
FIONCLEX、FIONBIO 和 FIOASYNC, 部 与 具体 文件 系统 无 关 , 只 是 VES 层 上 的 操作 。 其 中 FIOCLEX 
将 当前 进程 的 files_sturct 结构 中 的 位 图 close on. exec 内 与 fd 相对 应 的 标志 位 设 成 1， 使 得 如 果 当 前 进 
程 通过 系统 调用 exee( ) 执 行 一 个 新 的 可 执行 程序 时 就 将 这 个 山 打 关 文 件 白 动 关闭 , 而 FIONCLEX 则 与 
ZH. FIONBIO 把 对 十 给 定 已 打开 文件 的 操作 没 站 成 “ 阳 塞 ”或 “不 阻 蹇 ”(blocking/non_blocking ) 
模式 。 人 至 于 FITOASYNC， 则 将 对 此 文件 的 操作 设置 成 “ 间 步 ” 战 “ 异 步 ”模式 。 通 常 对 已 打开 文件 的 
操作 都 是 同步 和 阻塞 的 ， 关 十 不 阻塞 模式 和 异步 模式 可 参看 下 及 进程 间 通 信 中 对 “ 插 山 ”的 操作 以 及 
设备 驱动 中 的 有 关内 容 。 

除 这 几 种 命令 码 以 外 ， 对 常规 文件 的 操作 还 柴 由 通用 的 file ioctd( ) 再 加 … 层 “过滤”， 而 对 设备 文 
件 或 其 他 文件 (如 FIFO) 的 处 理 则 声 接 由 具体 的 file operations 结构 通过 函数 指针 ioctl df. pex 
file ioctl( ) 的 代码 在 fs/ioctl.c P: 





[sys ioctl( ) > file ioctl( )] 


13 static int file ioctl(struct file *filp, unsigned int cmd, unsigned long arg) 
14 { 

15 int error; 

16 int block; 

17 struct inode * inode = filp-^f dentry->d inode; 

18 

19 switch (cmd) { 

20 case FIBMAP: 

21 { 

22 struct address space *mapping = inodc->i_mapping; 
23 int res; 

24 /* do we support this mess? */ 

25 if (!mapping->a_ops—>bmap) 

26 return -EINVAL; 

27 if (!capable(CAP SYS RAWIO)) 

28 return —EPERM; 

29 if ((error - get user(block, (int *) arg)) != 0) 
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30 return error; 

31 

32 res = mapping >a ops—>bmap (mapping, block); 

33 return put_user(res, (int *) arg); 

34 } 

35 case FIGETBSZ: 

36 if (inode->i_sb == NULL) 

37 return -EBADF; 

38 return put user(inode-^i sb-^s blocksize, (int *) arg); 
39 case FIONREAD: 

40 return put user(inode-^i size - filp->f_pos, (int *) arg); 
41 } 

42 if (filp->f op && filp->f_op~>ioct]) 

43 return fiip-^f op->ioctl (inode, filp, cmd, arg); 

44 return -ENOTTY; 

45 |} 


操作 命令 FIBMAP 返回 文件 中 给 定 逻 辑 块 号 所 对 应 的 物理 块 号 ;FIGETBSZ 返回 文件 所 在 设备 的 
记录 块 大 小 ，FIONREAD 则 返回 文件 中 从 当前 读 / 写 位 置 到 文件 末尾 的 距离 。 

除 这 三 种 命令 以 外 ， 就 与 对 设备 文件 一 样 ， 完 全 取决 十 具体 的 文件 系统 ， 点 接 由 具体 的 
file, operations 结构 中 的 函数 指针 ioct] 提供 。 我 们 以 前 讲 过 ， 每 个 具体 的 文件 系统 都 有 至 少 一 个 
file operations 数据 结构 。 但 是 ， 反 过 来 ， 每 个 fle_operations 数据 结构 却 末 必 都 对 应 着 一 个 不 同 的 文 
件 系统 ， 这 里 并 不 是 一 对 一 的 关系 。 例 如 ，Ext2 文件 系统 就 有 两 个 这 样 的 数据 结构 ， 一 个 是 
ext2_file_operations， 另 一 个 是 ext2_dir_operations， 分 别 用 于 常规 文件 和 目录 。 以 后 读者 还 会 看 到 ,对 
于 设备 文件 和 特殊 文件 ， 甚 至 每 个 文件 就 可 以 有 其 自己 的 file operations 结构 。 这 样 ， 在 实现 设备 驱动 
程序 或 特殊 文件 时 ， 只 要 单独 为 其 设置 个 file operations 数据 结构 ， 并 通过 其 函数 指针 ioctl 提供 一 
个 专用 的 函数 ， 就 可 以 在 这 个 函数 中 自行 定义 和 实现 所 需 的 ioctl 操作 命令 了 。 


我 们 在 这 里 要 看 的 下 一 个 系统 调用 是 link( )， 这 个 系统 调用 为 已 经 存在 的 文件 增加 一 个 “别名 ” 
由 link( ) 所 建立 的 是 “ 硬 连 接 ”, 有 别 于 通过 symlink ) 建 立 的 “符号 连接 ”在 内 核 中 ,link( ) 是 由 sys_link( ) 
实现 的 ， 其 代码 在 fs/namei.c F: 


1579 /* 

1580 * Hardlinks are often used in delicate situations. We avoid 
1581 * security-related surprises by not following symlinks on the 
1582 * newname.  ——KAB 

1583 * 

1584 * We don t follow them on the oldname either to be compatible 
1585 * with linux 2.0, and to avoid hard-linking to directories 
1586 * and other special files.  ——ADM 

1587 */ 


1588 asmlinkage long sys link(const char * oldname, const char * newname) 
1589 { 

1590 int error; 

1591 char * from; 
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char * to; 


from = getname (oldname); 

if (1S_ERR (from) ) 
return PTR ERR(from) ; 

to = getname (newname) ; 

error = PTR_ERR(to) ; 

if ({IS_ERR(to)) { 
struct dentry *new dentry; 
struct nameidata nd, old nd; 


error = 0; 
if (path init (from, LOOKUP POSITIVE, &old nd)) 
error = path walk(from, &old nd); 
if (error) 
goto exit; 
if (path init(to, LOOKUP PARENT, &nd)) 
error - path walk(to, &nd); 
if (error) 
goto out; 
error = -EXDEY; 
if (old_nd. mnt != nd. mnt) 
goto out_release; 
new dentry = lookup creato(&nd, 0); 
error - PTR ERR(new dentry); 
if (!IS ERR(new dentry)) { 
error = vfs link(old nd.dentry, nd. dentry->d_inode, 
new_dentry) ; 
dput (new_dentry) ; 
} 
up (&nd. dentry-^d inode-^i sem); 
out release: 
path release (&nd) ; 
out: 
path release(&old nd): 
exit: 
putname (to) ; 
} 


putname (from); 


return error; 


} 


对 寺 已 经 阅读 了 本 章 前 面 几 节 的 读者 ， 这 里 只 有 一 个 图 数 ， 即 vfs_link( ) 是 新 的 内 容 ， 它 的 代码 也 
在 同一 文件 fs/namei.c F: 


[sys link( ) > vfs_link( )] 
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1539 int vfs link(struct dentry *old dentry, struct inode *dir, 
struct dentry *new deniry) 


1540  ( 

1541 struct inode *inode; 

1542 int error; 

1543 

1544 down(&dir-^i zombie); 

1545 error - -ENOENT; 

1546 inode = old dentry-?d inode; 

1547 if (tinode) 

1548 goto exit lock; 

1549 

1550 error = may create(dir, new dentry); 
1551 if (error) 

1552 goto exit lock; 

1553 

1554 error - -EXDEV; 

1555 if (dir-^i dev !- inode-^i dev) 

1556 goto exit lock; 

1557 

1558 /* 

1559 * A link to an append-only or immutable file cannot be created. 
1560 */ 

1561 error = -EPERM; 

1562 if (IS APPEND(inode) || IS IMMUTABLE (inode) ) 
1563 goto exit lock; 

1564 if (!dir->i_op |i !dir—>i_op->1ink) 
1565 goto exit lock; 

1566 

1567 DQUOT INIT (dir) ; 

1568 lock kernel ( ); 

1569 error = dir->i op-^link(old dentry, dir, new_dentry) ; 
1570 unlock_kernel ( ); 

1571 i 

1572 exit_lock: 

1573 up(&dir-^i zombie); 

1574 if (lerror) 

1575 inode dir notify (dir, DN CREATED); 
1576 return error; 

1577 ] 


这 些 内 容 义 是 读者 已 经 熟悉 了 的 , 这 里 要 注意 的 此 对 于 有 具有 IS. APPEND 8X IS IMMUTABLE 属性 
的 文件 不 允许 为 之 建立 别名 。 有 具体 的 连接 操作 以 及 这 种 连接 到 底 意 昧 着 什么 ， 则 因 有 具体 的 文件 系统 而 
异 。 所 以 由 具体 的 文件 系统 通过 其 inode_operations 数据 结构 中 的 函数 指针 link KIH, Xt T Ext2 X 
件 系统 ， 这 个 明 数 是 ext2_link()， 沁 的 代码 在 fs/ext2/namei.c !|': 


[sys link( ) > vfs link( ) > ext2 link( )] 
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663 static int ext2 link (struct dentry * old dentry 


664 struct inode * dir, struct dentry *dentry) 
665 | 

666 struct inode *inode = old dentry-?d inode; 
667 int err; 

668 

669 if (S_ISDIR(inode—>i_mode) ) 

670 return —EPERM; 

671 

672 it (inode-^i nlink >= EXT2 LINK MAX) 

673 return -EMLINK; 

674 

675 err = ext2 add entry (dir, dentry—>d name. name, dentry-?d name. len, 
676 inode); 

677 if (err) 

678 return err; 

679 

680 inode—>i_nlink++; 

681 inode->i ctime = CURRENT TIME; 

682 mark_inode_dirty (inode) ; 

683 atomic inc(&inode-^i count); 

684 d instantiate(dentry, inode); 

685 return 0; 

686 } 


WR, XP RAM OK) 所 在 的 目录 中 创建 一 个 日 录 项 ， 这 个 日 录 项 与 原 米 存在 的 日 
录 项 都 指向 同一 个 索引 节点 。 这 里 调用 的 两 个 明 数 ext2_add_entry( ) 和 d. instantiate( ), 读者 部 已 经 看 到 
ey. RX d_instantiate( ) 执 行 完毕 以 后 ，inode 结构 中 的 i_dentry 队 刻 中 就 多 了 一 个 dentry 结构 ， 即 代 
表 着 文件 的 别名 的 dentry 结构 。 辣 时 ， 这 个 队列 中 所 有 dentry 结构 中 的 指针 d_inode 部 指 癌 这 同 个 
inode 结构 。 

由 此 可 见 ， 只 要 把 本 章 前 几 节 中 所 涉及 的 代 但 读 懂 ， 皇 读 其 他 与 文件 操作 有 关 的 代码 就 不 难 了 。 
当然 ， 本 书 不 可 能 覆盖 所 有 的 文件 操作 或 者 某 一 操作 的 所 有 细节 ， 许 多 内 容 要 靠 读 者 日 局 深入 阅读 。 

如 果 要 问 ， 在 文件 操作 方面 还 有 什么 重要 的 系统 凋 用 ， 那 么 有 两 个 系统 调用 丰 值 得 -一 提 的 ， 屠 就 
是 mknod( ) 和 select( )。 但 是 ， 这 两 个 函数 主要 用 于 设备 驱动 ， 所 以 我 们 把 它们 放 在 下 旭 有 关 设 备 坚 动 
的 章节 中 。 还 有 一 个 很 重要 日 有 - * 定 难度 的 系统 调用 也 十 与 文件 操作 有 关 的 ， 那 就 是 mmap( )。 这 个 系 
统 调 用 将 一 个 已 打开 文件 的 内 容 喘 射 到 进程 的 内 存 空间 ， 很 人 程度 二 是 个 存储 管理 的 问题 ， 所 以 我 
们 已 把 它 放 在 第 E, Wes ur UE SUA SS EE XE Ee 


5.8 ”特殊 文件 系统 /proc 


早期 的 Unix 在 设备 文件 日 录 /dev 下 设置 了 -个 特殊 文件 ， 称 为 /dewmem。 通 过 这 个 文件 可 以 读 / 
写 系统 的 整个 物理 内 存 ， 而 物 埋 内 仓 的 地 址 就 用 作 读 / 当时 文件 内 部 的 位 移 量 。 这 个 特殊 文件 同样 适 
用 于 read( ). write( )、lseek( ) 等 常规 的 文件 操作 ， 从 而 提供 了 一 个 在 内 核 外 部 动态 地 读 / 写 包 括 内 核 
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映 象 和 内 核 中 各 个 数据 结构 以 及 堆栈 内 容 的 杆 段 。 这 个 手段 点 可 用 十 收集 状态 信息 和 统计 信息 ， 也 可 
用 丁 程 序 调试 ， 还 可 以 动态 地 给 内 核 “ 打 补 杀 ”或 改变 一 些 数 据 结 构 或 变量 的 内 容 。 采 用 虚 存 以 后 ， 
Unix 又 增加 了 个 特殊 文件 /dew/kmem， 对 应 于 系统 的 整个 虚 存 空间 。 这 两 个 特殊 文件 的 作用 利 表现 
出 来 的 重 费 性 促使 人 们 对 其 功能 加 以 进 -… 步 的 拓展 ， 在 系统 中 增设 了 一 个 /proc Hox, SEAGUEE 1E 
程 时 就 以 其 pid 为 文件 名 在 这 个 日 录 下 建立 起 个 特殊 文件 ， 使 得 通过 这 个 文件 就 可 以 读 / 写 相应 进 
程 的 用 户 空间 。 而 当 进程 exit( ) 时 则 将 此 文件 删 去 。 显 然 ， 目 录 /proc 的 名 称 就 是 这 样 来 的 。 
经 过 多 年 的 发 展 ，/proc 成 了 一 个 特殊 的 文件 系统 ， 文 件 系统 的 类 型 就 叫 proc， 其 安装 点 则 一 股 部 
固定 为 /proc， 所 以 称 其 为 proe MHRA, AN te GEER) 称 之 为 /proc 文件 系统 。 这 个 文件 系统 中 
所 有 的 文件 者 是 特殊 文件 ， 这 些 文件 的 内 容 都 不 存在 于 任何 设备 上 ， 而 是 在 读 / 写 的 时 候 才 根据 系统 
中 的 有 关 信 息 生 成 出 米 ， 或 者 映射 到 系统 中 的 有 关 变 量 或 数据 结构 。 所 以 又 称 为 “ 伪 文件 系统 ”。 同 时 ， 
这 个 子 系统 中 的 内 容 也 已 扩展 到 了 足以 覆盖 系统 的 几乎 所 有 方面 , 而 不 再 仅仅 是 关 才 各 个 进程 的 信息 。 
限 寺 篇幅， 我 们 不 在 这 里 列 出 /proc 只 有 录 下 的 内 容 ， 建 议 读者 自己 用 命 令 “du -a /proc” 看 一 下 。 笔 
者 试 了 一 下 这 个 命令 ， 其 结果 达 1000 行 以 上 ! KA E, xx ARPNAA ES AIM FILA: 
(1) 系统 中 的 等 个 进程 都 有 -个 以 其 pid 为 名 的 子 日 录 ， 而 每 个 了 目录 中 则 包括 关于 该 进程 执行 
的 命令 行 、 所 有 环境 必 量 、cpu 占用 时 间 、 内 存 上 映射 表 、 己 打开 闵 件 的 文件 号 以 及 进程 状态 
等 特殊 文件 。 

Q) 系统 中 各 种 资源 的 管理 信息 ， 如 /proc/slabinfo 就 是 内 存 管 理 中 关 寸 各 个 slab 绥 冲 块 队列 的 信 
AA, /proc/swaps 就 是 关 十 系统 的 swap 设备 的 信息 ，/proc/partitions 就 是 关于 各 个 磁盘 分 区 的 
信息 ， 等 等 。 

3) 系统 中 各 种 设备 的 有 关 信 息 ， 如 /proc/pci 就 是 关于 系统 的 PCI 总 线 上 所 有 设备 的 ， 份 清单 ， 

EI 
(4) 文件 系统 的 信息 ， 如 /proc/mounts 就 是 系统 中 已 经 安装 的 各 个 文件 系统 设备 的 清单 ， 而 
/proc/filesystems 则 是 系统 中 心经 登记 的 每 种 文件 系统 〈 类 型 ) 的 清单 。 

(5) 中 断 的 使 用 ，/procyinterrupts 是 一 份 关 于 中 断 源 和 它们 的 中 断 向 量 编号 的 清单 。 

O 与 动态 安装 借 块 有 关 的 信息 ，/proc/modules 2-HAB PU LRA ARRIVE, h 
/proc/ksyms 则 是 内 核 中 供 可 安装 模块 动态 连接 的 符号 名 及 其 地 址 的 清单 。 

(7) 与 前 述 /dev/mem 类 似 的 内 存 访问 手段 ， 如 /proc/kcore。 

(8) 系统 的 版 本 号 以 及 其 他 各 种 统计 与 状态 信息 。 

读者 可 以 通过 命令 “man proe", 看 :下 对 这 些 信息 的 说 明 。 

不 仅 如 此 ， 动 态 安装 模块 还 可 以 在 /proc Ho 下 动态 地 创建 文件 ， 并 以 此 作为 模块 与 用 户 进程 问 的 
界面 。 

由 十 proc 文件 系统 并 不 物理 地 存在 于 任何 设备 上 , 它 的 安装 过 程 赴 特殊 的 。 对 proc 文件 系统 不 能 
直接 通过 mount( ) 米 安装 ， 而 要 先 由 系统 内 核 在 内 核 初始 化 时 自动 地 通过 一 个 函数 kem_mount( ) 安 装 
一 次 ， 然 后 再 由 处 理 系 统 初始 化 的 进程 通过 mount( ) 安 装 ， 实 际 上 炬 “ 重 安装 ”。 我们 来 看 有 关 的 代码 ， 
首先 是 fs/proc/procfs_syms.c 中 的 init_proc_fs( )， 这 是 在 内 核 初 始 化 时 调用 的 : 





23 static DECLARE FSTYPE(proc fs type, “proc”, proc read super, FS SINGLE); 


25 static int | init init proc fs(void) 
26 { 
27 int err = register filesystem(&proc fs typo); 
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28 if (lerr) { 

29 proc mnt = kern mount(&proc fs type); 

30 err - PTR ERR(proc mnt); 

31 if (IS ERR(proc mnt)) 

32 unregister filesystem(&proc fs typo); 
33 else 

34 err = 0; 

35 } 

36 return err; 

37 o} 


系统 在 初始 化 阶段 对 proc 文件 系统 做 两 件 事 ， 一 是 通过 register_filesystem( I RAW “proc” 
这 么 一 种 文件 系统 ， 二 是 通过 kern_mount( ) 将 一 个 具体 的 proc 文件 系统 安装 到 系统 中 的 /proc HAE. 
函数 kern_mount( ) 的 代码 在 fs/super.c FP: 


[init_proc_fs( ) > kern_mount( )] 


970 struct vfsmount *kern mount(struct file system type *type) 


971 { 

972 kdev t dev = get unnamed dev( ); 

973 struct super block *sb; 

974 struct vfsmount *mnt; 

975 if (!dev) 

976 return ERR PTR(-EMFILE); 

977 sb = read super(dev, NULL, type, 0, NULL, 0); 
978 if (!sb) { 

979 put_unnamed_dev (dev) ; 

980 return ERR PTR(-EINVAL) ; 

981 } 

982 mnt = add_vfsmnt (NULL, sb->s root, NULL); 
983 if (!mnt) ( 

984 kill super(sb, 0); 

985 return ERR PTR(-ENOMEM) ; 

986 } 

987 type-^kern mnt = mnt; 

988 return mnt; 

989  ] 


每 个 已 安装 的 文件 系统 都 要 有 个 super. block 数据 结构 ，proc 文件 系统 也 不 例外 。 由 于 super block 
数据 结构 需要 有 个 设备 号 来 惟一 地 加 以 标识 ， 尽 管 proe 文件 系统 并 不 实际 存在 于 什 何 设备 上 ， 却 也 得 
有 个 “设备 号 ”， 所 以 要 通过 get unnamed dev( ) 分 配 一 个 。 这 个 函数 的 代码 也 在 super.c 中 ， 


[init proc fs( ) > kern mount( ) > get_unnamed_dev( )] 


157 /* 
758 * Unnamed block devices are dummy devices used by virtual 
759 * filesystems which don't use real block-devices. -- jrs 


655 . 
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760 */ 

761 

762 static unsigned int unnamed dev in use[256/(8*sizeof (unsigned int))]; 
763 

764 kdev t get_unnamed_dev (void) 

765 { 

766 int i; 

767 

768 for (i =1 i < 256; i++) { 

769 if (!test and set bit(i,unnamed dev in uso)) 
TTO return MKDEV(UNNAMED MAJOR, i); 

771 } 

1T2 return 0; 

773 |} 


这 个 “设备 写 ” 的 主 设 备 号 为 UNNAMED_MAJOR， 定 义 为 0。 

除 此 之 外 ，kern_mount( ) 中 调用 的 明 数 读者 在 “文件 系统 的 安装 和 拆卸 ” “ 节 中 都 已 看 过 了 。 函数 
read super( )〈 匈 “文件 系统 的 安装 与 拆卸 ” 分配 一 个 空白 的 super block 数据 结构 ， 然 后 通过 由 具体 
文件 系统 的 fle_system_type 数 据 结构 中 的 函数 指针 read_super 调用 有 具体 的 函数 来 读 入 超级 块 。 对 于 proc 
文件 系统 ， 这 个 函数 为 proc_read_super( )， 这 是 在 上面 的 宏 定 义 DECLARE FSTYPE 中 定义 好 的 ， 其 
代码 在 fs/proc/inode.c 中 : 


[init proc fs( ) > kern_mount( ) > read, super( ) > proc read. super( )] 


181 struct super block *proc read super (struct super block *s, void *data, 
182 int silent) 

183. d 

184 struct inode * root inode; 

185 struct task struct *p; 

186 

187 s->s blocksize = 1024; 

188 s-»s blocksize bits = 10; 

189 s ^s magic = PROC SUPER MAGIC; 

190 $-?s op = &proc sops; 

191 root inode = proc get inode(s, PROC ROOT INO, &proc root); 
192 if (!root inode) 

193 goto out no root; 

194 /* 

195 * Fixup the root inode's nlink value 

196 */ 

197 read lock(&tasklist lock); 

198 for each task(p) if (p pid) root inode-^i nlink!'; 

199 read unlock(&tasklist lock); 

200 s-?s root = d alloc root (root_inode) ; 

201 if (!s-^s root) 

202 goto ouL no root; 

203 parse options(data, &root inode-^i uid, &root_inode->i_gid) ; 
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204 return s; 

205 

206 out no root: 

207 printk(^proc read super: get root inode failed\n”); 
208 iput(root inode); 

209 return NULL; 

210 ] 


可 见 , 说 是 “ 读 入 超级 块 ”, Scy ERLE ERREA”. 还 有 , super block 结构 中 的 super. operations 
指针 s op 被 设置 成 指向 proc_sops， 这 也 是 在 fs/proc/inode.c 中 定义 的 : 


94 static struct super operations proc sops - { 
95 read inode: proc read inode, 

96 put inode: force delete, 

97 delete inode: proc delete inode, 

98 statfs: proc statf's, 

99 s 


读者 将 会 看 到 ，proc 文件 系统 的 inode 结构 也 像 其 super. block 结构 一 样 , 在 设备 上 并 没有 对 应 物 ， 
而 仅 仪 是 在 内 存 中 生成 的 “空中 楼 阅 ” 这 些 函 数 正 丰 为 这 些 “ 空 中 楼 阔 ” 服 务 的 ， 

不 仅 如 此 ，Pproc 文件 系统 中 的 目 杀 项 结构 ， 即 dentry 结构 ， 在 设备 土 也 没有 对 应 物 ， 而 以 内 存 中 
的 proc. dir entry 数据 结构 来 代替 ， 定 义 于 include/linux/proc. fs.h: 


53 struct proc dir entry { 

54 unsigned short low ino; 

55 unsigned short namelen; 

56 const char *name; 

57 mode_t mode; 

58 nlink_t nlink; 

59 uid t uid; 

60 gid t gid; 

61 unsigned long size; 

62 struct inode operations * proc iops; 
63 struct file operations * proc fops; 
64 get info t *get info; 

65 struct module *owner; 

66 struct proc dir entry *next, *parent, *subdir: 
67 void *data; 

68 read proc t *read proc; 

69 write proc t *write proc; 

70 unsigned int count; /* use count */ 


71 int deleted; /* delete flag */ 
72 kdev_t rdev; 
Te: ds 


显然 , 这 个 数据 结构 中 的 有 些 内 容 本 身 应 该 是 属于 inode 结构 战 案 引 节点 的 , BrOLSEEs EBEREGUER 
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dentry 结构 的 依据 ， 又 是 inode 结构 中 部 分 信息 的 来 源 。 如 果 与 Ext2 文件 系统 中 的 ext2_dir_entry 结构 
相 比 ， 则 那 症 存储 在 设备 上 的 “月 录 项 ”， 侧 proc dir entry 绪 构 只 存在 于 内 存 中 ， 并 且 包 含 了 更 多 的 
信息 。 这 些 proc dir entry 结构 多 数 才 是 在 系统 的 运行 中 动态 地 分 配 空间 而 创立 的 ， 但 是 也 有 些 是 甫 
Ave MUS, 其 中 最 重 此 的 就 是 proc 文件 系统 的 根 节点 , 即 /proc 的 目录 项 proc. root, 定义 于 fs/proc/root.c 
"m. 


96 /* 

97 * This is the root “inode” in the /proc tree.. 
98 */ 

99 struct proc dir entry proc root = { 

100 low ino: PROC ROOT INO, 

101 namelen: 5, 

102 name: "/proc^, 

103 mode: S TFDIR : S IRUGO : S IXUGO, 
104 nlink: 25 

105 proc iops: &proc root inode operations, 
106 proc fops: &proc root operations, 

107 parent: &proc root, 

108 ; 


注意 ， 这 个 数据 结构 中 的 指针 proc iops 指向 proc root inode operations, Tf] proc fops 指向 
proc_root_operations。 还 有 ， 结 构 中 的 指针 parent 指向 其 自己 ， 即 proc. root; 也 就 是 说 ， 这 个 节点 是 一 
个 文件 系统 的 根 节 点 。 

[E] i] proc_read_super( ) 的 代码 中 ， 数 据 结构 proc. root 就 用 来 创建 根 节点 /proc 的 inode 结构 ， 其 中 
PROC_ROOT_INO 的 定义 在 文件 proc_fs.h 中 给 出 : 


22 PROC ROOT INO = 1, 


FALL, Hi-F/proc 的 inode 节点 号 总 是 1， 而 设备 上 的 1 号 索引 节点 是 保留 不 用 的 。 
函数 proc. get. inode( ) 的 代码 在 fs/proc/inode.c "P: 


[init proc fs( ) > kern mount( ) > read_super( ) > proc. read. super( ) > proc. get. inode( )] 


131 struct inode * proc get inode(struct super block * sb, int ino, 
132 struct proc dir entry * de) 

133 ( 

134 struct inode * inode; 

135 

136 /* 

137 * Increment. the use count so the dir entry can't disappear. 
138 */ 

139 de get (de) ; 

140 Sif 1 


141 /* shouldn't ever happen */ 
142 if (de && de->deleted) 
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143 printk( proc iget: using deleted entry %s, count=%d\n”, de->name, 
aomic read(&de »count)); 


144 #endif 

145 

146 inode = iget(sb, ino); 

147 if (linode) 

148 goto out. fail; 

149 

150 inode-^u. generic ip = (void *) de; 

151 if (de) { 

152 if (de mode) { 

153 inode-^i mode = de->mode; 

154 inode-^i uid = de ^uid; 

155 inode->i gid = de->gid; 

156 } 

157 if (de->size) 

158 inode->i_size - de->size; 

159 if (de->nlink) 

160 inode->i nlink = de-?nlink; 

{61 if (de->owner) 

162 __ MOD_INC_USE_COUNT (de->owner) ; 
163 if (S_ISBLK (de->mode) | |S_ISCHR (de->mode) | $_ISFIFO(de->mode) ) 
164 init_special_inode (inode, de-mode, kdev t to nr(de—rdev)); 
165 else { 

166 if (de->proc_iops) 

167 inode->i_op = de->proc iops; 
168 if (de->proc fops) 

169 inode->i fop = de >proc_fops; 
170 } 

171 } 

172 

173 out: 

174 return inode; 

175 

176 out_fail: 

177 de put (de) ; 

178 goto out; 

179} 


我 们 知道 , inode 结构 包含 着 A union, 视 其 体 的 文件 系统 而 用 作 不 同 的 数据 结构 , 例如 对 于 Ext2 
文件 系统 就 用 作 ext2_inode_info 结构 ， 在 inode 数据 结构 的 定义 中 列 出 了 适用 十 不 同文 件 系 统 的 不 同 
数据 结构 。 如 果 具 体 的 文件 系统 不 在 其 列 ， 则 将 这 个 union( 的 开头 4 个 字 节 ) 解 释 为 一 个 指针 ， 这 就 是 
generic_ip。 在 这 早 ， 就 将 这 个 指针 设置 成 指向 相应 的 proc_dir_entry 结构 ， 使 其 在 逻辑 上 成 为 inode 结 
构 的 一 部 分 。 至 于 de_get( )， 池 只 是 递增 数据 结构 中 的 使 用 计数 而 已 ， 此 外 ，iget( ) 是 个 inline iK. 
读者 已 经 在 前 几 节 中 看 到 过 了 ,在 这 里 ,由 十 相应 的 inode 结构 还 不 存在 ,实际 上 会 调用 get. new. inode( ) 
分 配 一 个 inode 结构 。 
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创建 了 proc 文件 系统 根 节点 的 inode 结构 以 后 ， 还 要 通过 d_alloc_root( ) 创 建 其 dentry 结构 。 这 个 
函数 的 代 何 读者 已 在 “文件 系统 的 安装 与 拆 基 ”一 节 中 看 到 过 了 。 

这 里 还 有 个 有 趣 的 事 ， 就 是 对 系统 中 除 0 号 进程 以 外 的 所 有 进程 都 递增 该 inode 结构 中 的 i_nlink 
字段 。 这 样 ， 只 要 这 些 进 程 中 的 任何 一 个 还 存在 ， 就 个 能 把 这 个 inode 结构 删除 。 

回 到 kern_mount( ), iXX add. vfsmnt( ) 的 代码 也 是 读 省 已 经 看 到 过 的 。 但 是 ， 要 注意 这 里 调用 这 
个 孙 数 时 的 参数 。 第 -个 参数 nd 是 个 nameidata 结构 指针 ， 本 来 应 该 指向 代表 着 安装 点 的 nameidata 
结构 ， 从 这 个 结构 里 就 可 以 得 到 指向 安装 点 dentry 结构 的 指 外。 可 是 ， 这 里 的 调用 参数 却 是 NULL. 
第 二 个 参数 root 是 个 dentry 结构 指针 ， 指 向 待 安装 文件 系统 中 根 目 录 的 dentry 结构 ， 在 这 时 是 proc X 
件 系统 根 节点 的 dentry 数据 结构 。 可 是 ， 如 果 指 向 安装 点 的 指针 是 NULL, 那 怎么 安装 昵 ? 我 们 来 看 
add vfsmnt( ) 中 的 主体 : 


337 mnt-»mnt root = dget(root); 
338 mnt-^mnt mountpoint = nd ? dget(nd~>dentry) : dget (root); 
339 mni-^»mnt parent = nd ? mntget(nd— mnt) : mnt; 
340 
341 if (nd) { 
342 list add(&mnt—>mnt_child, &nd—>mnt—>mnt_mounts) ; 
343 list_add(&mnt->mnt_clash, &nd->dentry—>d_vfsmnt) ; 
344 } else { 
345 INIT LIST HEAD(&mnt-^?mnt child); 
346 INIT LIST HEAD(&mnt-?mnt clash); 
347 } 
348 TNIT LIST HEAD (&mnt~>mnt_mounts) ; 
349 list_add(&mnt->mnt_instances, &sb->s_mounts) ; 
350 list_add(&mnt->mnt_list, vfsmntlist. prev); 
可 见 ， 在 参数 nd 为 NULL 时 ， 安 装 以 后 其 vfsmount 结构 中 的 指针 mnt_mountpoint 715] f$ Z7 XC 


IFRA HIREK SEY dentry 结构 ， 即 proc 文件 系统 根 节点 的 dentry 结构 本 身 ; 指针 mnt, parent 则 指向 这 
个 vfsmount 结构 本 身 。 并 卫 ， 这 个 vfsmount 结构 的 mnt, child 和 mnt. clash 两 个 队列 头 也 空 者 个 用 。 
显然 , 这 个 vfsmount 结构 并 没有 把 proc 文件 系统 的 根 弛 点 “安装 "到 什么 地 方 。 可 古 , 回 到 kern. mount( ) 
的 代码 中 ， 下 面 还 有 一 行 重要 的 语句: 


987 Lype-^kern mnt = mnt; 


这 个 语句 使 proc 文件 系统 的 file system type 数据 结构 与 上 面 的 vfsmount AMEE TH, (Ef 
指针 kern_mnt 指向 了 这 个 vfsmount 结构 。 可 是 ， 这 并 不 意 昧 着 path_walk( ) 号 能 顺 着 路 径 名 “/proc” 
找到 proc 文件 系统 的 根 节 点 ， 因 为 path_walk( ) 并 不 涉及 file system. type 数据 结构 。 

正 因 为 如 此 , 光 是 kern. mount( ) 述 不 够 ,还 得 出 系统 的 初始 化 进程 从 内 核 外 部 通过 系统 调用 mount) 
再 安装 次。 通常， 这 个 命令 行为 : 

mount -nvt proc /dev/null /proc 


Whibut, EAT RRA” /[dev/null 上 的 proc 文件 系统 安装 在 各 点 /proc 上 。 从 理论 讲 也 可 以 把 
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它 安装 在 其 他 节点 上 ， 但 实际 上 总 起 安装 在 /proc E. 


AU piri TAE S. proc 文件 系统 的 file system type 数据 结构 中 的 FS_SINGLE 标志 位 为 1， 它 起 


者 重 昌 的 作用 。 为 什么 重要 呢 ? 因为 它 使 sys_mount( ) 的 主体 do_mount( ) 通 过 get_sb_single( )， 出 不 是 
get sb bdev(), 来 取得 所 安装 文件 系统 的 super_block 数据 结构 。 我 们 回顾 一 下 do_mount( ) 中 与 此 有 关 
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1372 
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/* get superblock, locks mount sem on success */ 
if (fstype-^fs flags & FS NOMOUNT) 
sb = ERR PTR(-EINVAL) ; 
else if (fstype-^fs flags & FS REQUIRES DEY) 
sb = get sb bdev(fstype, dev name, flags, data page); 
else if (fstype-^fs flags & FS STNGLE) 
sb = get sb single(fstype, flags, data page); 


RITE “SPARSE SOS AGED" —BE4 $4 ie do mount( ) 的 代码 时 跳 过 了 get sb. single( )， 现 在 
要 问 过 来 看 它 的 代码 了 (fs/super.c)。 


(sys mount( ) > do mount( ) > get sb. single( )] 
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static struct super block *get_sb_single (struct file system type *fs type, 


{ 


} 


int flags, void *data) 


struct super block * sb; 
/* 
* Get the superblock of kernel-wide instance, but 
* keep the reference to fs type. 
*/ 
down(&mount sem); 
sb = fs type-^kern mnt-^mnt sb; 
if (!sb) 
BUG( ) ; 
get filesystem(fs type); 
do remount sb(sb, flags, data); 
return sb; 


代码 中 通过 file system type 结构 中 的 指针 kern. mnt 取得 对 于 所 安装 文件 系统 的 vfsmount 结构 ， 
从 而 对 其 super block 结构 的 访问 ， 而 这 正 是 在 kern mount( ) 中 设置 好 了 的 。 这 里 还 调用 了 一 个 函数 
do_remount_sb( ), 其 代码 也 在 fs/super.c 中 : 


[sys_mount( ) > do_mount( ) > get sb single( ) > do_remount_sb( )] 


936 
937 


/* 


* Alters the mount flags of a mounted file system. Only the mount point 
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* is used as a reference - file system type and the device are ignored 


static int do remount sb(struct super block *sb, int flags, char *data) 


( 


} 


int retval; 


if (!(flags & MS RDONLY) && sb-^s dev && is_read_only(sb~>s_dev)) 
return —EACCES; 
/*flags |= MS RDONLY;*/ 
/* If we are remounting RDONLY, make sure there are no rw files open */ 
if ((flags & MS RDONLY) && !(sb-^s flags & MS RDONLY)) 
if (!fs may remount_ro(sb)) 
return --EBUSY; 
if (sb-»s op && sb-^s op-^remount fs) { 
lock super (sb) ; 
retval = sb-^s op-?remount fs(sb, &flags, data); 
unlock super (sb) ; 
if (retval) 
return retval; 
} 
sb—>s_ flags = (sb->s_flags & "MS RMT MASK) | (flags & MS RMT MASK) ; 


/* 

* We can’t invalidate inodes as we can loose data when remounting 

* (someone might manage to alter data while we are waiting in lock super( ) 
* or in foo remount [fs( ))) 


*/ 


return 0; 


这 个 函数 对 于 proc 文件 系统 作用 不 大 ， 因 为 proc 并 无 特殊 的 remount fs 操作。 标志 位 屏蔽 模 


MS_RMT_MASK 的 定义 在 include/linux/fs.h 中 : 
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/* 
* Flags that can be altered by MS REMOUNT 


define MS RMT MASK (MS RDONLY|MS NOSUID|MS NODEV|MS NOEXEC|V 


MS SYNCHRONOUS'MS MANDLOCK|MS NOATIME|MS NODTRATIME) 


经 过 do remount, sb( ) EJ , 原来 super. block 结构 中 的 这 些 标志 位 就 由 用 户 所 提供 的 相应 标志 位 所 
取代 。 
取得 了 proc 文件 系统 的 super block 结构 以 后 ， 回 到 do mount( ) 的 代 但 中 ， 此 后 的 操作 就 与 普通 


文件 系统 的 安装 元 异 了 。 这 样 ， 就 将 proc 文件 系统 安装 到 了 节点 /proc Eo 
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前 而 讲 过 , 整个 proce 文件 系统 部 不 存在 于 设备 上 , 所 以 不 光 是 它 的 根 节点 需要 在 内 存 中 创造 出 来 ， 
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自 根 节点 以 下 的 所 有 节点 全 都 需要 在 运行 时 加 以 创建 ， 这 是 由 内 核 在 初始 化 时 调用 proc. root. init( ) 完 
成 的 ， 其 代码 在 fs/proc/root.c H: 


25 void init proc root init (void) 


26 { 

27 proc_misc_init( ); 

28 proc net = proc mkdir(^net^, 0); 

29 #ifdef CONFIG SYSVIPC 

30 proc mkdir("sysvipc^, 0); 

31 Hendif 

32 #ifdef CONFIG SYSCTL 

33 proc sys root = proc mkdir(^sys^, 0); 
34 Hendif 

35 proc root fs = proc mkdir(^fs^, 0); 
36 proc root driver - proc mkdir( driver", 0); 


37 Sif defined(CONFIG SUN OPENPROMFS) || \ 
defined(CONFIG SUN OPENPROMFS MODULE) 


38 /* just give it a mountpoint */ 
39 proc mkdir("openprom', 0); 

40 #endif 

41 proc tty init( ); 

42 #ifdef CONFIG PROC DEVICETREE 

43 proc device tree init( ); 

44 #endif 

45 proc bus = proc mkdir("bus^, 0); 
46 } 


首先 是 直接 在 /proc 下 曾 的 叶 节 点 ， 即 文件 节点 ， 这 是 由 proc_misc_init( ) 创 建 的 ， 上 其 代码 在 


fs/proc/proc_miss.c "P: 
[proc root init( ) > proc_misc_init( )] 


505 void | init proc misc init(void) 


506 { 

507 struct proc dir entry *entry; 

508 static struct { 

509 char *name; 

510 int Ckread proc) (char*, char**, off. t, int, int*, void*) ; 
511 } *p, simple ones[ ] = { 

512 {” loadavg”, loadavg read_proc}, 
513 {“uptime”, uptime read proc}, 

514 {"meminfo”, meminfo read proc], 

515 { version”, version read proc], 

516 {"cpuinfo”, cpuinfo read proc], 

517 #ifdef CONFIG PROC HARDWARE 

518 {" hardware”, hardware_read_proc}, 
519 #endif 
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#ifdef CONFIG_STRAM PROC 
('stram", | stram read proc] 
&endif 
#ifdef CONFIG DEBUG MALLOC 
['malloc/, malloc read proc], 
endi f 
#ifdef CONFIG MODULES 
("modules", modules read proc}, 
l'ksyms", | ksyms read proc], 
#endif 
“stat”, kstat_read_proc} 
devices”, devices read proc], 
('partitions", partitions read proc], 
Sif !defined(CONFIG ARCH S390) 
('interrupts^, interrupts read proc], 


{ 


#endif 
{"filesystems”, filesystems_read_proc}, 
("dma", dma read proc], 

('ioports", ioports read proc} 
{“cmdline”, cmdline read proc}, 


#ifdef CONFIG SGI_DS1286 


(^rtc^, ds1286 read proc] 
#endif 
("locks", | locks read proc], 
{"mounts”, mounts read proc], 
{ swaps”, | swaps read proc], 
{" iomem”, memory read proc], 
{"execdomains”, execdomains read proc], 
(NULL, } 


he 
for (p = simple ones; p->name; p++) 
create proc read entry(p >name, 0, NULL, p->read proc, NULL) ; 


/* And now for trickier ones */ 
entry = create proc entry ( kmsg/, S IRUSR, &proc root); 
if (entry) 
entry->proc_fops = &proc kmsg operations; 
proe root kcore = create proc entry (kcore^, S IRUSN, NULL); 
if (proc root kcorc) 1 
proc root_kcore->proc_fops = &proc kcore operations; 
proc root kcore-?size = 
(size t)high memory - PAGE OFFSET + PAGE SIZE; 
] 
if (prof shift) ( 
entry = create proc entry( profile", S IWUSR | S TRUGO, NULL) ; 
if (entry) { 
entry-»proc fops - &proc profile operations; 
entry. size = (l*prof len) * sizeof (unsigned int); 
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} 
} 
#ifdef ^ powerpc . 
{ 
extern struct file_operations ppc_htab_operations; 
entry = create proc entry ( ppc htab/, S IRUGO|S IWUSR, NULL): 
if (entry) 
entry-»proc fops = &ppc htab operations; 
) 
Hendif 
entry = create proc read entry( slabinfo^, S IWUSR | S TRUGO, NULL, 
slabinfo read proc, NULL): 
if (entry) 
eniry-»write proc = slabinfo write proc; 


) 


这 个 函数 的 前 半 部 是 一 个 数据 结构 数组 的 定义 。 这 个 数组 中 的 每 -个 元 素 都 将 /proc 目录 中 的 个 


(文件 ) 节点 名 与 一 个 函数 挂 上 钩 。 例 如 ， 节 点 /proc/cpuinfo 就 与 cpuinfo read proc( )E£J, 35 个 进 
程 访 问 这 个 节点 , 要 读 出 这 个 特殊 文件 的 内 容 时 , 就 由 cpuinfo_read_proc( ) 从 内 核 中 收集 有 关 的 信息 并 
临时 生成 该 文件 的 内 容 。 这 个 数组 中 所 涉及 的 所 有 特殊 文件 痢 只 支持 读 操作 ， 而 不 支持 其 他 的 义 件 所 
作 ( 如 写 、lseek( ) 等 )。 看 一 个 这 个 数组 ， 即 simple ones[ |， 读 者 就 可 以 约略 地 感受 到 在 /proc 下 面 的 
这 些 特 殊 文 件 所 提供 的 信息 是 何等 地 充分 和 多 样 。 所 有 这 些 也 数 都 要 通过 create_proc_read_entry( ) 为 之 
创建 起 proc dir entry 结构 和 inode 结构 ， 并 且 与 节点 /proc 的 数据 结构 挂 上 钧 ， 这 是 定义 于 
include/linux/proc_fs.h 中 的 一 个 inline 函数; 


[proc root init( ) > proc misc init( ) > create proc read entry( )] 
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extern inline struct proc dir entry *create proc read entry( 
const char *name, 
mode t mode, struct proc dir entry *base, 
read proc t *read proc, void * data) 


struct proc dir entry **res-create proc entry (name, mode, base); 
if (res) { 

res-?read proc-read proc; 

res-?data-data; 


} 


return res; 


} 


对 照 一 卜 调 用 时 的 参数 ， 就 可 以 看 到 这 里 除 name 和 read. proc 以 外 其 他 参数 都 是 0 或 NULL， 特 


别 地 ， 文 件 的 mode 为 0。 所 以 这 里 做 的 就 是 通过 create_proc_entry( ) 建 立 起 有 关 的 数据 结构 并 将 所 创 
建 proc_dir_entry £& P für AGRE read. proc 设置 成 指向 相应 的 函数 。 


函数 create_proc_entry( ) 的 代码 在 fs/proc/generic.c 中 : 


[proc root init( ) > proc misc init( ) > create proc read entry( ) > create proc entry( )] 
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struct proc dir entry *create proc entry (const char *name, mode t mode, 


{ 


out: 


} 


struct proc dir entry *parent) 


Struct proc dir entry *ent = NULL; 
const char *fn - name; 
int len; 


if (!parent && xlate proc name(name, &parent, &fn) !- 0) 
goto out; 
len = strlen(fn); 


ent = kmalloc(sizeof(struct proc dir entry) + len + 1, GFP KERNEL); 
if (lent) 
goto out; 
memset(ent, 0, sizeof(struct proc dir entry)); 
memcpy(((char *) ent) + sizeof(*ent), fn, len + 1); 
ent-^name = ((char *) ent) + sizeof(*ent); 
ent-»namelen = len; 


if (S ISDIR(mode)) { 
if ((mode & S TALLUGO) == 0) 
mode |- S IRUGO | S IXUGO; 
ent->proc_fops = &proc dir operations; 
ent-?proc iops = &proc dir inode operations; 
ent-^nlink = 2; 
} else { 
if ((mode & S IFMT) == 0) 
mode ;= S IFREG; 
if ((mode & S TALLUGO) == 0) 
mode |- S IRUGO; 
ent-^»nlink = 1; 
} 


ent-^mode = mode; 


proc register(parent, ent); 


return ent, 


在 这 个 情景 中 ， 进 入 这 个 函数 时 的 参数 parent 为 NULL， 所 以 在 第 505 行 调用 xlate. proc. name( ), 


它 将 作为 参数 传 下 来 的 节点 名 《如 “epuinfo”) 转换 成 从 “/proc” 开 始 的 路 径 名 ， 并 且 道 过 副作用 返回 
指向 节点 proc 的 proc, dir entry 结构 的 指针 作为 parent。 显 然 ， 这 个 函数 的 作用 在 这 里 是 很 关键 的 ， 其 
代码 在 fs/proc/generic.c FP: 


[proc root, init( ) > proc, misc init( ) > create proc read entry() > create proc entry( ) > 
xlate proc name( )] 
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161 /* 

162 * This function parses a name such as ”tty/driver/serial”, and 
163 * returns the struct proc dir entry for "/proc/tty/driver/, and 
164 * returns "serial" in residual. 

165 */ 

166 static int xlate proc name(const char *name, 

167 struct proc dir entry **ret, const char **residual) 
168 { 

169 const char *cp = name, *next; 

170 struct proc dir entry  -*de; 

171 int len; 

172 

173 de = &proc root; 

174 while (1) { 

175 next = strchr(cp, '/'); 

176 if (!next) 

177 break; 

178 

179 ‘len = next - cp; 

180 for (de = de-^subdir; de ; de = de->next) { 

181 if (proc match(len, cp, de)) 

182 break; 

183 } 

184 if (!de) 

185 return —ENOENT; 

186 cp t= len + 1; 

187 } 

188 *residual = cp; 

189 *ret = de; 

190 return 0; 


191 } 


这 里 proc root 就 是 根 节 点 /proc 的 proc. dir entry 结构 ， 结 构 中 的 subdir 是 个 队列 。 下 面 读者 就 
会 看 到 , proc 下 所 有 节点 的 proc. dir entry 结构 都 在 这 个 队列 中 。 函数 strchr( ) 在 字符 串 cp 中 寻找 第 一 
个 “/” 字 符 并 返回 指向 该 字符 的 指针 。 函 数 中 的 while 循环 逐 节 地 检查 作为 相对 路 径 名 的 字符 串 ， 在 
/proc 下 面 的 子 目 录 队 列 中 寻求 匹配 。 对 于 字符 串 “cpuinfo” 来 说 ， 由 于 字符 串 中 并 无 “/” 字 符 存在 ， 
因而 strchr( ) 返 回 NULL 而 经 由 第 177 行 的 break 语句 结束 while 循环 。 所 以 , 对 于 相对 路 径 名 “cpuinfo” 
而 言 ， 这 个 函数 返回 0， 并且 在 返回 create_proc_entry( ) 后 使 parent 指向 /proc 的 proc, dir entry 结构 ， 
而 fn 则 保持 个 变 。 这 么 - -来 ， 在 为 节点 “cpuinfo” 分 配 proc dir entry 结构 并 加 以 初始 化 以 后 ， 当 调 
用 proc_register( ) 时 ，parent 就 ， 定 指向 /proc 或 其 他 给 定 父 节点 的 proc_dir_entry 结构 。 

ef 3X proc_register( ) 将 个 新 节点 的 proc. dir. entry 结构 “登记 ”( 即 挂 入 ) 到 父 节点 的 proc_dir_entry 
结构 内 的 subdir 队列 !|， 它 的 源 代码 在 同 文件 fs/proc/generic.c FP: 


[proc root init( ) > proc misc, init( ) > create. proc read entry( ) > create proc entry( ) > proc register( )] 


350 static int proc register(struct proc dir entry * dir, 
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351 
352 
353 
354 
355 
356 
357 
358 
359 
360 
361 
362 
363 
364 
365 
366 
367 
368 
369 
370 
371 
372 
373 
374 
375 


) 
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struct proc dir entry * dp) 
int i; 


i 7 make inode number( ); 
if (i < 0) 
return -EAGAIN; 
dp->low_ino = i; 
dp->next = dir->subdir; 
dp->parent = dir; 
dir-^subdir = dp; 
if (S_TSDIR(dp->mode)) { 
if (dp->proc_iops == NULL) { 
dp->proc_fops = &proc dir operations; 
dp->proc_iops = &proc dir inode operations; 
} 
dir->nlink++; 
) else if (S ISLNK(dp-^mode)) { 
if (dp- proc iops == NULL) 
dp-^proc iops = &proc link inode operations; 
} else if (S ISREG(dp->mode)) { 
if (dp->proc_fops == NULL) 
dp-^proc fops = &proc file operations; 
} 


return 0; 


参数 dir 指向 父 节 点 ，dp 则 指向 要 登记 的 节点 。 如 前 所 述 ，/proc 及 其 下 属 的 所 有 节点 在 设备 上 都 
没有 对 应 的 索引 节点 ， 但 是 在 内 存 中 却 都 有 inode 数据 结构 。 既 然 有 inode 结构 ， 就 要 有 索引 节点 号 。 
proc 文件 系统 的 根 节点 即 /proc 节点 的 索引 节点 号 为 1， 可 是 其 他 节点 呢 ? 这 就 要 通过 
make_inode_number( FUAT. Je C CR tede XC fF fs/proc/generic.c +: 


[proc root init( ) > proc misc init( ) > create proc read entry( ) > create proc entry( ) > proc register( ) > 
make inode number( )] 


193 
194 
195 
196 
197 
198 
199 
200 
201 
202 


static unsigned char proc alloc map[PROC NDYNAMIC / 8]; 


static int make inode number (void) 


{ 


} 


int i = find first zero bit((void *) proc alloc map, PROC_NDYNAMIC) ; 
if (i<0 || i»-PROC NDYNAMIC) 
return -1; 
set bit(i, (void *) proc alloc map); 
return PROC DYNAMIC FIRST + i; 


代码 中 用 到 的 几 个 常量 在 文件 include/linux/proc. fs.h 中 给 出 : 
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25 /* Finally, the dynamically allocatable proc entries are reserved */ 
26 

27 define PROC DYNAMIC FIRST 4096 

28 #define PROC NDYNAMIC 4096 


可 见 ， 这 些 节 点 的 索引 节点 号 部 在 4096—8192 A. ASN SIMBA FR AG EE n n 
保持 惟 - “， 而 只 要 在 同一 设备 的 范围 中 惟一 就 可 以 了 。 当 然 ，/proc 下 而 的 节点 都 不 属于 任何 设备 ， 但 
是 也 有 个 设备 ， 所 以 这 些 索引 节点 号 也 因此 而 不 会 与 任何 “个 具体 设备 上 的 索引 节点 号 冲突 。 

从 代码 中 可 以 看 出 ，proc 文件 系统 有 两 个 file operations 数据 结构 ， 即 proc dir operations 和 
proc file operations ， 以 及 两 个 inode operations 数据 结构 ， 妈 proc dir inode operations 和 
proc_link_inode_operations， 视 具体 入 点 的 类 型 加 以 设置 。 例 如 ， 下 面 讲 到 的 /proc/self 就 是 -一 个 连接 节 
点 ， 所 以 其 proc_iops 指向 proc. link. operations. 

此 外 ，proc_register( ) 中 的 代码 就 没有 什么 需要 特别 如 以 说 明 的 了 。 不 过 ， 从 “cpuinfo” 这 个 例子 
可 以 看 出 ， 所 谓 subdir 队列 并 非 “ 子 目录 的 队列 ” 而 是 “下 属 节点 的 目录 项 的 队列 内 

回 到 proc misc init( ) 的 代码 中 ， 除 数组 simple_ones[ ] 中 的 节点 外 ， 还 有 “kmsg”、"kcore” 以 及 
“profile” 三 个 节点 。 由 于 这 些 特殊 文件 的 访问 权限 有 所 不 同 ， 例 如 “ kmsg” 和 ”kcore”* 的 mode 都 是 
S_IRUSR， 也 就 是 只 有 文件 主 即 特权 用 户 才 有 读 访问 权 ， 所 以 不 能 律 套 用 create_proc_read_entry( )， 
而 此 直接 调用 create_proc_entry( ).. SEPKSCfF/proc/kcore 代表 着 映射 到 系统 空间 的 物理 内 存 ， 其 起 点 为 
PAGE_OFFSET， 即 0x0000 0000， 而 high. memory 则 为 系统 的 物理 内 存在 系统 空间 映射 的 终点 。 

创建 了 这 些 站 接 在 /proc 日 录 中 的 特殊 文件 以 后 ，proc_root_init( ) 还 要 在 /proc 目录 中 创建 一 些 子 日 
AR. A "net". "fs". “driver”、”bus" 等 等 。 这 些 子 目录 部 是 通过 proc_mkdir( ) 创 建 的 。 其 代码 在 
fs/proc/generic.c 中 ， 不 过 它 与 create_proc_entry( ) 在 参数 mode 中 的 S. IFDIR Jj 1 ifj S IALLUGO % 0 
时 相同 ， 所 以 我 们 不 在 这 里 列 出 它 的 代码 了 。 

还 有 一 个 很 特殊 的 子 日 录 “self”，/proc/self 代表 着 这 个 节点 受到 访问 时 的 当前 进程 。 也 就 是 说 ， 
淮 访问 这 个 节点 ， 它 就 代表 谁 ， 它 总 是 代表 着 访问 这 个 节点 的 进程 自己 。 系 统 中 的 每 - :个 进程 在 /proc 
目 菏 中 都 有 一 个 以 其 进程 号 为 节点 名 的 子 目录 ， 在 子 月 录 中 则 又 有 cmdline, cpu, cwd, environ 等 节 
点 ， 反 映 着 该 进程 各 方面 的 状态 和 信息 。 其 中 多 数 节 点 是 特殊 文件 ， 有 的 却 是 目录 节点 。 如 cwd 就 是 
个 目录 节点 ， 连 接 到 该 进程 的 “当前 工作 目录 党 而 cmdline 则 为 启动 该 进程 的 可 执行 程序 时 的 命令 行 。 
这 样 ,特权 用 户 可 以 在 运行 中 打开 任何 一 个 进程 的 有 关 文 件 节点 或 目录 节点 读 取 该 进程 各 方面 的 信息 。 
一 般 用 户 也 可 以 用 自己 的 pid 组 装 起 路 径 名 来 获取 有 关 其 自身 的 信息 ， 或 者 就 通过 /proc/self 来 获取 有 
关 其 自身 的 信息 。 读 者 不 妨 在 机 器 上 试 一 下 “more /proc/self/cmdline” 命 令 行 ， 看 看 是 什么 结果 。 这 
ASF AR ARP AbXRTE T : 它 并 没有 一 个 固定 的 proc dir entry 数据 结构 ， 也 没有 周 定 的 inode 结构 ， 
而 是 在 需要 时 临时 予以 牛 成 。 后 而 我 们 述 会 回 到 这 个 话题 。 

上 述 这 些 子 日 录 基 本 上 OR self 以 外 ) 都 是 最 底层 的 目录 节点 ， 在 它们 下 面 就 只 有 文件 而 再 没有 
其 他 目录 节点 了 。 但 是 /proc/tty 却 是 :一 棵 子 树 ， 在 这 个 节点 下 面 还 有 其 他 日 录 节 点 ， 所 以 专门 有 个 函数 
proc_tty_init( ) 用 来 创建 这 棵 子 树 ， 其 代码 在 fs/proc/proc, tty.c 中 : 


[proc root init( ) > proc tty. init( )] 


169 /* 
170 * Called by proc root init( ) to initialize the /proc/tty subtree 
171 */ 
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172 void | init proc tty init (void) 


173 { 
174 if (!proc mkdir("tty”, 0)) 
175 return; 
176 proc tty ldisc = proc_mkdir("tty/ldisc”, 0); 
177 proc tty driver = proc mkdir(^tty/driver^, 0); 
178 
179 create proc read entry tty/ldiscs', 
0, 0, tty ldises read proc, NULL) ; 
180 create proc read entry tty/drivers^, ' 
0, 0, tty drivers read proc, NULL) ; 
181. ) 


此 外 ， 如 果 系 统 不 采用 传统 的 基于 主 设备 号 /次 设备 号 的 Mev 设备 〔 文 件 ) 目录 ， 而 采用 树 状 的 设 
备 目录 /device. tree, 则 还 要 在 proc_root_init( ) 中 创建 起 /device_tree 子 树 。 这 是 由 proc_device_tree_init() 
完成 的 ， 其 代码 在 fs/proc/proc, device.c 中 : 


[proc_root_init( ) > proc, device tree. init( )] 


122 /* 

123 * Called on initialization to set up the /proc/device-tree subtree 
124 */ 7 

125 void proc device tree init(void) 

126 { 

127 struct device node *root; 

128 if ( !have of ) 

129 return; 

130 proc device tree = proc mkdir("device-tree", 0); 

131 if (proc device tree == 0) 

132 return; 

133 root = find path device(’/”) ; 

134 if (root == 0) { 

135 printk (KERN ERR "/proc/device-tree: can't find root\n’) ; 
136 return; 

137 } 

138 add node(root, proc device tree); 

139  } 


我 们 在 这 里 并 不 关心 设备 驱动 ， 所 以 不 深入 去 看 find, device. tree( ) 和 add_node( ) 的 代码 ， 不 过 读 
者 从 这 两 个 函数 的 名 称 和 调用 参数 可 以 猜 到 它们 的 作用 。 

如 前 所 述 ， 系 统 中 的 每 个 进程 在 /proc 目录 中 都 有 个 以 其 进程 号 为 节点 名 的 子 日 录 ， 但 是 这 些 子 目 
录 并 不 是 在 系统 初始 化 的 阶段 创建 的 ， 而 是 要 到 /proc 节点 受到 访问 时 临时 地 生成 出 来 。 只 要 想 想 进程 
的 创建 /消失 是 多 么 的 频繁 ， 这 就 毫 不 是 怪 了 。 

除 这 些 由 内 核 本 身 创建 并 安装 的 节点 以 外 ,“ 可 安装 模块 ”也 可 以 根据 需要 通过 proc_register( 在 
/proc 目录 中 创建 其 自己 的 节点 ， 从 而 在 模块 与 进程 之 间架 起 桥梁 。 可 安装 模块 可 以 道 过 贞 种 途径 架设 
起 与 进程 之 间 的 桥梁 ， 其 一 是 通过 在 /dev 目录 中 创建 一 个 设备 文件 节点 ， 其 二 就 是 在 /proc 目录 中 创建 
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才干 特殊 文件 。 在 老 - 些 的 版 本 中 ， 可 安装 模块 通过 一 个 叫 proc_register_dynamic( ) 的 函数 来 创建 proc 
文件 ， 但 是 实际 上 可 安装 模块 并 不 比 进程 更 为 动态 ， 所 以 现在 已 经 (通过 宏 定义 ) 统一 到 了 
proc_register( ) 。 当 可 安装 模块 需要 在 /proc 目录 中 创建 一 个 特殊 文件 时 ， 先 淮 备 好 它 自 局 的 
inode operations 结 愧 和 file operations 结构 ， 贞 准备 “个 proc. dir entry 结构 ， 然 后 调用 proc. register( ) 
将 其 “登记 ”到 /proc 月 录 中 。 这 就 是 设计 和 实现 设备 驱动 程序 的 丙种 途径 之 一 。 所 以 ， proc_register( ) 
对 于 时 开发 设备 驱动 程序 的 恋 者 来 说 是 一 个 非常 重要 的 函数 。 我 们 在 有 关 设 备 驱动 的 章节 中 还 会 问 到 
这 个 话题 。 

这 里 要 着 重 指出 , 通过 proc_register( ) 以 及 proc_mkdir( ) 登 记 的 是 一 个 proc, dir entry 结构 。 结 构 中 
包含 了 dentry 结构 和 inode 结构 所 需 的 大 部 分 信息 , 但 是 它 既 不 是 dentry 结构 也 不 是 inode 结构 。 同 时 ， 
代表 者 /proc 的 数据 结构 proc. root 也 是 一 个 proc_dir_entry 结构 ， 所 以 由 此 而 形成 的 是 一 棵 以 proc. root 
为 根 的 树 ， 树 中 的 每 个 节点 都 是 个 proc dir. entry 4i 

可 是 ， 对 于 文件 系统 的 操作 ， 如 path_walk( ) 等 等 ， 所 涉及 的 却 是 dentry 结构 和 inode 结构 ， 这 两 
个 方面 是 怎样 统一 起 来 的 呢 ? 我 们 在 前 面 看 到 ，proc 文件 系统 的 根 节 点 /proc 有 inode 结构 ， 这 是 在 
proc read super( ) 中 通过 proc_get_inode( ) 分 配 并 且 根 据 proc. root 的 内 容 而 设置 的 。 同 时 ， 这 个 节点 也 
有 dentry 结构 , 这 是 在 proc_read_super( ) 中 通过 d_alloc_root( ) 创 建 的 , 并 且 proc 文件 系统 的 super_block 
结构 中 的 指针 s root 就 指向 这 个 dentry 结构 (这 个 d, entry 结构 中 的 指针 d_inode 则 指向 其 inode 4 TJ). 
BTL, proc 文件 系统 的 根 节点 是 一 个 “ 止 常 ” 的 节点 。 TE path walk 中 首先 会 到 达 这 个 节点 ， 从 这 以 后 ， 
就 由 这 个 节点 在 其 inode_operations、file_operations 以 及 dentry_operations 数据 结构 中 提供 的 有 关 函 数 
接管 了 进一步 的 操作 。 后 面 读者 会 看 到 ， 这 些 函 数 会 临时 为 /proc 子 树 中 其 他 的 节点 生成 出 inode 结构 
来 。 当 然 ， 其 依据 就 是 该 节点 的 proc_dir_entry 结构 。 

下 面 ， 我 们 通过 几 个 具体 的 情景 来 看 proc 文件 系统 中 的 文件 操作 。 

第 一 个 情景 是 对 /proc/loadavg 的 访问 ， 这 个 文件 提供 有 关系 统 在 过 去 1 分 钟 、5 分 钟 和 15 分 钟 内 
的 平均 负荷 的 统计 信息 。 这 个 文件 只 支持 读 操 作 ， 其 proc dir entry 结构 是 在 proc misc init( ) 中 通过 
create_proc_read_entry( ) 创 建 的。 首先 ， 当 然 是 通过 系统 调用 open ) 打 开 这 个 文件 ， 为 此 我 们 要 重 滥 一 
下 path_walk( ) 中 的 有 关 段 汉 。 在 这 个 函数 中 ， 当 泊 着 路 径 名 搜索 到 了 一 个 中 间 节 点 时 ， 数 据 结 构 
nameidata 中 的 指针 dentry 指向 这 个 中 间 节 点 的 dentry 结构 , 并 企图 继续 向 前 搜索 , 而 下 个 节点 名 则 
在 个 gstr 数据 结构 this 中 。 就 我 们 这 个 情景 而 言 ， 下 一 个 节点 已 经 是 路 径 名 中 的 最 后 个 节点 ， 所 
以 转 到 了 last component 标号 处 。 企 确认 了 要 访问 的 正 是 这 个 节点 本 壬 (而 不 是 其 父 节 点 )， 并 且 节 点 名 
并 非 “.” 或 “..” 以 后 ， 就 先 通过 cached lookup( ) 在 内 存 中 寻找 该 节点 的 dentry 结构 ， 如 果 这 个 结构 
尚未 创建 则 进而 通过 real_lookup( ) 在 文件 系统 中 从 其 父 节点 开始 寻找 并 为 之 创建 起 dentry( 以 及 inode) 
结构 。 见 fs/namei.c 中 的 以 下 几 行 代码 ; 





558 dentry = cached lookup (nd->dentry, &ihis, 0); 

559 if (!dentry) | 

560 dentry = real lookup(nd-»dentry, &this, 0); 

561 err = PTR ERR(dentry); 

562 if (IS ERR(dentry)) 

563 break; 

564 } 

565 while (d mountpoint(dentry) && | follow _down(&nd->mnt, &dentry)) 
566 ; 
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在 我 们 这 个 情景 里 , path walk( ) 首 先 发 现 /proc 节点 是 个 安装 节点 , 而 从 所 安装 的 super block 结构 
中 取得 了 proc 文件 系统 根 节 点 的 dentry 结构 。 如 前 所 述 ， 从 这 个 意义 上 说 这 个 节点 是 正常 的 文件 系统 
根 节点 。 所 以 ，nd->dentry 就 指向 该 节点 的 dentry 结构 ， 而 this 中 则 含有 下 一 个 节点 名 “loadavg”。 然 
后 ， 先 通过 cached_lookup( ) 看 看 下 一 个 节点 的 dentry 结构 是 任 已 经 建立 在 内 存 中 ， 如 果 没 有 就 要 通过 
real_lookup( ) 从 设备 上 读 入 该 节点 的 日 录 项 (以 及 索引 节点 》 并 在 内 存 中 为 之 创建 起 它 的 dentry 结构 。 
但 是 ， 痢 只 是 就 常规 的 义 件 系统 而 言 ， 而 现在 的 节点 /proc 已 经 落 在 特殊 的 proc 文件 系统 内 ， 情 况 就 不 
同 了 ， 先 重 温 一 下 real lookup( PNA ARRAS: 


268 


269 


281 
282 


310 


static struct dentry * real lookup(struct dentry * parent, 
struct qstr * name, int flags) 


result = d lookup(parent, name); 
if (!result) { 


见 ， 在 内 存 中 不 能 发 现 日 标 节点 的 dentry 结构 时 ， 到 底 怎么 办 取决 十 其 父 节点 的 inode 结构 中 


的 指针 i op 指向 哪 一 个 inode_operations 数据 结构 以 及 这 个 结构 中 的 函数 指针 lookup。 对 于 节点 /proc， 
它 的 i_op 指针 指向 proc_root_inode_operations, 这 是 在 它 的 proc. dir. entry 结构 proc. root 中 定义 好 了 的 ， 
具体 定义 见 文件 fs/proc/root.c: 
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/* 

* The root /proc directory is special, as it has the 
* <pid> directories. Thus we don't use the generic 

* directory handling functions for that. 


*/ 

static struct file operations proc root operations = Í 
read: generic read dir, 
readdir: proc root readdir, 

he 

/* 

* proc root can do almost nothing.. 

*/ 

static struct inode operations proc root, inode operations - 1 
lookup: proc root lookup, 


m 


qz gt EHT EK file operations 结构 。 从 中 可 以 看 出 ， 如 果 打 开 /proc 并 通过 系统 调 


FH readdir( )5% getdents( ) 读 取 目 录 的 内 容 ( 如 命令 "ks? 所 做 的 那样 ), 则 调用 的 函数 为 proc_root_readdir( )。 
对 于 我 们 这 个 情景 ， 则 只 足 继 续 向 前 搜索 ， 因 市 所 调用 的 函数 是 proc root lookup( )， 其 代码 在 
fs/proc/root.c 中 : 
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static struct dentry *proc root lookup (struct inode * dir, 
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struct dentry * dentry) 


49 | 

50 if (dir-^i ino == PROC ROOT TNO) { /x check for safety... */ 
51 int nlink = proc root.nlink; 

52 

53 nlink += nr threads; 

54 

55 dir->i_nlink = nlink; 

56 } 

57 

58 if (!proc lookup(dir, dentry)) 

59 return NULL; 

60 

61 return proc pid lookup(dir, dentry); 
62  ] 


参数 dir 指向 父 节点 即 /proc 的 inode 结构 ， 这 个 inode 结 移 中 的 nlink 字段 也 是 特殊 的 ， 它 的 数值 
等 于 当前 系统 中 进程 〈 以 及 线程 ) 的 数量 。 由 于 这 个 数量 随时 都 可 能 在 变 ， 所 以 每 次 调用 
proc. root, lookup( ) 时 都 要 根据 当时 的 情景 予以 更 新 。 这 里 nr threads 是 内 核 中 的 一 个 全 局 量 ， 反 映 着 
系统 中 的 进程 数量 。 另 ”方面 ， 由 于 系统 中 的 进程 数量 不 会 降 到 0， 这 个 学 段 的 数值 也 不 可 能 为 0。 

/proc 日 录 中 的 节点 可 以 分 为 两 类 。 -类 是 节点 的 proc. dir entry 结构 已 经 向 proc root( )“ 登 记 ”， 
而 挂 入 了 其 队列 中 ; 另 一 类 则 对 应 于 当前 系统 中 的 各 个 进程 而 并 不 存在 proc, dir. entry 6M). HSH 
通过 proc_lookup( ) 找 到 其 proc. dir. entry 结构 而 设置 其 dentry 结构 并 创建 其 inode 结构 。 后 者 则 党 要 根 
据 节 点 名 (进程 号 ) 在 系统 中 找到 进程 的 task struct 419, ABA AAS dentry 结构 并 创建 inode 结 
构 。 显 然 ，/proc/loadavg 属于 前 者 ， 所 以 我 们 继续 看 proc_lookup( ) 的 代码 ， 它 在 文件 fs/proc/generic.c 
m. 


[proc root. lookup( ) > proc. lookup( )] 


237 /* 

238 * Don’t create negative dentries here, return -ENOENT by hand 
239 * instead 

240 */ 


241 struct dentry *proc lookup(struct inode * dir, struct dentry *dentry) 
242 { 


243 struct inode *inode; 

244 struct proc_dir_entry * de; 

245 int error: 

246 

247 error = -ENOENT; 

248 inode = NULL; 

249 de = (struct proc dir_entry *) dir >u. generic ip: 
250 if (de) { 

251 for (de = de->subdir; de ; de = de->next) { 
252 if (lde || !de->low ino) 

253 continuc; 
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254 if (de->namelen !- dentry~>d_name. len) 

255 continue; 

256 if (!memcmp (dentry->d name. name, de->name, de-^namelen)) { 
257 int ino = de->low_ino; 

258 error = —ETNVAL; 

259 inode = proc_get_inode(dir->i_sb, ino, de); 
260 break; 

261 } 

262 } 

263 } 

264 

265 if (inode) { 

266 dentry->d_op = &proc dentry operations; 

267 d add(dentry, inode) ; 

268 return NULL; 

269 } 

270 return ERR PTR(error); 

271 } 


这 里 的 参数 dir 指向 父 节 点 即 /proc 的 inode 结构 , 而 dentry 则 指向 已 经 分 配 用 于 日 标 节点 的 dentry 
结构 。 函 数 本 身 的 逻辑 是 很 简单 的 ，proc_get_inode( ) 的 代码 也 已 在 前 面 看 到 过 。 至 于 d_add( )， 则 只 是 
将 dentry 结构 挂 入 杂凑 表 队 列 ， 并 使 dentry 结构 与 inode 结构 互相 挂 上 钩 ， 读 者 在 本 章 开 头 几 市 中 也 
已 看 到 过 。 

从 proc_lookup( ) 一 路 正常 返回 到 path_walk( ) 中 时 ， 沿 着 路 径 名 的 搜索 就 向 前 推进 了 ， 步 。 在 我 们 
这 个 情景 中 ， 路 径 名 至 此 已 经 结束 ， 所 以 path walk( ) 已 经 完成 了 操作 ， 找 到 了 日 标 节 点 /proc/loadavg 
的 dentry 结构 ， 此 后 就 与 常规 的 open ) 操 作 没 有 什么 两 样 了 。 

打开 了 文件 以 后 ， 就 是 通过 系统 调用 read( ) 从 文件 中 读 。 由 十 目标 文件 的 dentry 结构 和 和 inode 
结构 均 已 建立 ， 所 以 开始 时 的 操作 与 常规 文件 的 并 尤 个 同 ， 直 到 根据 file 结构 中 的 指针 f£ op 找到 相应 
的 file operations 结构 并 进而 找到 其 函数 指针 read. 对 于 proc 文件 系统 , file 结构 中 的 人 _op 指针 来 自 日 
标 文 件 的 inode 结构 ， 而 inode 结构 中 的 这 个 指针 义 来 源 十 目标 节点 的 proe dir entry. 结构 ( 见 
proc_get_inode( ) 的 代码 )。 人 在 proc register( JMET Mw, ARKTA proc_fops 部 指向 
proc. dir operations; 而 “普通 ”文件 节点 (如 /proc/loadavg) 的 proc_fops 则 都 指 四 proc_file_operations. 
所 以 ，/proc/loadavg 的 file operations £479 proc. file, operations, 3X 4e YE fs/proc/generic.c 中 定义 的 : 


36 static struct file operations proc file operations - | 


3T llseek: proc file lseek, 
38 read: proc file read, 
39 write: proc file write, 

40 ]; 


可 见 ， 为 读 文 件 操作 提供 的 函数 是 proc. file read( )。 这 是 一 个 为 proc HR AAA Meee, HAE 
也 在 generic.c 中 : 


46 /* 4K page size but our output routines use some slack for overruns */ 
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#define PROC BLOCK SIZE (PAGE SIZE - 1024) 


static ssize t 
proc file read(struct file * file, char * buf, size t nbytes, loff t *ppos) 


( 


stru 
char 
ssiz 
int 

SS1Z 
char 
stru 


dp = 
if ( 


whii 
{ 


ct inode * inode = file->f_dentry—>d_inode; 
*page ; 

e_t retval=0; 

eof=0; 

e tn, count; 
*start; 

ct proc dir entry * dp; 


(struct proc dir entry *) inode->u. generic ip; 
! (page = (char*) | get free page (GFP KERNEL))) 
return —ENOMEM; 


e ((nbytes > 0) && !eof) 


count = MIN(PROC BLOCK SIZE, nbytes); 
start = NULL; 
if (dp->get_info) | 
/* 
* Handle backwards compatibility with the old net 
* routines. 
*/ 
n = dp->get_info(page, &start, *ppos, count); 
if (n € count) 
eof = 1; 
} else if (dp->read proc) { 
n = dp- read proc(page, &start, *ppos, 
count, &eof, dp-^data); 
} else 
break; 


if (!start) { 
/* 
x For proc files that are less than 4k 
*/ 
start = page + *ppos; 
n -= *ppos; 
if .(n <= 0) 
break; 
if (n > count) 
n = count; 
} 
if (n == 0) 
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95 break; /* End of file */ 

96 if (n < 0) { 

97 if (retval == 0) 

98 retval = n; 

99 break; 

100 } 

101 

102 /* This is a hack to allow mangling of file pos independent 
103 * of actual bytes read. Simply place the data at page 
104 * return the bytes, and set start’ to the desired offset 
105 * as an unsigned int. - Paul. Russel!@rustcorp. com. au 

106 */ 

107 n -= copy to user(buf, start € page ? page : start, n); 
108 if (na == 0) { 

109 if (retval == 0) 

110 retval = EFAULT; 

111 break; 

112 } 

113 

114 *ppos += start € page ? (long)start : n; /* Move down the file */ 
115 nbytes -= n; 

116 buf += n; 

117 retval += n; 

118 } 

119 free page((unsigned long) page); 

120 return rctval; 

12! } 


从 总 体 上 说 ， 这 个 函数 的 代码 并 没有 什么 特殊 ， 对 本 书 的 读者 不 应 成 为 问题 。 但 是 从 中 可 以 看 出 ， 
具体 的 读 操作 是 通过 由 节点 的 proc dir entry. 结构 中 的 函数 指针 get info 或 read proc 提供 的 。 其 中 
get info 是 为 了 与 老 一 些 的 版 本 兼容 而 保留 的 , 现在 已 改 用 read. proc. 与 常规 的 文件 系统 如 Ext2 相 比 ， 
proc 文件 系统 有 个 特殊 之 处 ， 那 就 是 它 的 每 个 具体 的 文件 虞 节点 都 有 其 自己 的 文件 操作 咀 数 ， 而 不 像 
Ext2 那样 由 其 file operations 结构 中 提供 的 函数 可 以 用 于 问 文件 系统 的 所 有 文件 。 当 然 , 这 是 出 于 在 
proc 文件 系统 中 每 个 节点 都 有 其 特殊 性 。 正 因为 这 样 ，proc 文件 系统 的 file_operations 结构 中 只 为 读 操 
作 提 供 … 个 通用 的 函数 proc_file_read( ), 而 由 筷 再 进 “ 步 找到 并 调用 具体 全 点 所 提供 的 read_proc 函数 。 
在 前 面 proc_misc_init( ) 以 及 create_proc_read_entry( ) 的 代码 中 , 我 们 看 到 节点 /proc/loadavg 的 这 个 指针 
指向 loadavg_read_proc( )， 其 代码 在 fs/proc/proc_misc.c 中 : 





86 static int loadavg read proc(char *page, char **start, off t off, 


87 int count, int *eof, void *data) 
88 | 

89 inta, b, c; 

90 int len; 

91 

92 a = avenrun[0] + (FIXED 1/200); 


93 b = avenrun[1] + (FIXED 1/200); 
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94 c = avenrun[2] + (FIXED 1/200); 


95 len = sprintf (page, “%d. %02d %d. %02d %d. %02d %d/%d %d\n”, 

96 LOAD INT(a), LOAD FRAC(a), 

97 LOAD INT(b), LOAD FRAC(b), 

98 LOAD INT(c), LOAD FRAC(c), 

99 nr running, nr threads, last pid); 

100 return proc cale metrics(page, start, off, count, cof, len); 
101} 


75 static int proc calc metrics(char *page, char **start, off t off, 


76 int count, int *eof, int len) 
77 d 

78 if (len <= off*count) *eof = 1; 

79 *start = page + off; 

80 len —= off; 

81 if (len>count) len = count; 

82 if (len«0) len = 0; 

83 return len; 

84 ] 


它 的 作用 就 是 将 数组 avenrun ] 中 积累 的 在 过 去 1 分 钟 、5 分 钟 以 及 15 分 钟 内 的 系统 平均 CPU 44 
荷 等 统计 信息 通过 sprintf( )“ 打 印 ” 到 缓冲 区 页 面 中 。 这 些 平 均 负 荷 的 数值 是 每 隔 5 秒 钟 在 时 钟 中 肠 
服务 程序 中 进行 计算 的 。 统 计 信息 中 还 包括 系统 当前 处 于 可 运行 状态 (在 运行 队列 中 ) 的 进程 个 数 
nr_running 以 及 系统 中 进程 的 总 数 nr_threads， 还 有 系统 中 已 分 配 使 用 的 最 大 进程 号 last_pid。 


我 们 要 看 的 第 二 个 情景 是 对 /proc/self/ewd 的 访问 。 前 面 讲 过 ，/proc/self 节点 在 受到 访问 时 ， 会 根 
据 当 前 进程 的 进程 号 连接 到 /proc 目录 中 以 此 进程 号 为 节点 名 的 月 录 节 点 ， 而 这 个 目录 节点 下 面 的 cwd 
则 又 连接 到 该 进程 的 “当前 工作 目 陈 ”所 以 ,在 这 短 短 的 路 径 名 中 就 有 两 个 连接 节点 ， 而 且 /proc/self/cwd 
是 从 proc 文件 系统 中 的 节点 到 常规 文件 系统 《如 Ext2) 中 的 节点 的 连接 。 我 们 对 月 标 节点 即 “ 当 前 工 
作 目 录 ” 中 的 内 容 本 身 并 不 感 义 趣 , 而 只 是 对 path_walk( ) 怎 样 两 次 跨越 文件 系统 进行 路 么 搜索 感 兴趣 。 

第 一 次 跨越 文件 系统 是 当 path. walk 发 现 /proc 是 个 安装 节点 而 通过 _follow_dowant ) 找 到 所 安装 的 
super. block 结构 的 过 程 。 这 方面 并 没有 什么 特 蛛 ， 读 者 也 已 经 熟悉 了 。 找 到 了 proc 文件 系统 的 根 节点 
的 dentry £i Usi, nameidata 结构 中 的 指针 dentry 指向 这 个 数据 结构 ， 并 企 岗 继续 向 前 搜索 路 径 名 中 
的 下 “个 节点 self。 由 于 这 个 节点 并 不 是 路 径 名 中 的 最 后 一 个 节点 ， 所 执行 的 代码 是 从 文件 fs/namei.c 
中 path. walk( ) 内 的 494 行 开始 的 ; 


494 /* This does the actual lookups.. */ 

495 dentry = cached lookup(nd-»dentry, &this, LOOKUP CONTINUE): 
496 if (!dentry) | 

497 dentry = real lookup(nd >dentry, &this, LOOKUP CONTINUD); 
498 err = PTR ERR(dentry); 

499 if (IS ERR(dentry)) 

500 break; 

501 } 
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就 所 执行 的 代码 本 身 而 言 ， 是 与 前 -个 情景 一 样 的 ， 所 以 最 终 也 要 通过 proc_root_lookup( ) 调 用 
proc_lookup( )， 试 图 为 节点 建立 起 其 dentry 结构 和 inode 结构 。 可 是 ， 如 前 所 述 ， 由 于 /proc/self 并 没有 
一 个 固定 的 proc. dir entry 结构 ， 所 以 对 proc_lookup( ) 的 调用 必然 会 失败 “返回 非 0), 因而 会 进一步 
调用 proc. pid lookup(). 1X4 SHITE fs/proc/base.c 中 ， 我 们 先 看 它 的 前 一 部 分 : 


[proc root lookup( ) > proc_pid_lookup( )] 


907 struct dentry *proc pid lookup(struct inode *dir, struct dentry * dentry) 
908 ( 


909 unsigned int pid, c; 

910 struct task struct *task; 

911 const char *name; 

912 struct inode *inode; 

913 int len; 

914 

915 pid = 0; 

916 name = dentry-^d name. name; 

917 len = dentry-?d name. len; 

918 if (len == 4 && !memcmp(name, “self”, 4)) { 
919 inode = new inode(dir-^i sb); 

920 if (linode) 

921 return ERR PTR(-ENOMEM) ; 

922 inode-^i mtime = inode-^i atime = inode->i_ctime = CURRENT TIME; 
923 inode i ino = fake ino(0, PROC PID INO); 
924 inode->u. proc i.file = NULL; 

925 inode->u. proc i. task = NULL; 

926 inode->i mode = S lFLNK|S IRWXUGO; 

927 inode->i uid = inode-^i gid = 0; 

928 inode->i_size = 64; 

929 inode-^i op = &proc self inode operations; 
930 d add(dentry, inode) ; 

931 return NULL; 

932 } 


可 见 ， 当 要 找寻 的 节点 名 为 “self ”时 内 核 为 之 分 配 个 空白 的 inode 数据 结构 ， 并 使 其 
inode operations 结构 指针 i op 指向 专用 于 /proc/selt 的 proc_self_inode_operations, 这 个 结构 的 定义 存 
fs/proc/root.c 中 : 


902 static struct inode operations proc self inode operations - | 
903 readlink: proc self readlink, 

904 follow link: proc self follow link, 

905 - 


为 此 类 节点 建立 的 inode £t P TUS S. KAREN pid AB 16 位 以 后 与 常数 
PROC. PID INO 相 或 而 形成 的 ， 常 数 PROC_PID_INO 则 定义 为 2。 
从 proc. root. lookup( ) 返 同 到 path_walk( ) 中 以 后 , 接着 要 检查 和 处 理 两 件 事 ,第 一 件 是 新 找到 的 节 
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点 是 否 为 安装 点 ;第 …… 件 就 是 它 是 否 是 一 个 连接 节点 。 这 正 是 我 们 在 这 里 所 关心 的 ， 因 为 /proc/self 就 
是 个 连接 节点 。 继 续 看 path_walk( ) 中 的 下 面 两 行 〈fs/mnamei.c ): 





514 if (inode-^i op->follow link) { 
515 err - do follow link(dentry, nd); 


对 于 连接 节点 ， 通 过 其 inode 结构 和 inode_operations 结构 提供 的 函数 指针 follow. link 为 非 0。 就 
/proc/self 而 言 ， 由 于 proc pid lookup( ) 的 执行 ， 其 函数 指针 follow link. 已 经 指向 了 
proc self follow_link( )， 其 代码 在 文件 fs/proc/root.c F: 


895 static int proc self follow link(struct dentry *dentry, 
struct nameidata *nd) 


8906 { 

897 char tmp[30]; 

898 sprintf (tmp, “%d”, current->pid) ; 
899 return vfs follow link (nd, tmp); 
900 } 


它 通 过 vfs follow link( ) 寻 找 以 当前 进程 的 pid 的 字符 串 为 相对 路 径 名 的 节点 ， 找 旬 后 就 使 
nameidata 结构 中 的 指针 dentry 指向 它 的 dentry 结构 。 读 者 已 经 看 到 过 vfs_follow_link( ) 的 代码 ， 这 里 
就 不 重复 了 。 只 是 要 指出 ， 在 vfs_follow.link( ) 中 将 会 递归 地 调用 path_walk( ) 来 寻找 连接 的 目标 节点 ， 
所 以 义 会 调用 其 父 节点 /proc 的 lookup 函数 , 即 proc_root_lookup( ), 不 同 的 只 是 这 次 寻找 的 不 是 “self”， 
而 是 当前 进程 的 pid 字符 串 。 这 一 次 ， 在 proc root lookup( ) 中 对 proc lookup( ) 的 调用 同样 会 因为 在 
proc root 的 subdir 队列 中 找 不 到 相应 的 proc, dir entry. 结构 而 失败 ， 所 以 也 要 进一步 调用 
proc pid lookup( ) 导 找 《 见 上 面 proc, root. lookup( ) 的 代码 )。 可 是 ， 这 一 次 的 节点 名 就 不 是 "Self 了， 
刚 调用 的 proc_self_follow_link() 已 经 将 当前 进程 的 进程 号 转化 为 字符 串 形式 , 所 以 在 proc_pid_lookup( ) 
中 所 走 的 路 线 也 不 同 了 ， 我 们 看 这 个 函数 的 后 半 部 : 


[proc_root_lookup( ) > proc_pid_lookup( )] 


933 while (len— > 0) ( 

934 c = *name - ’0’; 

935 name+t+ ; 

936 if (c > 9) 

937 goto out; 

938 if (pid >= MAX MULBY10) 
939 goto out; 

940 pid *- 10; 

941 pid += c; 

942 if (!pid) 

943 goto out; 

944 } 

945 

946 read_lock (&tasklist_lock) ; 
947 task = find task by pid(pid); 
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948 if (task) 

949 get task struct (task) ; 

950 read unlock(&tasklist, lock); 

951 if (!task) 

952 goto out; 

953 

954 inode = proc pid make inode(dir-^i sb, task, PROC PID INO); 
955 

956 free task struct(task); 

957 

958 if (!inode) 

959 goto out; 

960 inode-^i mode = S IFDIR;S IRUGO|S IXUGO; 
961 inode->i op = &proc base inode operations; 
962 inode->i_fop = &proc base operations; 

963 inode->i_nlink = 3; 

964 inode->i flags |=S_ IMMUTABLE; 

965 

966 denttry->d op = &pid base dentry operations; 
967 d add(dentry, inode); 

968 return NULL; 

969 out: 

970 return ERR PTR(-ENOENT) ; 

971 sg 


这 个 函数 将 节点 名 转换 成 个 无 符号 整数 ， 然 后 以 此 为 pid 从 系统 中 寻找 是 否 存在 相应 的 进程 
如 果 找 到 了 相应 的 进程 ， 就 通过 proc pid make, inode( ) 为 之 创建 个 inode 结构 ， 并 初始 化 已 丝 分配 
的 dentry 结构 。 这 个 函数 的 代码 在 文件 fs/proc/base.c 中 ， 我 们 就 不 看 了 。 同 时 ， 还 要 使 inode 结构 中 
的 inode_operations 结构 指针 i, op 指向 proc base inode operations, ifj file operations 结构 指针 i_fop 则 
指向 proc_base_operations。 此 外 ， 相 应 dentry 结构 路 的 指针 d_op 则 指向 pid_base_dentry_operations. 
从 这 里 也 可 以 看 出 ， 在 proc 文件 系统 中 几乎 每 个 节点 都 有 其 自己 的 file operations. 结构 和 
inode_operations 结构 。 

于 是 ， 从 proc_follow_link( ) 返 同时 ，nd->dentry 己 指 向 代表 着 当前 进程 的 日 录 节 点 的 dentry 结构 。 
这 样 ， 当 path_walk( ) 开 始 新 一 轮 的 循环 时 ， 就 从 这 个 节点 (而 不 是 /proc/self) 继续 向 前 搜索 了 。 下 - 
个 节点 是 “cwd”， 这 次 所 搜索 的 节点 已 经 是 路 径 名 中 的 最 后 一 个 节点 ， 所 以 如 同 第 一 个 情景 中 那样 
转 到 了 标号 为 last_component 的 地 方 。 但 是 同样 也 是 在 real_lookup( ) 中 通过 其 父 节点 的 inode_operations 
结构 中 的 lookup 函数 指针 执行 实际 的 操作 ， 测 现 在 这 个 数据 结构 就 是 proc_base_inode_operations， 定 
XT fs/proc/base.c: 


881 static struct inode operations proc base inode operations - { 
882 lookup: proc_base_lookup, 
883 - 


ER proc. base, lookup( ) 的 代码 中 企 同 文件 fs/proc/base.c H: 
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783 static struct dentry *proc base lookup (struct inode *dir, struct dentry *dentry) 
184 { 


785 struct inode *inode; 

786 int error; 

187 struct task struct *task = dir >u. proc_i. task; 

788 struct pid entry *p; 

789 

790 error - -ENOENT; 

79] inode = NULL; 

792 

793 for (p = base stuff; p—name; pt+) { 

794 if (p>>len != dentry—>d_name. len) 

795 continue; 

796 if (!mememp(dentry-^d name.name, p->name, p-»len)) 
797 break; 

798 } 

799 if ({p->name) 

800 goto out; 

801 

802 error = —EINVAL: 

803 inode - proc pid make_inode(dir->i_sb, task, p-type): 
804 if (!inode) 

805 goto out; 

806 

807 inode->i_mode = p-—>made; 

808 /* 

809 * Yes, it does not scale. And it should not. Don't add 
810 * new entries into /proc/<pid>/ without very good reasons. 
811 x*/ 

812 switch(p-^type) { 

813 case PROC PID FD: 

814 inode >i_nlink = 2; 

815 inode->i_op = &proc fd inode operations; 

816 inode-^i fop = &proc fd operations; 

817 break; 

818 case PROC PID EXE: 

819 inode-^i op = &proc pid link inode operations; 
820 inode->u. proc i.op.proc get link = proc exe link; 
821 break; 

822 case PROC PID CWD: 

823 inode-^i op = &proc pid link inode operations; 
824 inode 2u.proc i.op.proc get link = proc cwd link; 
825 break; 

826 case PROC PID ROOT: 

827 inode-^i op = &proc pid link inode operations; 
828 inode-?u. proc i.op. proc get link = proc root link; 
829 break; 

830 case PROC PID ENVIRON: 
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831 inode—^i fop = &proc info file operations; 

832 inode->u. proc i.op.proc read = proc pid environ; 
833 break; 

834 case PROC PID STATUS: 

835 inode->i fop = &proc info file operations; 

836 inode->u. proc i, op. proce read = proc pid status; 
837 break; 

838 case PROC PID STAT: 

839 inode->i_fop = &proc info file operations; 

840 inode->u. proc i.op. proc read = proc pid stat; 
841 break; 

842 case PROC PID CMDLINE: 

843 inode->i_fop = &proc info file operations; 

844 inode->u. proc i.op. proc read = proc pid cmdline; 
845 break; 

846 case PROC PID STATM: 

847 inode->i_fop = &proc info file operations; 

848 inode->u. proc i.op. proc read = proc pid statm; 
849 break; 

850 case PROC PID MAPS: 

851 inode->i fop = &proc maps operations; 

852 break; 

853 #ifdef CONFIG SMP 

854 case PROC PID CPU: 

855 inode->i_fop = &proc info file operations; 

856 inode->u. proc i.op.proc read = proc pid cpu; 
857 break; 

858 #endif 

859 case PROC PID MEM: 

860 inode-^i op = &proc mem inode operations; 

861 inode—^i fop = &proc mem operations; 

862 break; 

863 default: 

864 printk('procfs: impossible type (&d)^,p-^type); 
865 iput (inode) ; 

866 return ERR PTR(-EINVAL); 

867 } 

868 dentry->d_op = &pid dentry operations; 

869 d add(dentry, inode); 

870 return NULL; 

871 

872 out: 

873 return ERR PTR(error); 

874 } 


这 里 用 到 一 个 全 局 性 的 数组 base. stuff[ ]， 有 关 的 定义 在 fs/proc/base.c 中 给 出 : 
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477 
478 
479 
480 
481 
482 
483 
484 
485 
486 
487 
488 
489 
490 
491 
492 
493 
494 
495 
496 
497 
498 
499 
500 
501 
502 
503 
504 
505 
506 
507 
508 
509 
510 
511 
512 
513 
514 
915 
916 
517 
518 
519 


struct pid_entry { 
int type; 
int len; 
char *name; 
mode t mode; 


iz 


enum pid directory inos | 


PROC PID TINO = 2, 


PROC PID STATUS, 
PROC PID MEM, 
PROC PID CWD, 
PROC PID ROOT, 
PROC PID EXE, 
PROC PID FD, 
PROC PID ENVIRON, 
PROC PTD CMDLINE, 
PROC PID STAT, 
PROC PID STATM, 
PROC PID MAPS, 
PROC PID CPU, 


PROC PID FD DTR = 0x8000, 


F; 
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/* Ox8000-Oxffff */ 


&define E(type, name, mode) ((type), sizeof (name) -1, (name), (mode) } 
static struct pid entry base stuff[ ] = { 


E(PROC PID FD, 
E(PROC PID ENVIRON, 
E(PROC P1D STATUS, 
E(PROC PTD CMDLINE, 
E(PROC_PID STAT, 
E(PROC PID STATM, 

tifdef CONFIG SMP 
E(PROC PID CPU, 

tendif 
E(PROC PID MAPS, 
E(PROC PID MEM, 
E(PROC PID CWD, 
E(PROC PID ROOT, 
E(PROC PID EXF, 
(0, 0, NULL, 0) 

E 

#undef E 


“fd”, S_IFDIR 
“environ”, S IFREG 
"status", | S TFREG 
“cmdline”, S LFREG 
“stat”, S IFREG 
"siatm', S IFREG 
"cpu", S_TFREG 
“maps”, S IFREG 
“mem” S_IFREG 
“cwd”, S_1FLNK 
“root”, S IFLNK 
exe” S_IFLNK 


S IRUSR|S IXUSR), 
S IRUSR), 
S IRUGO), 
S IRUGO), 
S IRUGO), 
S IRUGO), 





IS TRUGO), 

S IRUGO), 

S IRUSR|S IWUSR), 
S IRWXUGO), 

S TRWXUGO), 

S IRWXUGO), 





这 样 ， 在 proc base lookup( ) 中 只 要 在 这 个 数组 中 逐 项 比 对 ， 就 可 以 找到 “cwd” 所 对 应 的 类 型 ， 
即 相应 inode 写 中 的 低 16 位 ， 以 及 “文件 ”的 横 式 。 然 后 ， 在 基于 这 个 类 型 的 switch 语句 中 ， 对 于 所 
创建 的 inode 结构 进行 具体 的 设置 。 对 于 代表 着 进程 的 某 方 面 属性 或 状态 的 这 些 inode 结构 ， 其 union 
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部 分 被 用 作 一 个 proc_inode_info 结构 proc i, Hog X T include/linux/proc fs i.h: 


struct proc inode info { 

struct task struct *task; 

int type; 

union { 
int (proc get link) (struct inode *, struct dentry **, struct vfsmount **); 
int (*proc read) (struct task struct *task, char *page); 

} op: 

struct file *file; 


wre 


Oo AND oS w 


e 


结构 中 的 指针 task 在 proc. pid make inode( ) 中 设置 成 指向 inode 结构 所 代表 进程 的 task, struct Zi 
构 。 

对 于 节点 “cwd”， 要 特别 加 以 设置 的 内 容 有 两 项 。 第 一 是 将 inode 结构 中 的 指针 i op 设置 成 指向 
proc, pid. link inode operations 数据 结构 ;第 二 是 将 上 述 proc_inode_into 结构 中 的 函数 指针 proc. get link 
指向 proc_cwd_link( )。 此 外 ， 就 没有 什么 特殊 之 处 了 。 数 据 结 构 proc_pid_link_inode_operations 定 尺 于 
fs/proc/base.c 中 : 


472 static struct inode operations proc pid link inode operations = { 


473 readiink: | proc pid readlink, 
474 follow link: proc pid follow link 
475 }; 


从 proc_base_lookup( ) 经 由 real lookup( ) 返 回 色 path. walk( RY, nameidata 结构 中 的 指针 dentry 已 
经 指向 了 这 个 特定 “cwd” 节 点 的 dentry 结构 。 但 是 接着 同样 要 受到 对 其 inode 结构 中 的 i_op 指针 以 及 
相应 inode_operations 结构 中 的 指针 follow link 的 检验 ， 看 path_walk( ) 中 的 相关 代 公 (fs/mamei.e): 


567 inode = dentry->d_inode; 

568 if (Clookup_fiags & LOOKUP_FOLLOW) 

569 && inode && inode->i_op && inode >i op->follow link) | 
570 err = do follow link(dentry, nd); 


读者 刚才 已 经 看 人 到， 这 个 inode 结构 的 指针 follow link JE 0, 3£ AFR proc. ewd, link( )， 其 代码 
在 fs/proc/base.c 中 : 


85 static int proc cwd link(struct inode *inode, struct dentry ***dentry, 
struct vfsmount **mnt) 

86 f 

87 struct fs struct *fs; 

88 int result = -ENOENT; 

89 task lock(inode-^u. proc, i. task) ; 

90 fs = inode-?u. proc i. task fs; 

91 if (fs) 

92 atomic inc (&fs—>count) ; 
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93 task_unlock(inode->u, proc i. task); 
94 if (fs) | 

95 read lock (&fs-»lock); 

96 *mnt = mntget(fs-^pwdmnt); 
97 *dentry = dget (fs—>pwd) ; 
98 read_unlock (&fs—>lock) ; 

99 result = 0; 

100 put_fs_struct (fs) ; 

101 } 

102 return result; 

103} 


如 前 所 述 , 节点 的 inode 中 的 union HE 个 proc_inode_info 结构 ,其 中 的 指针 task 指向 相应 进程 
的 task_struct 结构 ， 进 而 可 以 得 到 这 个 进程 的 fs_struct 结构 ， 而 这 个 数据 结构 中 的 指针 pwd 即 指向 该 
进程 的 “当前 工作 日 录 ” 的 dentry 结构 ， 同 时 指针 pwdmnt 指向 该 目录 所 在 设备 安装 时 的 vfsmount 结 
H WA, KEMBA dentry 和 mnt 都 是 双重 指针 ， 所 以 第 96 行 和 第 97 行 实 际 上 :改变 了 nameidata 
结构 中 的 dentry 和 mnt 两 个 指针 。 这样, 当 从 proc_ewd_link( ) 经 由 do. follow. link( ) 返 回 到 path_walk( ) 
中 时 ，nameidata 结构 中 的 指针 已 经 指向 最 终 的 月 标 ， 如 当前 进程 的 当前 工作 日 录 。 从 这 以 后 的 操作 就 
与 常规 的 文件 系统 完全 一 样 了 。 从 这 个 情景 可 以 看 出 ， 对 十 proc 文件 系统 由 的 一 些 路 径 ， 基 有 关 的 数 
据 结 构 以 及 这 些 数 据 结 构 之 间 的 连接 是 非常 动态 的 ,每 次 都 要 在 path_walk( ) 的 过 程 中 逐 层 地 临时 建立 ， 
而 不 像 在 常规 文件 系统 如 Ext2 中 那样 相对 静态 。 

通过 这 两 个 情景 ， 读 者 应 该 已 经 对 proc 文件 系统 的 文件 操作 有 了 基本 的 了 解 利 理解 ， 自 己 人 不妨 骨 
读 几 段 代 码 以 加 深 理 解 ， 我们 建议 读者 读 一 下 对 /proc/meminfo 和 /proc/self/maps 的 访问 ， 因 为 这 不 仅 可 
以 加 党 对 proc 文件 系统 的 理解 ， 还 可 以 帮助 巩固 对 存储 管理 的 理解 。 
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6.1 概述 


对 于 多 用 户 、 多 进程 的 操作 系统 来 说 ， 进 程 间 通 信 CPC) 是 一 项 非常 重要 、 甚 至 必 不 可 少 的 基本 
手段 和 设施 。 在 一 个 多 进程 操作 系统 所 提供 的 运行 环境 下 ， 可 以 通过 岗 种 不 同 的 途径 ， 或 首 说 采用 两 
种 不 同 的 策略 ， 来 建立 起 复杂 的 大 型 应 用 系统 。 一 种 途径 是 通过 一 个 孤立 的 、 人 型 的 、 复 杂 的 进程 提 
供 所 害 的 全 部 功能 ， 另 一 种 途径 则 是 通过 由 若干 互相 联系 的 、 小 型 的 、 相 对 简单 的 进程 所 构成 的 组 合 
来 提供 所 宕 的 功能 。 早 期 的 操作 系统 往往 倾向 于 前 者 ， 而 Unix 及 其 往生 的 各 种 系统 则 倾向 于 后 者 。 这 
种 基本 方法 和 策略 的 改变 正 是 Unix 操作 系统 在 程序 没 计 领域 中 引起 革命 性 转变 的 结果 。 相 比 之 下 , 后 
者 这 种 方法 具有 很 大 的 好 处 : 

e 首先 ， 这 种 途径 使 应 几 软 件 更 加 模块 化 ， 每 个 进程 所 执行 的 程序 可 以 分 别 地 设计 、 实 现 、 调 试 

和 维护 。 

e 共 次 ， 由 于 每 个 进程 部 有 其 独立 的 地 址 空间 ， 而 由 互 间 的 通信 则 通过 明确 定义 的 进程 间 通 信 手 
段 和 界面 来 完成 ， 因 而 使 得 各 个 进程 都 得 到 保护 ， 在 相当 程度 上 排除 了 互相 干扰 的 可 能 性 ， 从 
而 增加 了 系统 的 可 靠 性 和 稳定 性 。 

e 而 且 ， 这 种 途径 还 改善 了 系统 规模 的 可 扩充 性 。 例 如 ， 在 多 处 理 器 系统 中 ， 这 些 进 程 可 以 在 不 
同 的 处 惠 器 上 运行 。 推 而 广 之 ， 这 些 进程 还 可 以 在 多 台 计 算 机 上 运行 ， 并 H 这 些 计算 机 并 不 非 
得 是 在 同一 地 成 ， 从 而 形成 “分 布 式 处 理 ” 的 概念 。 

e 最 后 ， 就 像 用 7 个 音符 可 以 组 合 出 无 数 动听 的 旋律 一 样 ， 用 专 干 可 执行 程序 也 可 以 灵活 地 搭建 
出 很 复杂 、 功 能 很 强 的 新 应 用 。 从 这 个 角度 来 看 ， 这 种 途径 既 促进 了 软件 的 模块 化 ， 也 提高 了 
软件 的 “ 复 用 性 ”。 

当然 ， 取 得 这 些 好 处 也 是 有 代价 的 ， 这 种 途 行 也 有 缺点 。 首 先 ， 从 全 局 来 看 ， 这 种 途 税 此 占用 更 
多 的 资源 ， 并 且 增 加 了 CPU 这 行 时 的 系统 开销 ， 使 得 总 体 上 的 运行 效率 可 能 会 有 所 上 下降。 其 次 ， 由 于 
每 个 进程 都 独立 地 接 党 调度 ， 使 得 进程 运行 的 时 序 在 某 些 情况 下 成 为 问题 ， 需 要 通过 一 些 特殊 的 进程 
间 通 信 手 段 才 能 保持 同步 。 最 后 ， 这 各 他 从 要 求 操作 系统 提供 充分 的 进程 问 通信 的 于 段 和 设施 。 但 是 ， 
这 些 部 只 是 前 进 道路 上 所 直到 的 问题 。 相 比 之 下 这 种 途径 的 优点 远 远 超过 其 缺点 ， 而 且 随 着 硬件 技 
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经 不 现实 了 。 

由 此 可 见 ， 进 程 间 通 信 在 现代 操作 系统 中 起 着 全 关 重 要 的 作用 。 串 以 这 样 说 ， 没 有 Unix 的 进程 间 
通信 手段 就 不 会 有 所 谓 “Unix ARE", HI Unix 独特 的 运行 坏 境 和 程序 设计 环境 。 从 另 AMAER A 
同 任何 一 种 新 技术 的 出 现 一 样 ， : 卫 人 们 认识 到 上 述 途 径 的 优越 性 及 其 对 进程 间 通 信 手 段 的 需求 ， 这 
些 手段 就 一 定 会 应 运 而 生 。 

IBA, Unix (从 而 Linux) 向 应 用 软件 提供 一 些 什 么 样 的 进程 间 道 信 手 段 呢 ? 这 里 也 有 个 发 展 过 程 。 
早期 的 Unix 所 供 了 以 下 一 些 手段 : 

e 管道 (Pipe)。 父 进程 与 子 进程 之 问 ， 或 者 两 个 兄弟 进程 之 间 ， 可 以 通过 系统 调用 建立 起 E 

向 的 通信 管道 。 但 是 ， 这 种 管道 只 能 由 父 进 程 来 建立 ， 所 以 对 于 子 进 程 来 说 是 静态 的 ， 与 生 俱 
来 的 。 管 道 两 端的 进程 各 自 都 将 该 符 道 视 作 一 个 文件 。 一 个 进程 往 管道 中 写 的 内 容 由 另 一 个 进 
程 从 管道 中 读 了 到 ， 通 过 管道 传递 的 内 容 遵 循 “ 先 入 先 出 ”FIFO) 的 规则 。 每 个 管道 帮 是 单 向 
CA), Fe BE XM Ih GE ABN op Se A E E, 

e (i; (Signal). RA BATA 4 章 中 看 到 过 信号 的 运用 。 严 格 说 来 ，signal 这 种 手段 并 不 是 去 
为 进程 间 通 信 而 设置 的 ， 它 也 用 于 内 核 与 进程 之 间 的 通信 《不 过 内 核 只 能 向 进程 发 送信 号 ， 而 
不 能 接收 信和 号?。 一 般 来 说 ，signal 是 对 “中 断 ” 这 种 概念 在 软件 层次 上 的 模拟 〈 所 以 亦 称 “ 软 
中 断 ”)， 其 中 信和 号 的 发 送 者 相当 于 中 断 源 ， 而 接收 者 则 相当 于 处 理 器 ， 所 以 必须 是 个 进程 ， 
就 像 在 多 处 理 器 系统 中 … 个 处 理 器 通常 都 能 向 另 一 -个 处 理 器 发 出 中 断 请求 “ 样 ， 一 个 进程 也 可 
以 向 其 他 进程 发 出 信号 ， 此 时 信号 就 成 了 一 种 进程 问 通信 的 于 段 。 

e 跟踪 (Trace). :个 进程 可 以 通过 系统 调用 ptrace, ) 读 / 写 其 了 进程 地 址 空间 中 的 内 容 ， 从 而 达 
到 跟踪 子 进程 执行 的 目的 。 

这 几 项 进程 间 道 信 手 段 都 具 能 用 十 父 进程 与 子 进程 之 间 ， 或 者 鸯 个 兄弟 进程 之 问 。 信 号 的 使 用 虽 
然 首 未 限制 在 父 了 进程 之 问 ， 但 发 送信 号 时 需要 用 到 对 方 的 pid, 而 一 般 只 有 父子 进程 之 间 才 知道 对 方 
的 pid， 所 以 实际 上 还 是 只 能 用 于 父子 进程 之 间 。 另 “方面 ， 对 才子 进程 来 说 管道 机 制 趾 静态 的 ， 跟 踪 
则 是 单 向 的 。 在 实际 使 用 中 ， 常 常 需要 人 在 并 非 这 些 “ 近 亲 ” 的 进程 之 间 动 态 地 建立 通信 管道 ， 所 以 后 
来 又 增设 了 一 种 新 的 管道 ; 

© 命名 管道 (named pipe)。 命 名 管道 以 FIFO 文件 的 形式 出 现在 文件 系统 中 ， 所 以 任何 进程 都 吕 

以 通过 使 用 其 文件 名 来 “打开 ”该 管道 ， 然 后 进行 读 写 。 这 样 ， 管 道 的 使 用 就 不 再 局 限于 “ 近 
亲 ” 之 间 了 。 从 这 个 意义 上 说 ， 命 名 管道 是 管道 的 推广 。 


在 AT&T 的 Unix 系统 V 中， 证 鉴 为 了 更 好 地 支持 商业 应 用 中 的 “事务 处 理 ” 义 增加 了 三 种 进程 
间 通 信 手 段 ， 常 常 合 在 起 称 作 “System V IPC”: 

e 报 文 (Message〉 队 列 。 一 个 进程 趾 以 通过 系统 调用 设立 一 个 报 文 队列 ， 然 后 任何 进程 者 可 以 
通过 系统 调用 向 这 个 队列 发 送 “ 消 以 ”或 从 队列 接收 “消息 ”， 从 而 以 进程 间 “ 报 文 传递 ” 
(Message Passing) 的 形式 实现 通信 。 

e 共享 内 存 。 一 个 进程 可 以 通过 系统 调用 设立 一 片 共享 内 存 区 ， 然 后 其 他 进程 就 可 以 通过 系统 调 
用 将 该 存储 区 映射 到 其 败 户 地 址 空间 ! 中 。 此后, 就 可 以 像 正 常 的 内 存 访问 “ 样 读 / 写 该 共享 区 间 
了 。 共 享 内 存 是 “种 快速 而 有 效 的 进程 加 通讯 于 段 ， 但 足 并 不 像 其 他 一 些 手段 那样 ， 串 以 在 一 
电 写 入 后 就 唤醒 止 在 睡眠 中 :等待 读 取 的 进程 ， 所 以 常常 要 与 其 他 手段 配合 使 用 。 
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€ 信号 量 (semaphore)。 第 4 章 中 讲 过 内 核 中 使 用 的 信和 号 量 机 制 ， 而 系统 V 进程 问 通 信 于 段 中 的 
信号 量 则 将 这 种 机 制 推 六 到 了 用 户 空间 。 


5j AT&T 对 Unix 点 有 进程 问 通信 于 段 的 扩充 与 增强 相 平行 ， 在 BSD Unix 中 也 对 此 作 了 重要 的 扩 
78: 
€ F (Socket). MiB LISSA HEU. Socket 与 命名 管道 是 很 相似 的 ， 但 其 重 此 之 处 在 于 Socket 
不 仅 可 以 用 来 实现 同一 台 计 算 机 上 的 进程 间 通 信 , 还 可 以 用 米 实现 分 布 十 不 同 计算 机 中 的 进程 
通过 网 络 进行 的 通信 。 这 样 ， 就 提供 了 一 种 统 的 、 更 为 ， 般 的 进程 问 通信 模式 。 如 果 说 “ 命 
名 管道 ”把 “管道 ”这 种 原 米 只 适用 近亲 的 手段 推广 到 了 同一 台 计 算 机 中 的 任意 进程 之 间 ， 则 
Socket 又 进 “ 步 将 其 推广 至 计算 机 网 络 中 的 任意 进程 之 间 。 从 这 个 意义 上 讲 ，Socket 成 了 最 一 
般 、 最 普遍 适用 的 进程 间 通 信 手 段 和 机 制 。 事 实 上， 现在 有 些 Unix 系统 中 的 管道 机 制 也 反 过 
来 改 成 通过 Socket 来 实现 。 
上 人 齐 的 这 些 进程 间 通 信 机 制 都 由 Linux “兼容 并 蓄 ” 继 承 了 下 来 。 事 实 上 这 些 机 制 大 者 是 在 “可 移 
植 操作 系统 接口 ”标准 POSIX.1 中 规定 要 具备 的 。 此 外 , 在 Unix 发 展 过 程 中 也 出 现 过 一 些 其 他 的 进程 
间 道 信 机 制 ， 但 并 没有 为 Linux 所 采用 ， 我 们 就 不 作 介绍 了 。 
由 于 篇 幅 的 原因 ， 我 们 把 进程 间 通 信 分 成 第 6 章 、 第 7 章 商 章 。 本 章 主要 介绍 早期 Unix 的 通信 机 
制 以 及 System V IPC; F—3€ “$T Socket 的 进程 间 通 信 ” 则 集中 介绍 插口 (Socket). 


6.2 管道 和 系统 调用 pipe() 


管道 机 制 的 主体 起 系统 调用 pipe). 但 是 由 pipe ) 所 建立 的 管道 的 其 端 都 在 同 进程 中 , 所 以 必须 
在 fork( ) 的 配合 下 ， 才 能 在 父子 进程 之 间或 两 个 子 进程 之 问 建立 起 进程 间 的 通信 管道 。 

我 们 先 来 看 系统 调用 pipe( )。 

由 二 管道 两 端 都 是 以 〈 已 打开 ) 文件 的 形式 出 现在 相 关 的 进程 中 ， 在 具体 实现 上 也 是 作为 莫名 文 
件 来 实现 的 ， 所 以 pipet ) 的 代码 与 文件 系统 密切 相关 。 

先 看 系统 调用 的 入 LH sys pipe(), HX TE arch/i386/kernel/sys_i386.c 中 。 


29 /* 

26 * sys pipe( ) is the normal C calling standard for creating 
27 * a pipe. Tt's not the way Unix traditionally does this, though. 
28 */ 

29 asmlinkage int sys pipe(unsigned long * fildes) 

30 { 

31 int fd[2]; 

32 int error; 

33 

34 error - do pipe(fd); 

35 if (lerror) ( 

36 if (copy to user(fildes, fd, 2x*sizeof(int))) 

37 error = -EFAULT; 

38 } 

39 return error; 
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40 } 


这 里 出 do_pipe( ) 建 立 起 一 个 管道 ， 遂 过 作为 调用 参数 的 数组 fap ] 返 回 代 表 着 答 道 是 端的 两 个 己 打 
开 文件 号 ， 骨 由 copy_to_user( ) 将 数组 fd[ ] 复 制 到 用 户 空间 。 显 然 ，do_pipe( ) 是 这 个 系统 调用 的 主体 ， 
其 代码 在 fs/pipe.c 中 ， 我 们 分 段 阅 读 : 


[sys_pipe( ) > do. pipe( )] 


509 int do pipe(int *fd) 


510 { 

511 struct qstr this; 

512 char name[32]; 

513 struct dentry *dentry; 
514 struct inode * inode; 

515 struct file *fl, *f2; 

516 int error; 

517 int i,j; 

518 

519 error = -ENFILE; 

520 fl = get empty_filp( ); 
521 if (!f1) 

522 goto no_files; 

523 

524 f2 = get empty filp( ); 
525 if (!f2) 

526 goto close f!; 

521 

528 inode = get pipe inode( ); 
529 if (tinode) 

530 goto close f12; 

531 

532 error - get unused fd( ); 
533 if (error < 0) 

534 goto close f12 inode; 
535 i = error; 

536 

537 error = get unused fd( ); 
538 if (error < 0) 

539 goto close f12 inode i; 
540 j - error; 

541 


在 “文件 系统 ”一 章 中 读者 已 经 看 到 ， 进 程 对 每 个 已 打开 文件 的 操作 都 是 通过 一 个 file 数据 结构 
进行 的 ， 只 有 存 由 同一 进程 按 相 同 模式 重复 打开 同一 文件 时 才 共 享 同 - -个 数据 结构 。 一 个 管道 实际 上 
就 是 - :个 无 形 (只 存在 于 内 存 中 〉 的 文件 ， 对 这 个 文件 的 操作 要 道 过 两 个 已 打开 文件 进行 ， 分 别 代表 
该 管道 的 黄 端 。 虽 然 最 初创 建 时 ”个 管道 的 两 端 都 在 同一 进程 中 ， 但 是 在 实际 使 用 时 却 总 是 分 别 在 两 
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个 不 同 的 进程 〈 通 常 是 父 、 子 进程 ) 中 ， 所 以 ， 管 道 的 两 端 不 能 共享 同一 个 file 数据 结构 ， 而 此 为 之 
各 分 配 一 个 file 数据 结构 。 代 码 中 520 行 和 524 行 调用 get. empty. filp( ) 的 日 的 就 是 为 管道 的 两 端 fl 和 
f2 各 分 配 一 个 file 数据 结构 。get_empty_filp( ) 的 代码 以 及 file 结构 的 定义 可 参看 “文件 系统 ”一 章 ， 这 
里 不 再 重复 。 只 是 要 指出 ， 这 个 数据 结构 只 是 代表 着 一 个 特定 进程 对 某 个 文件 操作 的 现状 ， 而 并 不 代 
表 这 个 文件 本 喘 的 状态 。 例 如 ， 结 构 中 的 成 分 f pos 就 表示 该 进程 在 此 文件 中 即将 进行 读 / 写 的 起 始 位 
置 ， 当 不 同 的 进程 分 别 打开 同一 文件 进行 读 写 时 ， 最 初 此 位 置 都 是 0， 以 后 就 可 能 各 不 相同 了 。 

同时 ,每 个 文件 都 是 由 一 个 inode 数据 结构 代表 的 。 虽然 一 个 管道 实际 上 是 一 个 无 形 的 文件 , Eth 
得 要 有 一 个 inode 数据 结构 。 由 于 这 个 文件 在 创建 答 道 之 前 并 不 存在 , 所 以 需要 在 创建 管道 时 临时 创建 
起 一 个 inode 结构 ， 这 就 是 代码 中 第 528 行 调 用 get pipe inode( ) 的 目的 。 实 际 上 ， 创 建 一 个 管道 的 过 
程 主要 就 是 创建 这 么 一 个 文件 的 过 程 。 函 数 get pipe inode( ) 的 代码 在 文件 (pipe.c》 中 : 


[sys. pipe( ) > do. pipe( ) > get. pipe inode( )] 


476 static struct inode * get_pipe_inode (void) 


477 { 

478 struct inode *inode = get empty inode( ); 

479 

480 if (!inode) 

481 goto fail inode; 

482 

483 if (!pipe_new(inode) ) 

484 goto fail iput; 

485 PIPE READERS(C*inode) = PIPE WRITERS(*inode) = 1; 
486 inode->i_fop = &rdwr pipe fops; 

487 inode-^i sb = pipe mnt-?mnt sb; 

488 

489 /* 

490 * Mark the inode dirty from the very beginning, 
491 * that way it will never be moved to the dirty 
492 * list because "mark inode dirty( )" will think 
493 * that it already is on the dirty list. 

494 */ 

495 inode->i_state = I DIRTY; 

496 inode->i_mode = S_IFIFO | S IRUSR 1 S IWUSR; 
497 inode-^i uid = current—>fsuid; 

498 inode->i gid = current—>fsgid; 

499 inode->i_atime = inode->i mtime = inode->i_ctime = CURRENT TIME; 
500 inode->i blksize = PAGE SIZE; 

501 return inode; 

502 

503 fail iput: 

504 iput (inode) ; 

505 fail_inode: 

506 return NULL; 

507 } 
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先 在 478 行 分 配 一 个 空闲 的 inode 数据 结构 。 这 是 一 个 比较 复杂 的 数据 结构 , 我 们 已 在 “文件 系统 ” 
一 章 中 加 以 详细 介绍 。 对 于 管道 的 创建 和 使 用 , 我 们 关心 的 只 是 其 中 少数 几 个 成 分 。 第 一 个 成 分 i_pipe 
是 指向 一 个 pipe_inode_info 数据 结构 的 指针 ， 有 只 有 当 由 -个 inode 数据 结构 所 代表 的 文件 是 用 来 实现 
一 个 管道 的 时 候 才 使 用 它 ， 否 则 就 把 这 个 指针 设 为 NULL。pipe_inode_info 的 数据 结构 是 在 


Linux 内 核 源 代码 情景 分 析 上册) 


include/linux/pipe fs i.h 中 定义 的 ; 


struct pipe inode info | 
wait queue head t wait; 
char *base; 
unsigned int 
unsigned int 


unsigned int 
unsigned int 
unsigned int 
unsigned int 
unsigned int 


ys 


start; 

readers; 
writers; 

waiting readers; 
waiting writers; 
r counter; 

w counter; 


同一 文件 中 还 定义 了 一 些 宏 操作 ， 下 面 我 们 就 要 用 到 这 些 宏 定 义 。 


18 
19 
20 
21 
22 
23 
24 
25 
26 
2T 
28 
29 
30 
3l 
32 
33 
34 
35 
36 
37 
38 


前 面 get pipe inode( ) 的 代码 中 就 引用 了 PIPE READERS 4 PIPE WRITERS. 4At T inode 数据 


/* Differs from PIPE BUF in that PIPE SIZE is the length of the actual 
memory allocation, whereas PIPE BUF makes atomicity guarantees. */ 
PIPE SIZE PAGE_SIZE 


#define 


#define 
#define 
#define 
#define 
Hdefine 
Hdefine 
define 
#define 
#define 
#define 
#define 


#define 
"define 
üdefine 
#define 
define 
&Rdefine 


PIPE SEM(inode) (&(inode). i sem) 

PIPE WAIT (inode) (& (inode). i pipe wait) 

PTPE BASE (inode) ((inode). i_pipe->base) 

PIPE START (inode) | ((inode). i pipe—^start) 

PTPR_LEN (inode) ((inode). i size) 

PIPR READERS(inode) ((inode). i pipe-^readers) 

PIPE WRITERS(inode) ((inode). i_pipe->writers) 

PIPE_WATTING READERS (inode) ((inode). i_pipe->waiting readers) 
PIPE WAITING WRITERS (inode) ((inode).i pipe— waiting writers) 
PIPE RCOUNTER (inode) ( (inode). i pipe—r. counter) 

PIPE WCOUNTER (inode) ((inode). i pipe-^w counter) 


PIPE_EMPTY (inode) (PIPE LEN(inode) == 0) 
PIPE_FULL (inode) (PIPE LEN(inode) == PIPE_SIZE) 
PIPE_FREE (inode) (PIPE STZE - PIPE LEN (inode) ) 


PIPE END(inode) ((PIPE_START (inode) + PIPE LEN(inode)) & (PIPE SIZE-1)) 


PIPE MAX RCHUNK (inode)  (PTPR SIZE - PIPE START (inode) ) 
PIPE MAX WCHUNK(inode) (PIPE_STZE - PIPE END(inode)) 


结构 以 后 ，483 行 又 通过 pipe new( ) 分 配 所 需 的 缓冲 区 。 这 个 函数 的 代码 在 fs/pipe.c H: 
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[sys_pipe( ) > do. pipe( ) > get pipe inode( ) > pipe. new( )] 


442 struct inode* pipe new(struct inode* inode) 

443 { 

444 unsigned long page; 

445 

446 page = | get free page(GFP USER); 

447 if (!page) 

448 return NULL; 

449 

450 inode->i_pipe = kmalloc(sizcof (struct pipe inode info), GFP KERNEL): 
451 if (!inode->i_pipe) 

452 goto fail_page; 

453 

454 init_waitqueue_head(PIPE_WAIT (*inode) ) ; 

455 PIPE_BASE(*inode) = (char*) page; 

456 PIPE START(*inode) = PIPE LEN(*inode) = 0; 

457 PIPE READERS(*inode) = PIPE WRITERSC*inode) = 0; 
458 PIPE WAITING READERS(*inode) = PIPE WAITING WRITERS (*inode) = 0; 
459 PIPE RCOUNTER Ckinode) = PIPE WCOUNTER(*inode) = 1; 
460 

461 return inode; 

462 fail page: 

463 free_page (page) ; 

464 return NULL; 

465  ] 


这 里 先 分 配 一 个 内 存 页 面 用 作 管道 的 缓冲 区 ， 肯 分 配 一 个 缓冲 区 用 作 pipe. inode info 数据 结构 。 
前 向 讲 过 ， 用 来 实现 管道 的 文件 是 无 形 的 ， 它 并 不 出 现在 磁盘 或 其 他 的 文件 系统 存储 介质 上， 而 内 存 
在 于 内 存 空间 ， 其 他 进程 也 无 从 “打开 ”或 访问 这 个 文件 。 所 以 ， 这 个 所 雍 文 件 实质 上 只 是 -个 用 作 
组 六 区 的 内 存 员 惫 ， 只 起 把 它 纳入 了 文件 系统 的 机 制 ， 借 用 了 文件 系统 的 各 种 数据 结构 和 操作 加 以 管 
理 而 已 。 

在 前 一 章 中 已 经 讲 过 ，inode 数据 结构 中 有 个 重要 的 成 分 i_fop， 是 指向 一 个 file operations 数据 结 
构 的 指针 。 在 这 个 数据 结构 中 给 出 了 用 于 该 文件 的 每 种 操作 的 函数 指针 。 对 于 管道 《 见 上 面 
get. pipe. inode ( ) 中 的 486 行 )， 这 个 数据 结构 是 rdwr_pipe_fops， 也 是 在 pipe.c 中 定义 的 : 


432 struct file operations rdwr pipe fops = { 


433 llseek: pipe lseek, 

434 read: pipe, read, 

435 write: pipe writo, 

436 poll: pipe. poll, 

437 ioctl: pipe. ioctl, 

438 ^" open: pipe rdwr open, 
439 release: pipe rdwr release 
440 }; 
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结合 上 列 pipe_fs_i.h 中 的 宏 定 义 ， 读 者 应 该 不 难 理解 get_pipe_inode( ) 中 自分 配 了 inode 结构 以 后 
的 一 些 初始 化 操作 ,我 们 就 不 多 讲 了 ,值得 注意 的 是 ,代码 中 并 没有 设 电 inode 结构 中 的 inode_operations 
结构 指针 i_op， 所 以 该 指针 为 0。 可 见 ， 对 十 用 来 实现 管道 的 inode 并 不 允许 对 这 里 的 inode 进行 常规 
BE, KEH inode 代表 着 “有形” 的 文件 时 才 使 用 。 

从 get_pipe_inode( ) 返 回 到 do_pipe( ) 中 时 ， 必 须 的 数据 结构 都 已 经 齐全 了 。 但 是 , 还 要 为 代表 着 管 
道 两 端的 两 个 已 打开 文件 分 别 分 配 “ 打 开 文件 号 ”这 是 通过 调用 get_unusal_fd( ) 完 成 的 。 

让 我 们 在 do pipe( ) 中 继续 往 下 看 (pipe.c): 


[sys. pipe( ) > do_pipe( )] 


542 error = -ENOMEM; 

543 sprintf(name, "[*]u]^, inode->i_ino) ; 

544 this.name - name; 

545 this. len = strlen(name); 

546 this. hash = inode->i_ino; /* will go */ 
547 dentry = d alloc(pipe mni-^mnt sb-^s root, &this); 
548 if (!dentry) 

549 goto close f12 inode i j; 

550 dentry-?d op = &pipefs dentry operations; 
551 d add(dentry, inode); 

552 fl->f vfsmnt = f2-^f vfsmnt = mntget (mntget (pipe_mnt)) ; 
553 fl->f_dentry = f2->f_dentry = dget (dentry) ; 
554 

555 /* read file */ 

556 fl->f_pos = f2->f_pos = 0; 

557 fl-^f flags = O RDONLY; 

558 fl-^f op = &read pipe fops; 

559 fl-^f mode - 1; 

560 fl—f version = 0; 

561 

562 /* write file */ 

563 f2—f flags = O WRONLY; 

564 f2->f op = &write pipe fops; 

565 f2->f mode = 2; 

566 f2-»f version = 0; 

567 

568 fd install(i, fl); 

569 fd insta]l(j, f2); 

570 td[0] = i; 

571 fd[ = j; 

572 return 0; 


在 正常 的 情况 下 ， 每 个 文件 都 至 少 有 一 个 “目录 项 ”， 代 表 这 个 文件 的 一 个 路 径 名 ;而 等 个 日 录 项 

则 只 描述 一 个 文件 ,在 dentry 数据 结构 中 有 个 指针 指向 相应 的 inode 结构 。 因 此 ， 在 file 数据 结构 中 有 

个 指针 f_dentry 指向 所 打开 文件 的 日 录 项 dentry 数据 结构 , 这 样 ， 从 file 结构 开始 就 可 以 路 通 到 文件 

的 inode 结构 。 对 于 管道 来 说 ， 由 村 文件 是 无 形 的 ， 本 来 并 不 非得 有 个 日 录 项 不 可 。 可 是 ， 在 file 数据 
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结构 中 并 没有 直接 指向 相应 inode 结构 的 指针 ， 一 定 要 经 过 个 目录 项 中 转 一 下 才 行 。 而 inode 结构 久 
是 各 种 文件 操作 的 枢纽 ,这 么 一 来 ,对 十 管道 就 也 得 有 一 个 目录 项 了 。 所 以 代码 中 的 547 行 调用 d_alloc( ) 
分 配 个 目录 项 ， 然 后 通过 d_add( ) 使 已 经 分 配 的 inode 结构 与 这 个 目录 项 互相 挂 上 钩 ， 并 且 让 两 个 已 
打开 文件 结构 中 的 f_dentry 指针 部 指向 这 个 目录 项 。 

对 目录 项 的 操作 是 通过 一 个 dentry_operations 数据 结构 定义 的 。 其 体 到 管道 文件 的 日 录 项 , 这 个 数 
据 结 构 起 pipefs_dentry_operations， 这 是 在 550 行 中 设置 的 ， 定 义 于 fs/pipe.c P: 


472 static struct dentry operations pipefs dentry operations = { 
473 d delete: pipefs delete dentry, 
474 is 


斌 是 说 ， 对 十 管道 的 日 录 需 只 人 允许. 种 操作 ， 那 就 是 pipefs_delete_dentry( )， 即 把 它 删 除 。 

对 于 管道 的 两 端 来 说 ， 管 道 是 单 向 的 ， 所 以 其 f1 一 端 设 置 成 “只 读 ”(O_RDONLY )， 而 另 - 端 则 
设置 成 “只 写 ”(O_WRONLY)。 同时 , 两 端的 文件 操作 也 分 别 设置 成 read_pipe_fops 和 write_pipe_fops， 
那 都 是 在 pipe.c 中 定义 的 : 


412 struct file operations read pipe fops = { 


413 llseek: pipe lseek, 

414 read: pipe read, 

415 write: bad pipe w, 

416 poll: pipe poll, 

417 ioctl: pipe ioctl, 

418 open: pipe read open, 

419 release: pipe read release, 
420}; 

421 

422 struct file operations write pipe fops = { 
423 llseek: pipe lseek, 

424 read: bad pipe r, 

425 write: pipe write, 

426 poll: pipe poll, 

427 ioctl: pipe_ioctl, 

428 open: pipe_write_open, 
A29 release: pipe write release, 
430 kh 


比较 “下 ， 就 可 以 发 现 ， 在 read pipe fops 中 的 写 操 作 函 数 为 bad_pipe_w( )， 而 在 write, pipe. fops 
中 的 读 操 作 函 数 为 bad_pipe_r( )， 分 别 用 米 返 同一 个 出 错 代 码 。 读 者 可 能 会 问 ， 前 面 在 管道 的 inode 数 
据 结构 中 将 指针 fop 设置 成 指向 rdwr_pipe_fops， 那 显然 是 双向 的 ， 这 里 不 是 有 矛盾 吗 ? 其 实 不 然 。 
对 十 代表 着 管道 两 端的 两 个 已 打开 文件 来 说 ， 一 个 只 能 写 而 另 一 个 只 能 读 ， 这 是 事情 的 一 个 方面 。 可 
是 ， 另 一 方面 ， 这 山 个 逻辑 上 的 已 打开 文件 都 遂 回 同一 个 inode、 同 一 个 物理 上 存在 的 “文件 ”， 即 用 
作 管 道 的 缓冲 区 ; 显然 这 个 缓冲 区 应 该 既 支 持 写 又 支持 读 ， 这 才能 使 数据 流通 。 读 者 在 “文件 系统 ” 
一 章 中 看 到 ,file 结构 中 的 指针 fop 一 般 都 来 自 inode 结构 中 的 指针 i_fop, 都 指向 同一 个 file operations 
结构 。 而 这 里 , 对 于 管道 这 么 一 种 特殊 的 文件 , 则 使 管道 两 端的 file 结构 各 站 指向 不 同 的 file_operations 
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结构 ， 以 此 来 确保 - 端 只 能 读 而 另 一 端 只 能 写 。 
管道 是 一 种 特殊 的 文件 ， 它 并 不 属于 某 种 特定 的 义 件 系统 (如 Ext2)， 而 是 自己 构成 一 种 独立 的 文 
件 系 统 ， 也 有 自身 的 数据 结构 pipe fs type (A fs/pipe.c): 


632 static DECLARE FSTYPE(pipe fs type, "pipefs', pipefs read super, 
633 FS NOMOUNT|FS SINGLE) ; 


系统 在 初始 化 时 通过 kern_mount() 安 装 这 个 特殊 的 文件 系统 ， 并 让 - RET pipe mnt 指向 安装 时 
的 vfsmount 数据 结构 : 


467 static struct vfsmount *pipe mnt; 


现在 ， 代 表 着 管道 两 端的 两 个 文件 既然 都 属于 这 个 文件 系统 ， 它 们 各 自 的 file 结构 中 的 指针 
f vfsmnt 就 要 指向 安装 该 文件 系统 的 vfsmount 数据 结构 ， 而 这 个 数据 结构 也 就 多 了 两 个 使 用 者 ， 所 以 
蓝调 用 mntget( ) 两 次 〈 见 552 行 )， 使 其 使 用 计数 加 2. 

最 后 ，do_pipe( ) 中 的 568 行 和 569 行 把 两 个 己 打 开 文件 结构 跟 分 配 得 的 打开 文件 号 挂 起 钩 来 〈 注 
意 , 打开 文件 号 只 在 个 进程 的 范围 内 有 效 ); 并 且 将 两 个 打开 文件 号 填 入 数组 fap ] 中 ,使 得 fao e 
道 读 出 端的 打开 文件 号 ， 而 fd[1| 为 写 入 端的 打开 文件 号 。 这 个 数 纠 随后 在 sys_pipe( ) 中 被 复制 到 当前 
进程 的 用 户 空 间 。 

显然 ， 管 道 的 两 端 在 创建 之 初 都 在 同 ， 进 程 中 ， 这 样 是 起 不 到 进程 间 通 信 的 作用 的 。 那 么 ， 怎 样 
才能 将 管道 用 于 进程 间 通 信 呢 ?下 而 就 是 个 典型 的 过 程 。 

(D 进程 A 创建 一 个 管道 , 创建 完成 时 代表 管道 两 端的 两 个 已 打开 文件 都 在 进程 A 中 。 示意 网 如 

图 6.1。 


(缓冲 区 ) 





进程 打开 文件 衣 


6.1 父 进程 创建 管道 


(2) 进程 A 通过 fork( ) 创 建 出 进程 B， 在 fork( ) 的 过 程 中 进程 A 的 打开 文件 表 按 原样 复制 到 进 
程 B 中 。 见 图 6.2。 
Q) 进程 A 关闭 管道 的 读 端 ， 而 进程 B 关闭 管道 的 气 端 。 于 是 ， 管 道 的 写 端 在 进程 A dl og 
在 进程 BB 中 ， 成 为 父子 进程 之 间 的 通信 管道 ， 见 图 6.3. 
(4) 进程 A 又 通过 fork( ) 创 建 进程 C， 然 后 关闭 其 管道 写 端 币 与 管道 脱离 关系 ， 使 得 管道 的 写 端 
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在 进程 C 中 而 读 端 企 进程 B 中 ， 成 为 山 个 兄弟 进程 之 间 的 管道 ， 如 图 6.4。 
(5) 进程 C 和 进程 B 各 自 遂 过 exec( ) 执 行 各 自 的 日 标 程序 ， 并 道 过 管道 进行 单 向 通信 。 


如 果 考 虑 一 个 使 用 管道 的 shell 命令 行 : 
“Is -1 | wc -1" 
则 上面 的 进程 A 相当 十 shell, BEFE B 执行 “we -1”, MOER C 执行 “ls -1”。 不 过 ， 在 进程 C 
中 此 将 “标准 输出 通道 ”stdout 重 定向 到 管道 的 写 端 ， 而 在 进程 B 中 则 要 将 “标准 输入 通道 ”stdin Æ 
定向 到 管道 的 读 端 。 




















进程 A 
进程 打开 文件 表 进程 打开 文件 表 
图 6.2 父子 进程 共享 管道 
进程 A 进程 B 
写 端 
读 端 
管道 文件 
(缓冲 区 ) 
进程 打开 文件 表 进程 打开 文件 表 


图 6. 3 ”父子 进程 通过 管道 单 向 通讯 
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进程 A 进程 B 
管道 文件 
GRIFE) 
进程 打开 文件 表 进程 打开 文件 表 
进程 C 
进程 打开 文件 表 


图 6.4 兄弟 进程 通过 管道 单 向 通讯 
下 面 我 们 看 一 个 实例 : 
Hinclude <stdio. h> 


int main( ) 
{ 
int child B, child C; 
int pipefds[2]; /* pipefds[0] for read, pipefds[1] for write */ 
char *argsll ] = ("/bin/wc^, NULL); 
char *args2[ ] = ('/usr/bin/ls^, ”-1”, NULL}: 


/* process A */ 
pipe(pipefds); /* create a pipe */ 


if (!(child B = fork( ))) /* fork process B */ 
{ 


f**k* Process B seekk/ 
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close(pipefds[1]); /* close the write end */ 
/* redirect stdin */ 
close (0) ; 
dup2(pipefds[0], 0); 
close(pipefds[0]) ; 
/* exec the target */ 
execve("/usr/bin/we”, argsl, NULL); /* no return if success */ 
printf (“pid %d: I am back, something is wrong!\n”, getpid( )); 
} 
/* process A continues */ 
close (pipefds[0]); /* close the read end */ 
if (! (child C = fork( ))) /* fork process C */ 
{ 
f*kkk process C *ekk/ 
/* redirect stdout */ 
close(1); 
dup2(pipefds[1], 1); 
close(pipefds[1]); 
/* exec the target */ 
execve("/bin/ls^, args2, NULL): /* no return if success */ 
printf (pid %d: I am back, something is wrong!\n”, getpid( )); 
} 


/* process A continues */ 

close(pipefds[1]); /* close the write end */ 

wait4(child B, NULL, 0, NULL); /* wait for process B to finish */ 
printf (“Done! \n’) ; 


return 0; 


程序 中 调用 的 dup2( ) 古 -个 系统 调用 ， 它 将 一 个 已 打开 文件 的 file 结构 指针 复制 到 由 指定 的 打开 
文件 号 所 对 应 的 通道 。 在 进程 B 中 ， 先 把 打开 文件 号 0〈 即 标准 输入 ) ORBI REWER A h 
到 文件 号 0 所 对 应 的 通道 ， 这 就 完成 了 对 标准 输入 的 重 定向 。 但 是 原先 的 管道 读 端 既然 已 经 复制 就 没 
有 用 处 了 ， 所 以 也 将 其 关闭 。 进 程 C 的 重 定向 与 此 相似 ， 只 不 过 所 重 定向 的 是 标准 输出 。 除 此 之 外 ， 
就 与 前 面 所 述 的 过 程 完 全 一 样 了 。 

从 进程 问 通信 的 角度 来 说 ， 这 种 标准 输入 和 标准 输出 的 重 定向 并 非 必须 ， 直 接 使 用 管道 原先 的 写 
端 和 读 端 也 能 在 进程 之 向 传递 数据 。 但 是 ， 应 该 承认 这 种 将 标准 输入 /输出 重 定向 与 管道 结合 使 用 的 办 
法 是 非常 巧妙 的 ， 不 这 样 就 难以 达到 将 可 执行 程序 在 启动 执行 时 动态 地 加 以 组 合 的 灵活 性 。 另 “方面 ， 
一 旦 将 标准 输入 和 标准 输出 分 别 重 定向 到 管 道 的 读 端 和 写 端 以 后 ， 两 个 进程 就 都 像 对 普通 文件 一样 地 
读 / 写 。 事 实 上 ， 它 们 并 不 知道 白 己 在 读 / 写 的 到 底 是 - 个 文件 ， 一 个 设备 ， 还 是 一 个 管道 ? 

但 是 ， 我 们 知道 当 读 一 个 文件 到 达 末尾 的 时 候 会 碰 到 EOF， 从 而 知道 已 经 读 完了 ， 可 是 当 从 管道 
中 读 时 应 该 读 到 什么 时 候 为 下 呢 ? 下 面 读者 将 会 看 到 ， 向 管道 写 入 的 进程 在 完成 其 “使 命 ” 以 后 就 会 
关闭 管道 的 写 端 ， 一 旦 管道 没有 了 写 端 就 相当 于 到 达 了 文件 的 末尾 。 

从 管道 所 传递 数据 的 角度 看 ， 两 端的 两 个 进程 之 间 是 - -种 典型 的 生产 者 /消费 者 关系 。 一 旦 牛 产 者 
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停止 了 生产 并 关闭 了 管道 的 写 入 端 ， 消 费 者 就 没有 东西 可 消费 了 ， 这 时 候 就 到 了 文件 《管道 ) 的 末尾 。 
在 典型 的 情况 下 ， 牛 产 者 总 是 在 完成 了 使 命 ， 调 用 exit( ) 之 前 关闭 其 所 有 的 已 打开 文件 ， 包 括 管道 ,而 
消费 者 则 总 是 在 得 知已 经 到 达 了 输入 文件 末尾 时 才 调 用 exit( )， 所 以 一 般 总 是 生产 者 调用 exit OEN 
消费 者 调用 exit( ) 在 后 。 但 是 ， 在 特殊 的 条 件 下 ， 也 会 有 消费 者 exit( ) 企 前 的 情况 发 生 〔 例 如 消费 者 进 
程 发 生 了 非法 越界 访问 )， 而 使 得 答 道 的 读 端 关闭 在 前 。 和 在 这 种 情况 下 内 核 会 辐 生 产 者 进程 发 出 一 个 
SIGPIPE 信和 号， 表示 管道 已 经 “断裂 ”放生 产 者 进程 在 接 收 到 这 种 信号 时 通常 就 会 调用 exit( )。 

下 而 ,我 们 进一步 看 看 对 管道 的 关闭 以 及 读 、 写 操作 的 源 代码 ， 以 加 深 对 管道 机 制 的 了 解 和 理解 。 

先 看 管道 的 关闭 。 当 一 个 进程 通过 系统 调用 close( ) 关 闭 代 表 着 管道 一 端的 已 打开 文件 时 ， 在 内 核 
中 经 由 如 下 的 执行 路 线 而 到 达 fput( ): 

sys close() > fip.close() > fput() 

关于 这 条 执行 路 线 的 详情 可 参阅 “文件 系统 ”一 章 。 每 当 对 一 个 已 打开 文件 执行 “关闭 ”操作 时 ， 
在 fput( ) 中 将 相应 file 数据 结构 中 的 共享 计数 减 1。 如 果 减 1 以 后 该 共享 计数 变 成 了 0， 就 进而 通过 具 
体 文件 系统 提供 的 release 操作 ， 释 放 对 dentry 数据 结构 的 使 用 ， 并 释放 file 数据 结构 。 

在 最 初 打开 一 个 文件 时 ， 内 核 为 之 分 配 一 个 file 数据 结构 ， 并 将 共享 计数 设置 成 1。 那么 ， 在 什么 
情况 下 这 个 共享 计数 会 变 成 大 于 1， 从 而 使 得 在 一 次 调用 fput( ) 后 共享 计数 不 变 成 0 呢 ? 

第 一 种 情况 是 在 fork ) 一 个 进程 的 时 候 ， 读 者 在 第 4 章 已 经 看 到 过 在 do_fork( ) 中 划 调 用 一 个 函数 
copy files(): 里 面 有 个 for 循环 ， 对 所 有 已 打开 文件 的 file 结构 调用 get_file( ) 递 增 其 共享 计数 。 所 以 ， 
在 fork( ) 出 来 一 个 子 进程 以 后 ， 若 父 进程 先 关 闭 个 已 打开 文件 ， 便 只 会 使 其 共享 计 数 减 1， 而 并 不 会 
使 计数 到 达 0， 因 而 也 就 不 会 最 终 地 关闭 文件 。 

第 二 种 情况 是 通过 系统 调用 dup( ) 或 dup2( ) “复制 ”一 个 打开 文件 号 。 这 与 将 同一 个 文件 再 打开 
一 次 是 不 同 的 ， 它 只 是 使 一 个 出 经 存在 的 file 数据 结构 种 本 进程 的 男 一 个 打开 文件 号 建立 联系 而 已 。 
因此 ， 前 面 所 举 的 例子 中 将 标准 输入 重 定向 到 一 个 管道 时 ， 先 是 dup2( ) 然 后 close( )， 并 不 会 使 其 file 
结构 中 的 共享 计数 变 成 0。 

也 就 是 说 ， 只 有 在 一 个 file 结构 的 最 后 一 个 “用 户 ” 通 向 该 结构 的 最 后 -条 通路 也 被 关闭 时 , 才 
会 调用 具体 文件 系统 提供 的 release 操作 并 最 终 释放 file 数据 结构 。 

函数 fput( ) 所 处 理 的 对 象 是 与 所 关闭 的 文件 相 联 系 的 dentry 等 数据 结构 。 在 do. pipe ) 的 代码 中 ， 
我 们 已 经 看 到 管道 峡 端 的 文件 操作 结构 (file_operations 结构 ) 被 分 别 设置 成 read pipe fops 和 
write_pipe_fops 。 两 个 数据 结构 中 对 应 于 release 的 函数 指针 分 别 为 pipe_read_release 和 
pipe write release. PALA, TE fput( RH RERE R US FE TB IE PRÉCISE SHIT pipe, read. release( )8k 
pipe. write, release( )。 这 两 个 函数 都 串通 向 pipe release( ) 的 “中 转 站 ”， 或 者 说 是 pipe release( ) 的 “外 
kn”, 继续 沿 着 pipe.c 往 下 看 : 


[sys_close ( ) > filp_close( ) > fput( ) > pipe read. release( )] 


321 static int 
322 pipe read release(struct inode *inode, struct file *filp) 


323 1 

324 return pipe release(inode, 1, 0); 
325 .] 

326 


327 static int 
328 pipe write release(struct inode *inode, struct file *filp) 
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329 { 
330 return pipe release(inode, 0, 1); 
331 } 


其 主体 为 函数 pipe_release( )， 源 代码 在 pipe.c 中 。 
结合 这 两 个 函数 以 及 前 而 所 刻 的 pipe_fs_ih 中 的 一 些 宏 定义 ，pipe_release( ) 的 代码 就 不 难 读 懂 了 。 


[sys. close ( ) > filp close( ) > fput( ) > pipe read release( ) > pipe release( )] 


302 static int 
303 pipe release(struct inode *inode, int decr, int decw) 


304  ( 

305 down (PIPE SEM(*inode)); 

306 PIPE READERS (*inode) -= decr; 

307 PIPE WRITERS(C*inode) -= decw; 

308 if (!PIPE READERS(*inode) && !PIPE WRITERS(*inode)) f 
309 struct pipe inode info *info = inode—^i pipe; 
310 inode-^i pipe = NULL; 

311 free page((unsigned long) info->hase) ; 

312 kfree (info); 

313 } else { 

314 wake up interruptible(PIPE WAIT (*inode)) : 

315 ] 

316 up(PIPE SEM(*inode)); 

317 

318 return 0; 

319 } 


就 像 在 file 结构 中 有 共享 计数 YE. ded inode->i_pipe 所 指向 的 pipe_inode_info 结构 中 也 有 共享 
计数 ， 而 且 有 两 个 ， 一 个 是 readers，“ 个 是 writers。 这 两 个 共享 计数 在 创建 管道 时 在 get. pipe inode() 
中 都 被 设置 成 1( 见 pipe.c: get_pipe_inode( ) 中 的 485 行 )。 然 后 , 当 关 闭 管道 的 读 端 时 ,pipe_read_release( ) 
调用 pipe_release( )， 使 共享 计数 readers 减 1， 而 关闭 管道 的 写 端 时 则 使 writers 减 1。 当 二 者 都 减 到 了 
0 时 ， 整 个 管道 就 完成 了 使 命 ， 此 时 应 将 用 作 缓 冲 区 的 存储 页 面 以 及 pipe inode info 数据 结构 释放 。 
在 常规 的 文件 操作 中 , 文件 的 inode 存在 于 磁盘 (或 其 他 介质 ) 上 ,所 以 在 最 后 关闭 时 要 将 内 存 中 的 inode 
数据 结构 写 回 到 磁盘 上 。 但 是 ， 管 道 并 不 是 常规 意义 上 的 文件 ， 磁 盘 上 并 没有 相应 的 索引 节点 ， 所 以 
最 后 只 是 将 分 配 的 inode 数据 结构 (以 及 dentry 结构 ) 释放 了 事 ， 而 并 没有 什么 磁盘 操作 。 这 一 点 从 
用 于 管道 的 inode 数据 结构 中 的 inode_operations 结构 指针 为 0 可 以 看 出 。 

再 看 管道 的 读 操 作 。 在 典型 的 应 用 中 ， 管 道 的 读 端 总 是 处 于 个 循环 中 ， 通 过 系统 调用 read( ) 从 
管道 中 读 ， 读 了 就 处 理 ， 处 理 完 又 恋 。 对 管道 的 读 操作 ， 在 内 核 中 经 过 sys read( ) 和 数据 结构 
read_pipe_fops PH) ei BUGS Ft ENA pipe_read( )。 这 个 函数 的 代码 在 pipe.c 中 ， 让 我 们 逐 段 地 往 下 看 : 


[sys read( ) > pipe_read( )] 


38 static ssize t 
39 pipe read(struct file *filp, char *buf, size t count, loff t *ppos) 
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40 { 

41 struct inode *inode = filp-^f dentry-^d inode; 
42 ssize t size, read, ret; 

43 

44 /* Seeks are not allowed on pipes. */ 

45 ret = -ESPIPE; 

46 read = 0; 

47 if (ppos != &filp-^f pos) 

48 goto out nolock; 

49 


这 里 44 行 的 注解 说 seek 操作 在 管道 上 是 不 允许 的 ， 这 当然 是 对 的 ， 事 实 上 函数 pipe Iseek( ) 只 是 
返回 一 个 出 错 代码 。 注 意 47 行 的 检验 所 针对 的 只 是 参数 ppos, 那 是 个 指针 , 必须 指向 filp->f_pos 本 身 。 
沿 着 pipe.c 再 往 下 看 : 


{sys_read( ) > pipe_read( )] 


50 /* Always return 0 on null read. */ 
51 ret = 0; 

52 if (count == 0) 

53 goto out nolock; 

54 

55 /* Get the pipe semaphore */ 

56 ret = -ERESTARTSYS; 

51 if (down interruptible(PIPE SEM(*inode))) 
58 goto out nolock; 

59 

60 if (PIPE_EMPTY(*inode)) { 

61 do_more_read: 

62 ret = 0; 

63 if (!PIPE_WRITERS (*inode)) 

64 goto out; 

65 

66 ret = —EAGAIN; 

67 if (filpOf flags & 0 NONBLOCK) 

68 goto out; 

69 

70 for (2.1 

71 PIPE WAITING READERS (+inode) ++; 
72 pipe wait (inode) ; 

73 PIPE WAITING READERS (*inode) —; 
74 ret = -ERESTARTSYS; 

75 if (signal pending (current) ) 

76 goto out; 

77 ret = 0; 

78 if (!PIPE EMPTY (*inode)) 

79 break; 
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80 if (IPIPE WRTTERS (*inode)) 
81 goto out; 

82 ] 

83 } 

84 


如 果 读 的 时 候 管道 里 已 经 有 数据 在 缓冲 区 中 ， 这 一 段 程序 就 被 跳 过 了 。 可 是 ， 如 果 管 道 缓冲 区 中 
没有 数据 ， 那 一 般 就 要 睡眠 等 待 了 ， 但 是 有 两 种 例外 的 和 情况。 第 一 种 情况 是 管道 的 writers 计数 已 经 
0， 也 就 是 说 已 经 没有 “生产 者 ”会 向 管道 中 写 了 ， 这 时 候 当然 不 能 再 等 待 。 第 -种 情况 是 管道 创建 时 
设置 了 标志 位 O_NOBLOCK， 表 示 在 读 不 到 东西 时 ， 当 前 进程 不 应 被 “阻塞 ”( 也 就 是 在 睡眠 中 等 待 )， 
而 划 芯 即 返 回 。 只 要 不 属于 这 两 种 特殊 情况 , 部 就 要 通过 pipe_wait( ) 在 睡眠 中 等 待 了 。 PRL pipe_wait( ) 
的 代 人 馈 也 在 同 文件 pipe.c F: 


[sys_read( ) > pipe read( ) > pipe_wait( )] 


25 /* Drop the inode semaphore and wait for a pipe event, atomically */ 
26 void pipe wait(struct inode * inode) 


27 { 

28 DECLARE WAITQUEUE (wait, current); 

29 current—>state = TASK INTERRUPTIBLE; 

30 add wait queue(PIPE WAIT (kinode), &wait); 

31 up (PIPE_SEM(#inode)) ) ; 

32 schedule( ); 

33 remove wait queue (PIPE WAIT(*inode), &wait); 
34 current->state = TASK RUNNING; 

35 down (PIPE_SEM (#inode)) ; 

36 } 


有 关 信 号 量 和 等 待 队列 的 使 用 以 及 进程 调度 请 参看 第 4 章 。 注 意 ， 与 这 里 的 up( ) 操 作 配对 的 
down_interruptible( )， 是 在 pipe read( ) 代 码 中 的 57 行 ，-- 个 在 for 循环 外 面 ， 一 个 在 for 循环 里 而 。 实 
际 上 ，Ppipe_read( ) 中 的 临界 区 是 从 57 行 至 127 行 〈《 匈 下面 的 代码 )， 但 是 睡眠 时 必须 要 退出 临界 区 ， 
而 到 被 唤醒 后 再 进入 临界 区 。 为 什么 要 把 pipe_wait( ) 放 在 一 个 循环 中 呢 ? 这 是 因为 睡眠 中 的 进程 被 唤 
醒 的 原因 不 一 定 就 是 有 进程 往 管道 中 写 ， 也 可 能 是 收 到 了 信号。 而 且 ， 即 使 是 因为 有 进程 往 管道 中 写 
而 唤醒 ， 也 不 能 保证 每 个 被 唤醒 的 进程 都 能 读 到 数据 ， 因 为 等 待 着 从 管道 中 读数 据 的 进程 可 能 人 不止- 
个 。 因 此 ， 要 将 睡眠 等 待 的 过 程 放 在 一 个 循环 中 ， 并 且 在 唤醒 以 后 还 要 再 检验 所 等 待 的 条 件 是 否 得 到 
满足 ， 以 及 是 否 发 生 了 例外 的 情况 。 对 于 在 生产 者 /消费 者 模型 中 消费 者 ，- 方 的 等 待 过 程 ， 这 是 一 种 典 
型 的 设计 。 在 正常 的 情况 下 ， 这 个 循环 - 般 都 是 因为 管道 中 有 了 数据 而 结束 ( 见 78 和 79 行 )， 十 是 具 
体 从 管道 中 读 取 数据 的 操作 就 开始 了 Cpipe.c): 


[sys_read( ) > pipe read( )] 


85 /* Read what data is available. */ 
86 ret > -EFAULT; 
87 while (count > 0 && (size = PIPE LEN(*inode))) { 
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char *pipebuf = PLPE_BASE(*inode) + PIPE START (*inode) ; 
ssize t chars = PIPE MAX RCHUNK Cinode) ; 


if (chars > count) 
chars = count; 

if (chars > size) 

chars = size; 


if (copy_to_user (buf, pipebuf, chars)) 
goto out; 


read += chars; 

PIPE START(*inode) += chars; 
PIPE_START (inode) &= (PIPE SIZE - 1); 
PIPE LEN(*inode) -= chars; 

count -= chars; 

buf += chars; 


} 


/* Cache behaviour optimization */ 
if ({PIPE_LEN(*inode) ) 
PIPE START(*inode) = 0; 


if (count && PIPE WAITING WRITERS (#inode) && !(filp-^f flags & O NONBLOCK)) { 

/* 

* We know that we are going to sleep: signal 

* writers synchronously that there is more 

* room. 

*/ 

wake up interruptible sync(PIPE WAIT (*inode)) ; 

if (IPIPE EMPTY (*inode)) 

BUG ( ) ; 

goto do more read; 
} 
/* Signal writers asynchronously that there is more room. */ 
wake up interruptible(PIPE WATT(*inode)): 


ret = read; 
out: 
up (PIPF_SEM (*inode) ) ; 
out_nolock: 
if (read) 
ret = read; 
return ret; 


} 
每 个 管道 只 有 一 个 页 面 用 作 缓冲 区 ， 该 页 面 是 按 环形 缓冲 区 的 方式 来 使 用 的 。 就 是 说 ， 每 当 读 / 瑟 
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到 了 页 面 的 末端 就 义 要 回 到 页 面 的 始 端 ( 见 图 6.5)， 这 样 ， 管 道中 的 数据 就 有 可 能 要 分 两 段 读 出 ， 所 
以 要 由 一 个 循环 来 完成 。 


start 





第 一 段 读 取 的 字符 ， 
从 base+start 地 址 开始 读 。 


第 . 段 读 取 的 字符 ， 
此 时 start=0， 即 从 base 
地 址 开始 读 。 


base 


图 6.5 管道 的 环形 缓冲 区 示意 图 


结合 本 节 前 而 所 列 的 宏 定义 ， 这 段 代码 应 该 是 不 难 理解 的 。 循 环 结 束 以 后 的 情况 有 以 下 几 种 可 能 : 
(D 读 到 了 所 要 求 的 长 度 ， 所 以 count EIT 0， 同 时 管道 中 的 数据 也 正好 读 完了 ， 所 以 管道 中 
的 数据 长 度 变 成 了 0。 此 时 函数 的 返回 值 为 所 要 求 的 长 典 。 

(2) 管道 中 的 数据 已 经 读 完 ， 但 还 没有 达到 所 此 求 的 长 度 ， 函 数 返 回 实 际 读 出 的 长 度 。 

3) 读 到 了 所 要 求 的 长 度 ， 但 管道 中 的 数据 还 有 和 狮 余 ， 此 时 消 数 也 是 返回 所 要 求 的 长 度 。 

任 前 两 种 情况 下 ， 管 道中 的 数据 都 已 读 完 ， 但 指示 着 下 一 次 读 / 写 的 起 始点 start， 在 不 同 的 条 件 下 
有 可 能 在 页 面 中 的 任何 位 置 上 。 可 是 ， 上 既然 管道 中 已 经 室 了 ， 那 就 不 如 把 起 始点 start 设置 到 页 面 的 开 
头 ， 这 样 可 以 减少 下 一 次 读 / 写 必 须 分 成 两 段 进 行 的 可 能 性 ， 这 就 是 108 行 和 109 行 所 作 优 化 的 目的 。 

由 于 管道 的 缓冲 区 只 限于 一 个 页 面 ， 当 “生产 背 ” 进 程 有 大 量 数据 要 写 时 ， 每 当 写 满 了 一 个 页 面 
(分 一 段 或 两 段 ) 就 得 停 下 来 睡眠 等 待 ， 等 全 消费 者 进程 从 管道 中 读 走 了 一 些 数据 而 腾 出 一 些 补 间 时 
才能 继续 。 所 以 ,“ 消 费 者 ”进程 在 读 出 了 一 些 数据 以 后 要 唤醒 可 能 正在 睡眠 中 的 “生产 者 ”进程 。 最 
后 ， 只 要 读 出 的 长 度 不 为 0， 就 要 更 新 inode 的 受 访问 时 间 印 记 。 

所 有 这 些 操作 ， 包 括 从 管道 中 读 出 ， 复 制 色 用 户 空间 ， 更 新 inode 的 受 访问 时 间 印 记 等 等 ， 都 是 不 
能 容许 其 他 进程 打扰 的 ， 所 以 都 是 放 在 临界 区 中 进行 。 而 57 行 处 的 down, interruptible( ) 和 127 行 处 的 
up() 正 龙 界 定 了 这 样 一 个 临界 区 。 

与 读 操作 相似 ,对 管道 的 写 操作 也 是 在 sys_write( ) 中 通过 file 结构 中 的 指针 f_op 找到 file_operations 
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数据 结构 write pipe fops, 再 通过 其 函数 指针 write 调用 pipe_write( ), 这 个 函数 也 是 在 pipe.c 中 定义 的 ， 
我 们 还 是 逐 段 来 解读 : 


[sys_write( ) > pipe write( )] 


134 static ssize t 
135 pipe write(struct file *filp, const char *buf, size t count, loff t *ppos) 
136 { 


137 struct inode *inode = filp->f_dentry->d_inode; 
138 ssize_t free, written, ret; 
139 
140 /* Seeks are not allowed on pipes. */ 
141 ret = —ESPIPE; 
142 written = 0; 
143 if (ppos != &filp->f_ pos) 
144 goto out_nolock; 
145 
146 /* Null write succeeds. */ 
147 ret - 0; 
148 if (count == 0) 
149 goto out nolock; 
150 
显然 ， 这 一 段 与 pipe_read( ) 的 开头 一 段 完 全 相同 。 继 续 往 下 读 : 
151 ret = -ERESTARTSYS; 
152 if (down interruptible(PIPE SEM(*inode))) 
153 goto out nolock; 
154 
155 /* No readers yields SIGPIPE. */ 
156 if (!PIPE READERS (*inode)) 
157 goto sigpipe; 
158 
159 /* If count <= PIPE BUF, we have to make it atomic. */ 
160 free = (count <= PIPE BUF ? count : 1); 
161 
162 /* Wait, or check for, available space.  */ 
163 if (filp- f flags & 0 NONBLOCK) { 
164 ret = —EAGAIN; 
165 if (PIPE FREE(*inode) < free) 
166 goto out; 
167 } else { 
168 while (PIPE FREE(*inode) < free) { 
169 PIPE WAITING WRITERS (*inode) ++; 
170 pipe wait (inode) ; 
171 PIPE WAITING WRITERS (*inode) 一 ; 
172 ret = -ERESTARTSYS; 
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173 if (signal pending(current)) 
174 goto out; 

175 

176 if  (!PIPE READERS C*inode)) 
177 goto sigpipe; 

178 } 

179 } 

180 


如 果 管 道 的 读 端 已 经 全 部 关闭 ,， 那 就 表示 已 经 没有 “消费 者 ” 了。 既然 没 有 了 “消费 者 ” 那么“ 生 
产 者 ”的 存在 以 及 继续 “生产 ”就 都 失去 了 意义 ， 所 以 此 时 转 到 标号 sigpipe 处 ， 向 当前 进程 发 送 一 个 
SIGPIPE 信和 号， 表示 管道 已 经 “有 断裂”. 


240 sigpipe: 


241 if (written) 

242 goto out; 

243 up (PIPE SEM (*inode)); 

244 send sig(SIGPIPE, current, 0); 
245 return -EPIPE; 


… 般 而 言 ， 进 程 在 接收 到 SIGPIPE 信号 时 会 调用 do exit( ) 来 结束 其 生命 。 读 者 也 许 注意 到 ， 这 里 
其 实 是 当前 进程 自己 向 自己 发 SIGPIPE 信号 。 潮 么 为 何不 直接 调用 do_exit( ) 呢 ? 3x fi Zr Ti f] E: 
一 方面 是 使 程序 的 结构 更 好 , 更 整齐 划一 ; 另 一 方面 也 为 进程 通过 信号 机 制 米 改变 其 在 接收 到 SIGPIPE 
信和 号 时 的 行为 提供 了 更 多 的 灵活 性 甚至 可 能 性 。 

160 行 中 的 常数 PIPE BUF 在 include/linux/limits.h 中 定义 为 4096。 当 要 求 写 入 的 长 度 不 超过 这 个 
数值 时 ， 内 核 供 证 气 入 操作 的 “康子 性 ” 也 就 是 说 ， 一 定 要 到 管道 缓冲 区 中 足够 容纳 这 块 数据 时 才 开 
始 写 。 如 果 超 过 这 个 数值 ， 就 不 保证 其 “原子 性 ”了 ， 这 时 候 有 多 大 空间 就 写 多 少 字 节 ， 有 一 个 字 节 
的 空间 就 写 一 个 字 节 ， 余 下 的 等 “消费 者” 读 走 一 些 字 节 以 后 再 继续 写 。 这 就 是 第 160 行将 变量 free 
设置 成 count 或 者 1 的 意义 。 注 意 变 量 free 表示 开始 写 入 前 缓冲 区 中 至 少 要 有 这 人 么 多 个 空闲 的 字 节 ， 否 
则 就 要 睡眠 等 待 ， 所 以 只 是 在 决定 等 待 与 否 时 使 用 ， 而 一 旦 开始 写 入 就 不 再 使 用 了 。 读 者 可 以 对 照 前 
面 pipe read( ) 中 的 代码 自行 阅读 这 里 的 162 一 179 行 ， 应 该 不 会 有 困难 。 

一 旦 “生产 者 ”进程 在 等 待 中 被 “消费 者 ”进程 唤醒 ， 并 且 缓 冲 区 中 有 了 足够 的 空间 ， 或 者 一 开 
始 时 缓冲 区 中 就 有 足够 的 空间 ， 具 体 的 写 入 操作 就 开始 了 《〈 见 pipe.c?: 


[Sys_write( ) > pipe write( )] 


181 /* Copy into available space. */ 

182 ret = -EFAULT; 

183 while (count > 0) { 

184 int space; 

185 char *pipebuf = PIPE BASE(*inode) + PIPE END (inode) ; 
186 ssize t chars = PIPE MAX WCHUNK (*inode); 

187 

188 if ((space = PIPE FREE(*inode)) != 0) ( 
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out: 
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if (chars > count) 
chars = count; 
if (chars > space) 
chars = space; 


if (copy from user(pipebuf, buf, chars) ) 
goto out; 


written += chars; 

PIPE LEN(*inode) += chars; 
count —= chars; 

buf t= chars; 

space = PIPE FREE (*inode); 
continuo; 


ret = written; 
if (filp->f flags & O_NONBLOCK) 
break; 


do { 
/* 


* Synchronous wake-up: it knows that this process 
* is going to give up this CPU, so it doesnt have 


* to do idle reschedules. 
*/ 
wake up interruptible sync(PIPE WAIT (*inode)) ; 
PIPE WAITING. WRITERS (inode) ++; 
pipe wait (inode) ; 
PIPE WAITING WRITERS (*inode)--; 
if (signal pending(current)) 
goto out; 
if (IPIPE READERS (*inode) ) 
goto sigpipe; 
) while (!PIPE FREE(*inode)); 
ret - -EFAULT; 
} 


/* Signal readers asynchronously that there is more data. 


wake up interruptible (PIPE WAIT (*inode) ) ; 


inode->i_ctime = inode->i_mtime = CURRENT TIME; 
mark inode dirty (inode) ; 


up (PIPE_SEM (#inode) ) ; 


out_nolock: 


if (written) 


*/ 
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237 ret = written; 
238 return ret; 
246  ] 


首先 ， 对 照 pipe read( ) 中 分 两 段 读 的 情况 ， 即 使 要 求 写 入 的 长 度 小 于 PIPE_BUF 时 ， 也 可 能 会 此 
分 秽 段 来 扎 ， 所 以 整个 写 入 的 过 程 也 放 在 一 个 while 循环 中 。 另 外 ， 紫 求 写 入 的 长 度 大 于 PIPE_BUF 
时 ， 还 要 分 成 几 次 来 写 ， 也 就 是 先 写 入 若干 字 节 ， 然 后 有 睡 取 等待 “消费 者 ”从 缓冲 区 中 读 走 …… 些 字 节 
而 创造 出 一 些 空 间 ， 册 继续 写 。 这 就 是 为 什么 要 有 209—223 行 的 do_while 循环 的 不 因 。 这 个 循环 与 前 
面 的 睡眠 等 待 循 坏 略 有 不 同 ， 这 就 是 当 进 程 被 唤醒 时 ， 只 检验 缓冲 区 中 是 否 有 人 兴 间 ， 而 不 问 空间 多 大 。 
为 什么 呢 ? 因为 此 时 的 宗旨 是 有 一 个 学 节 的 空间 就 写 一 个 字 节 ， 而 既然 “消费 者 ”进程 已 经 读 走 了 若 
于 字 节 ， 那 么 至 少 已 经 有 一 个 字 闻 的 罕 间 ， 可 以 进入 while 循环 体 的 下 “次 循环 了 。 对 照 pipe_read( ) 
的 代码 ， 读 者 应 该 可 以 读 懂 上 面 这 段 代 码 而 个 会 有 太 大 的 困难 ， 我 们 把 它 留 给 读 省 作 练习 。 建 议 读者 
假设 儿 种 不同 的 数据 长 度 来 走 过 这 段 程 序 ， 并 日 在 纸 上 记 下 几 种 不 同情 况 下 的 执行 路 线 。 阅 读 时 要 注 
意 202 行 的 continue 语句 ， 当 要 求 写 入 的 数据 长 度 不 人 于 PIPE_BUF 但 需要 分 两 段 RENK) BA 
时 ， 它 使 执行 路 线 跳 过 后 面 的 do while 循 坏 。 同 时 ， 还 要 注意 185 行 中 的 宏 定 义 PIPE_END( )， 它 使 
写 入 的 位 置 pipe buf [7] $1] ri riri (fa p s 
这 样 ， 在 典型 的 情景 下 , "bU MORE” CHAS, COR, PARR. th 
就 是 说 ; 
e 对 “生产 者 ”而 宪 ， 缓 冲 区 中 有 空间 就 往 里 写 ， 并 且 响 醒 可 能 正在 等 待 着 卓 从 缓冲 区 中 读数 
据 的 “消费 者 ”没有 空间 就 睡 卢 ， 等 待 “ 消 费 者 ”从 缓冲 区 读 走 数据 测 腾 出 空间 。 

e 对 “消费 首 ” 而 言 ， 缓 冲 区 中 有 数据 就 恋 出 ， 然 后 唤醒 可 能 正在 等 待 着 要 往 缓冲 区 写 的 “ 生 
产 者 ”如 没有 数据 就 睡眠 ， 等 待 “ 牛 产 者 ” 往 缓冲 区 中 写 数据 。 

一 名 话 ， 千 道 两 端的 进程 通过 管道 所 形成 的 是 典型 的 “生产 者 /消费 者 ”关系 和 运行 模式 。 





63 命名 管道 


应 该 说 ， 前 一 节 中 的 “管道 ”机 制 是 一 项 重 此 的 发 明 ， 它 为 Unix 操作 系统 所 带 来 的 变化 是 革命 性 
的 ， 甚 至 可 以 说 ， 没 有 管道 就 没有 当初 “Unix 环境 ”的 形成 。 但 是 ， 人 们 也 认识 到 ， 管 道 机制 也 存在 
者 一 些 缺 点 和 不 足 。 由 才 管 道 是 -种 “无 名 “无 形 ” 的 文件 ， 它 就 只 能 通过 fork( ) 的 过 程 创建 寺 “ 近 
亲 ” 的 进程 之 间 ， 而 不 可 能 成 为 可 以 在 任意 两 个 进程 之 间 建 立 道 信 的 机 制 ， 更 不 可 能 成 为 一 种 一 般 的 、 
通用 的 进程 间 道 信 模 型 。 同 时 ， 管 道 机 制 的 这 种 缺点 本 身 就 章 鹿 地 暗示 着 人 们 ， 只 娄 用 “有 名 “有 
形 ”的 文件 来 实现 管道 ， 就 能 克服 这 种 缺点 。 这 里 所 谓 “ 有 名 ”是 指 这 样 … 个 文件 应 该 有 个 文件 名 ， 
使 得 任何 进程 都 可 以 通过 文件 名 或 路 径 名 与 这 个 文件 挂 上 钧 ;所谓 “ 有 形 ” 是 指 文件 的 inode 应 该 存在 
于 伴 盘 或 其 他 文件 系统 介质 上 ， 使 得 任何 进程 在 任何 时 间 《 而 不 仅仅 是 在 fork ) 时 ) 都 可 以 建立 (或 
断 开 与 这 个 文件 之 间 的 联系 。 所 以 ， 有 了 管道 以 后 ,“ 命 名 管道 ”的 出 现 就 是 必然 的 了 。 

为 了 实现 “命名 管道 ” 在 “普通 文件 ”"、“ 块 设备 义 件 ” “字符 设备 文件 ”之 外 ， 又 设立 了 一 种 
文件 类 型 ， 称 为 FIFO 文件 (“先进 先 出 ”文件 )。 对 这 种 文件 的 访问 严格 遵循 “先进 先 出 ”的 原则 ， 市 
不 允许 有 在 文件 内 移动 读 写 指针 位 置 的 lseek( ) 探 作 。 这 样 一 来 ， 就 可 以 像 在 磁 稳 上 建立 个 文件 一 样 
地 建立 一 个 命名 管道 ， 具 体 可 以 使 用 命令 mknod 米 建 立 。 例 如 : 
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% mknod mypipe p 


这 里 的 参数 “p” 表 示 所 建立 的 节点 《也 即 特殊 文件 ) 的 类 型 为 命名 管道 。 当 然 ， 也 可 以 在 程序 中 
通过 系统 调用 mknod( ) 米 达到 同样 的 目的 ,只 不 过 此 时 在 调用 参数 mode 中 此 设置 一 个 标志 位 S_IFIFO, 
表示 要 创建 的 是 一 个 FIFO 文件 。 

建立 了 这 样 的 节点 以 后 ， 有 关 的 进程 就 可 以 像 打 开 一 个 文件 一 样 地 来 “打开 ”与 这 个 命名 管道 的 
联系 。 对 FIFO 文件 上 的 操作 由 下 列 几 个 file operations 数据 结构 确定 ， 这 些 代 码 都 在 pipe.c 中 。 


378 /* 

379 * The file operations structs are not static because they 
380 * are also used in linux/fs/fifo.c to do operations on FIFOs. 
381 */ 

382 struct file operations read fifo fops - { 
383 llseek: pipe lseek, 

384 read: pipe road, 

385 write: bad pipe w, 

386 poll: fifo poll, 

387 iocti: pipe ioctl, 

388 open: pipe. read open, 

389 release: pipe read release 

390 O}; 

391 

392 struct file operations write fifo fops = { 
393 llseek: pipe lseek, 

394 read: bad pipe r, 

395 write: pipe write, 

396 poll: fifo poll, 

397 ioctl: pipe ioctl, 

398 open: pipe_write_open, 

399 release: pipe_write_release, 
400}; 

401 

402 struct file operations rdwr_fifo_fops = { 
403 llseek: pipe_lseek, 

404 read: pipe read, 

405 write: pipe_write, 

406 poll: fifo poll, 

407 ioctl: pipe_ioctl, 

408 open: pipe rdwr open, 

409 release: pipe rdwr release 

40 Hh 


对 照 . -下 用 十 普通 管道 的 数据 结构 read. pipe fops. write pipe fops LJ rdwr. pipe. fops (LE), 

就 可 以 看 出 它们 几乎 是 完全 一 样 的 。fifo_poll( )& pipe. poll( ) 都 用 于 select( ) 系 统 调 用 ， 与 通信 机 制 本 

身 并 无 多 大 关系 ， 我 们 在 这 里 并 不 关心 。 所 不 同 的 只 是 ， 对 于 普通 管道 虽然 也 定义 了 相当 于 open ) 的 

操作 pipe_read_open( ), pipe write. open( ) 和 pipe_rdwr_open( )， 但 是 这 些 丙 数 实际 上 在 典型 的 应 用 中 
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是 不 使 用 的 。 如 前 节 所 述 ， 普 通 管道 是 通过 do_pipe( ) 建 立 , 通过 fork( ) 的 过 程 伸展 到 两 个 进程 之 间 的 。 
对 于 父 进程 ， 在 系统 调用 pipe ) 以 后 就 已 打开 ， 而 对 于 子 进程 则 是 与 生 俱 来 的 ， 所 以 都 不 再 需要 再 来 
打开 。 而 命名 管道 就 不 同 了 ， 参 加 通信 的 进程 确实 要 道 过 调用 这 些 函 数 来 “打开 ” 通 向 已 经 建立 在 文 
件 系统 中 的 FIFO 文件 的 道道 。 

既然 主要 的 不 同 之 处 仅 在 于 “打开 ”的 过 程 ， 我 们 就 来 看 看 ， -个 进程 是 怎样 通过 open( ) 系 统 调 
用 来 建立 与 一 个 已 经 创建 的 FIFO 文件 之 问 的 联系 的 。 读 者 在 “文件 系统 ”一 章 中 看 到 ， 进 程 让 内 核 中 
由 sys_open( ) 进 入 filp open( )， 然 后 在 open. namei( ) 中 调用 一 个 函数 path_walk( )， 根 据 文件 的 路 径 名 
在 文件 系统 中 找到 代表 这 个 文件 的 inode. ZEB FAY inode 读 入 内 存 时 ， 要 根据 文件 的 类 型 (FIFO 
文件 的 S. IFIFO 标志 位 为 1 )， 将 inode 中 的 i op 指针 和 i_fop 指针 设置 成 指向 相应 的 inode_operations 
数据 结构 和 file operations 数据 结构 , 但 是 对 于 像 FIFO 这 样 的 特殊 文件 则 调用 init_special_inode( ) 来 加 
以 初始 化 。 这 段 代 码 在 ext2_read_inode( ) 中 (fs/ext2/inode.c): 


[sys_open( ) > filp open( ) > open namei( ) > path_walk( ) > real lookup( ) > ext2 lookup( ) 
> iget( ) > get new. inode( ) > ext2. read. inode( )] 


1059 if (inode-^i ino == EXT2 ACL TDX TNO || 

1060 inode-^i ino == EXT2 ACL DATA INO) 

1061 /* Nothing to do */ ; 

1062 clse if (S ISREG(inode-^i mode)) { 

1063 inode—^i op = &ext2 file inode operations; 

1064 inode-^i fop = &ext2 file operations; 

1065 inode-^i mapping-^a ops = &ext2 aops; 

1066 } else if (S ISDIR(inode-^i mode)) { 

1067 inode-?»i op = &cxt2 dir inode operations; 

1068 inode->i_fop = &ext2 dir operations; 

1069 } else if (S ISLNK(inode-^i mode)) { 

1070 if (linode-^i blocks) 

1071 inode-^i op = &ext2 fast symlink inode operations; 
1072 else { 

1073 inode-^i op = &page symlink inode operations; 
1074 inode-^i mapping-^a ops = &ext2 aops; 

1075 } 

1076 } else 

1077 init special inode(inode, inode-^i mode, 

1078 1e32 to cpu(raw inode—^i block[0])) ; 


可 见 ， 只 要 文件 的 类 起 不 是 ACL RS as COA FASE). AAP, PEHR, 
不 是 符号 连接 ， 就 属于 特殊 文件 ， 就 要 通过 init_special_inode( ) 米 初始 化 其 inode 结构 (fs/devices.c). 


[sys open( ) > filp open( ) > open namei( ) > path_walk( ) > real lookup( ) > ext2_lookup( ) 
>iget( ) > get_new_inode( ) > ext2 read inode( ) > init special inode( )] 


200 void init special inode (struct inode *inode, umode t mode, int rdev) 
20 { 
202 inode-^i mode = mode; 
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203 
204 
205 
206 
207 
208 
209 
210 
211 
212 
213 
214 
215 
216 


) 
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if (S ISCHR(mode)) { 
inode->i_fop = &def chr fops; 
inode-^i rdev = to kdev t(rdev); 
} else if (S ISBLK(mode)) { 
inode->i_fop = &def_b}k_fops; 
inode->i_rdev = to kdev t(rdev); 
inode->i bdev = bdget(rdev); 
} else if (S ISFIFO(mode)) 
inode->i fop = &def fifo fops; 
else if (S ISSOCK (mode)) 
inode->i fop = &bad sock fops; 
else 
printk(KERN DEBUG "init special inode: bogus imode (Xo) W^, mode); 


显然 , 对 于 FIFO Xit, H inode 结构 中 的 inode. operations 结构 指针 i. op 为 0 (代码 中 并 林 设 置 )， 
而 file operations 结构 指针 i fop 则 指向 def_fifo_fops, a MT fs/fifo.c: 


150 
151 
152 
153 
154 
155 
156 
157 


/ 


S 


* 
* Dummy default file-operations: the only thing this does 
* is contain the open that then fills in the correct operations 
* depending on the access mode of the file... i 
*/ 
truct file operations def fifo fops = { 
open: fifo open, /* will set read or write pipe fops */ 


}; 


与 前 - - 节 中 pipe 文件 的 inode 结构 作 一 比较 ， 就 可 以 看 出 对 十 pipe 文件 的 inode GAARA E 


这 么 -个 过 程 ， 与 init special inode( )t 3E JE XX. KEAN pipe 文件 的 inode 结构 不 是 通过 
ext2_read_inode() 从 磁盘 上 读 入 ， 而 是 临时 生成 出 来 的 《因而 是 无 名 、 无 形 的 )。 

随后 ， 在 dentry_open( ) 中 将 inode 结构 中 的 这 个 ile_operations 结构 指针 复制 到 file 数据 结构 中 。 

这 样 ， 对 于 命名 管道 ， 在 打开 文件 时 经 由 数据 结构 def_fifo_fops， 就 可 以 得 到 贤 数 指针 fifo open, A 
TAX fifo_open( )。 有 关 这 个 过 程 的 详情 可 参看 “文件 系统 ”一 章 ， 这 里 我 们 关心 的 是 进入 了 
fifo_open( ) 以 后 的 操作 。 子 数 fifo open ) 的 代码 在 fs/fifo.c F: 


[sys_open( ) > filp_open( ) > dentry_open( ) > fifo_opent )] 


31 
32 
33 
34 
35 
36 
37 
38 
39 


S 


( 
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tatic int fifo open(struct inode *inode, struct file *filp) 
int ret; 


ret = —ERESTARTSYS; 

lock kernel( ); 

if (down interruptible(PIPE SEM(*inodo))) 
goto err nolock nocleanup; 


75 6 X 传统 的 Unix 进程 间 通 信 


40 if (!inode- i pipe) { 

4l ret = —ENOMEM; 

42 if (!pipe_new (inode) ) 

43 goto err_nocleanup; 
44 } 

45 filp->f_version = 0; 

46 


首先 ， 当 首次 打开 这 个 FFO 文件 的 进程 来 到 fifo open( ) 时 ， 该 管道 的 缓冲 页 面 尚未 分 配 ， 所 以 在 
42 行 通过 pipe new( ) 分 配 所 党 的 pipe_inode_info 数据 结构 和 缓冲 页 面 。 以 后 再 米 打开 同一 FIFO 文件 
的 进程 就 会 跳 过 这 一 段 。 髓 往 下 看 fifo.c: 


47 switch (filp->f mode) { 

48 case 1: 

49 /* 

50 * © RDONLY 

51 * POSIX.1 says that 0 NONBLOCK means return with the FIFO 
52 * opened, even when there is no process writing the FIFO. 
53 */ 

54 filp-^f op = &read fifo fops; 

55 PIPE RCOUNTER (#inode) ++; 

56 if (PIPE READERS (#inode) ++ == 0) 

57 wake up partner (inode) ; 

58 

59 if (!PIPE_WRITERS (*inode)) { 

60 if ((filp->f_flags & O_NONBLOCK)) { 

61 /* suppress POLLHUP until we have 

62 * seen a writer */ 

63 filp->f_version = PIPE WCOUNTER C*i node) ; 

64 } else 

65 { 

66 wait for partner(inode, &PTPE WCOUNTER (*inode) ) : 
67 if(signal pending(current)) 

68 goto err rd; 

69 } 

70 } 

71 break; 

72 

73 case 2: 

74 /* 

75 * 0 WRONLY 

16 * POSIX.1 says that O NONBLOCK means return -1 with 

77 * errno=ENXIO when there is no process reading the FTFO. 
78 */ 

19 ret = -ENXIO; 

80 if ((filp->f_flags & O_NONBLOCK) && !PIPE READERS (inode) ) 
8l goto err; 
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82 
83 
84 
85 
86 
87 
88 
89 
90 
91 
92 
93 
94 
95 
96 
97 
98 
99 
100 
101 
102 
103 
104 
105 
106 
107 
108 
109 
110 
111 
112 
113 
114 
115 
116 
117 
118 
119 
120 
122 
123 
124 
125 
126 
127 
128 
129 
130 
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filp->f op = &write fifo fops; 

PIPE WCOUNTER Ckinode) ++; 

if (IPIPE WRITERS (#inode) ++) 
wake up partner (inodo); 


if (!PIPE_READERS (#inode)) | 
wait for partner (inode, &PIPE RCOUNTER (*inode)) ; 
if (signal pending(current)) 
goto err wr; 


} 


break; 


case 3: 


/* 


* 


O_RDWR 

* POSIX.1 leaves this case “undefined” when 0 NONBLOCK is set. 
* This implementation will NEVER block on a O_RDWR open, since 
* the process can at least talk to itself. 

*/ 

filp-^f op = &rdwr fifo fops; 


PIPE READERS (inode) ++; 

PIPE WRITERS (inode) ++; 

PIPE RCOUNTER (#inode) ++; 

PIPE WCOUNTER (Xi node) ++; 

if (PIPE READERS (#inode) == 1 || PIPE WRITERS(*inode) == 1) 
wake up partner (inode) ; 

break; 


default: 
ret = —EINVAL; 
goto err; 


} 


/* Ok! x/ 
up(PIPE SEM(*inode)) ; 
unlock kernel( ); 
return 0; 
err rd: 
if (!--PIPE READERS (kinode) ) 
wake up interruptible(PTPE WAIT (kinode) ) ; 
ret = —ERESTARTSYS; 
goto err; 


err wr: 
if (1—PTPE WRITERS (*inode)) 
wake up interruptible(PIPE WAIT (*inode)) ; 
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131 ret = -ERESTARTSYS; 

132 goto err; 

133 

134 err: 

135 if (IPIPE READERSC*inode) && !PIPE WRITERSC*inode)) { 
136 struct pipe inode info *info = inode->i pipe; 
137 inode-^i pipe = NULL; 

138 free page((unsigned long) info->base) ; 

139 kfree (info) ; 

140 } 

141 

142 err_nocleanup: 

143 up(PIPE SEM(*inode)); 

144 

145 err nolock nocleanup: 

146 unlock kernel( ); 

147 return ret; 

148 ] 


FIFO 文件 可 以 按 三 种 不 同 的 模式 打开 ， 束 是 “只 读 ”“ 只 写 ” 以 及 “ 读 写 ”。 同 时 ， 在 系统 调用 
open( ) 中 还 有 个 参数 flags。 如 果 flags 中 的 标志 位 O_NONBLOCK 为 1， 就 表示 在 打开 的 过 程 中 即使 某 
些 条 件 得 不 到 满足 也 不 要 睡眠 等 待 ， 而 应 立即 返回 。 人 在 典型 的 应 用 中 ， 像 对 普通 管道 -一样 ， 一 个 进程 
按 “ 只 读 ” 模 式 打 开 命 名 管道 ， 成 为 “消费 者 ” 而 男 - 一 个 进程 则 按 “ 只 写 ” 模 式 打 开 命名 管道 ， 成 为 
"prr". 可是， 在 普 道 管道 的 情况 下 ， 管 道 的 两 端 是 由 间 … 进 程 在 do_pipe( ) 中 同时 “打开 ”的 ， 
而 在 命名 管道 的 情况 下 则 管道 的 两 端 道 常 分 别 由 两 个 进程 先后 打开 ， 这 就 有 了 个 “同步 ”的 问题 。 除 
此 之 外 ， 还 有 个 不 同 ， 就 是 普通 管道 既然 是 “无 名 ”4 无 形 ”， 一 般 就 个 会 有 另 一 个 进程 也 来 “打开 ” 
这 个 管道 。 而 在 命名 管道 的 情况 下 ， 则 任意 一 个 进程 都 可 以 通过 相同 的 路 径 名 打开 同一 个 FIFO 文件 。 
这 些 因素 都 使 建立 命名 管道 的 过 程 比 建 立 普通 管道 的 过 程 要 复杂 一 些 。 

先 来 看 命名 管道 的 读 端 ， 也 就 是 按 “ 只 读 ” 模 式 打开 一 个 FIFO 文件 时 (case 1) 的 儿 种 情况 : 

GQ) 如 果 管 道 的 写 端 已 经 打开 ， 那 么 读 端 的 打开 就 完成 了 命名 管道 的 建立 过 程 。 在 这 种 情况 下 ， 

写 端 的 进程 ， 也 就 是 “生产 者 ”进程 ， 一 般 都 是 正在 睡眠 中 ， 等 待 着 命名 管道 建立 过 程 的 完 
成 ， 所 以 要 将 其 唤醒 。 然 后 ， 两 个 进程 差不多 同时 返回 到 各 自 的 用 户 空 间 ， 尔 后 就 可 以 通过 
这 命名 管道 进行 通信 了 。 

Q) 如 果 命 名 管道 的 写 端 尚未 打开 ， 而 flags 中 的 O_NONBLOCK 标志 位 为 1， 表 示 不 应 等 待 。 
此 时 污 端 虽 已 打开 , 但 命名 管道 只 是 部 分 地 建立 了 , 而 O_NONBLOCK 标志 的 使 用 义 要 求 系 
统 调用 不 加 等 竺 立即 返回 ， 所 以 不 作 等 待 。 不 过 ， 这 里 把 读 端 file 结构 中 的 f_version 字段 设 
置 成 PIPE_WCOUNTER(*inode)， 即 对 本 管道 写 端 的 计数 。 这 与 通过 pipe poll( ) 对 命名 管道 
的 查询 有 关 ， 而 与 读 写 无 关 。 读 者 串 结 合 系统 调用 select( ) ( 见 第 8 章 “ 字 符 设 备 驱动 ”)” [I 
读 其 代码 。 

(3) 如 果 命 名 管道 的 写 端 尚未 打开 ， 出 flags 中 的 O NONBLOCK 标志 位 为 0。 在 这 种 情况 下 ， 
读 端 的 打开 只 是 完成 了 命名 管道 建立 过 程 的 一 六 ,所 以 “消费 者 ”进程 要 通过 wait for. partner ) 
进入 睡 卢 ， 等 待 某 个 “生产 者 ”进程 米 打开 命名 管道 的 写 端 以 完成 其 建立 过 程 。 

不 管 是 哪 一 种 情况 下 ， 读 端 file ET file operations 指针 £ op 都 指向 read_fifo_fops， 为 随后 
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的 读 操 作 作 好 了 准备 。 
相应 地 ， 命 名 管道 写 端 的 打开 (case 2》 也 有 以 下 几 种 不 同 的 情况 ; 
(如 果 命 名 管道 读 端 已 经 打开 ， 滥 么 写 问 的 打开 就 完成 了 建立 命名 管道 的 过 程 。 在 这 种 情况 下 
位 于 命名 管道 读 端 的 进程 〈 即 “消费 者 ”进程 ) 有 可 能 正在 睡眠 中 等 待 ， 所 以 ， 如 果 当 前 进 
程 是 第 一 次 打开 该 命名 管道 写 端的 进程 ， 就 要 负责 将 其 唤 肯 〈 见 第 85、86 行 ) . 
(2) 如 果 命 名 管道 读 端 尚未 打开 ， 而 flags 中 的 O_NONBLOCK 标志 位 为 0。 在 这 种 情况 下 “ 生 
产 者 ”进程 此 睡眠 等 待 至 某 个 “消费 者 ”进程 打开 该 命名 管道 的 读 端 才 能 返 四 |。 
(3) 如 果 命 名 管道 的 读 端 尚未 打开 ， 而 flags 中 的 O_NONBLOCK 标志 位 为 1。 此 时 对 命名 管道 
写 端的 打开 失败 ， 所 以 要 释放 已经 分 配 的 各 种 资源 而 返回 一 1。 

至 于 对 FIFO 文件 的 “ 读 写 ”打开 ， 则 相当 于 由 同 一个 进程 同时 打开 了 命名 管道 的 两 端 ， 所 以 不 管 
怎样 都 个 需 旧 等 待 。 但 是 还 有 可 能 已 经 有 某 个 进程 先 打 开 了 写 端 或 读 端 而 正在 睡眠 中 等 待 ， 所 以 只 要 
有 任何 一 端 是 第 一 次 打开 ， 就 也 唤醒 了 止 在 睡眠 等 待 的 进程 。 

命名 管道 一 经 建立 ， 以 后 的 读 、 写 以 及 关闭 操作 就 与 普通 管道 完全 相间 了。 注意 嚼 然 FIFO 文件 的 
inode 节点 在 磁盘 上 , 但 那 只 是 -个 节点 ,而 文件 的 数据 则 只 存在 于 内 存 缓冲 页 而 中 ,与 普通 管道 一 样 。 


号 


qn 


64 1 


如 前 所 述 ， 信 号 〈signal， 亦 称 软 中 断 ) 机 制 是 在 软件 层次 上 对 中 断 机 制 的 一 种 模拟 。 从 概念 上 说 ， 
一 个 进程 接收 到 一 个 信号 与 一 个 处 理 器 接收 到 -个 中 断 请 求 是 一 样 的 。 而 一 个 进程 可 以 问 妃 一 个 或 
另 一 组 ) 进程 发 送信 叶 ， 也 由 在 多 处 理 器 系统 中 一 个 处 理 器 可 以 向 其 他 处 理 器 发 出 中 斯 请求 一 样 。 当 
然 ， 对 一 个 处 理 回 的 中 断 请 求 并 个 一 定 来 自 其 他 处 理 器 ， 也 可 以 是 来 自 各 种 中 断 源 ， 甚 至 来 自 处 理 器 
木 身 。 相 应 地 ， 信 和 号 也 不 一 定 都 来 自 其 他 进程 ， 也 可 以 来 月 不 同 的 来 源 ， 还 可 以 来 自 本 进程 的 执行 。 
更 重要 的 是 ， 二 者 都 是 “异步 ”的 。 处 理 器 在 执行 一 段 程序 时 并 不 需要 停 下 来 等 待 中 断 的 发 生 ， 也 不 
知道 中 断 会 在 何 时 发 生 。 信 号 也 是 一 样 ， 一 个 进程 并 不 需要 通过 一 个 什么 操作 来 等 待 信号 的 到 达 ， 也 
不 知道 什么 时 候 会 有 信号 到 达 。 

事实 上 ， 在 所 有 的 进程 间 通 讯 机 制 中 只 有 信号 丰 异 步 的 。 三 者 之 邮 的 这 种 相似 和 类 比 不 仪 仪 是 概 
念 上 的 , 也 体现 在 它们 的 实现 上 .就 像 在 中 断 机 制 中 有 一 个 “中断 向 量 表 ” 一 样 ,在 每 个 进程 的 task. struct 
结构 中 都 有 个 指针 sig, TRIS signal struct 结构 ， 这 个 结构 就 不 妨 称 为 “信号 向 量 表 ”。 在 中 靳 机 制 
中 ， 对 每 种 中 断 请 求 都 可 以 加 以 辞 蔽 而 个 让 处 理 器 对 之 作出 响应 ， 在 信和 号 机 制 中 也 有 类 似 的 手段 。 当 
然 ， 由 于 中 断 机 制 是 通过 硬件 和 软件 的 结合 来 实现 的 ， 和 而 信号 则 纯粹 由 软件 实现 ， 所 以 在 具体 的 纲 市 
上 必然 有 所 不 同 。 但 是 如 果 将 二 者 对 照 起 来 看 ， 就 可 以 看 出 信号 机 制 中 的 有 些 数据 结构 和 算法 实际 上 
就 是 对 中 断 机 制 中 “ 些 使 件 特征 的 模拟 。 同 时 ， 正 是 由 于 二 者 间 的 相似 ， 在 中 断 处 理 中 可 能 碰 到 的 问 
BANARAS SHH. GM, REPRESS Rit AME. URE Shes 
带 来 类 似 的 问题 。 正 因为 这 样 ， 读 者 在 阅读 本 节 叶 不 妨 多 多 回顾 利 对 赂 “中 断 与 异常 ” 那 章 中 的 有 关 
段落 。 

人 们 对 信号 与 中 断 的 相似 性 《以 及 其 他 -… 些 问题 并 不 是 一 开始 就 充分 认识 和 深刻 理解 的 。 早 期 
Unix 系统 中 的 信号 机 制 比 较 简 单 和 版 始 ， 没 有 充分 吸 电 在 路 断 处 理 方 面 所 积累 的 经 验 ， 后 来 在 实践 中 
暴露 出 一 些 问 题 而 被 称 为 “不 可 靠 信和 导 ”。 正 因为 这 样 ， 在 各 种 Unix 的 变型 版 本 中 就 纷纷 对 信号 机 制 
加 以 扩充 ， 以 实现 “可 靠 信号 ”。 在 这 方面 最 主 此 的 有 BSD 和 AT&T 分 别 企 4.2BSD、4.3BSD 和 SVR3 
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中 所 作 的 扩充 。 但 是 ， 这 种 分 别 进行 的 扩充 使 不 同 版 本 问 的 碌 容 性 成 了 问题 ， 所 以 后 来 又 在 POSIX. 
和 POSIX.4 两 种 标准 中 对 信号 机 制 进行 了 标准 化 。 其 中 POSIX. 规定 了 对 信号 机 制 的 基本 旨 求 ， 而 
POSIX.4 则 规定 了 对 信和 号 机 制 的 扩充 , 后 者 是 POSIX.,1 的 -一个 超 集 。Linux 内 核 的 信号 机 制 符 合 POSIX.4 
的 规定 。 不 过 ，POSIX 只 规定 了 信和 导 机 制 的 功能 和 应 用 界面 ， 并 没有 规定 如 何 实现 。 例 如 ， 同 -- 种 巧 
能 可 以 在 操作 系统 内 核 中 实现 ， 也 可 以 人 在 库 程序 中 实 坝 ， 所 以 有 些 非 Unix 类 的 操作 系统 也 串 能 支持 
POSIX。 

既然 信号 机 制 与 中 断 机 制 在 概念 上 臣 ”“ 致 的 ， 我 们 就 从 与 “中 断 向 量 表 ”相对 应 的 “信号 向 量 表 ” 
开始 。 如 前 所 述 ， 每 个 进程 的 task. struct 结构 中 都 有 -个 指针 sig， 指 向 一 个 signal struct 结构 。 这 个 
数据 结构 类 型 是 在 include/linux/sched.h 中 定义 的 : 


235 struct signal struct | 

236 atomic t count ; 

237 struct k sigaction action| NSIG]; 
238 spinlock t siglock; 

239 E 


结构 中 的 数组 action ] 襄 相当 十 是 一 个 “ 信 与 向 量 表 ”， 数 组 中 的 每 个 元 素 就 相当 十 一 个 “信号 向 
E”, 确定 了 当 进 程 接 收 到 一 个 具体 的 信号 时 应 该 采 瞩 的 行动 ， 就 好 像 一 个 中 断 向 量 指 向 一 个 中 断 服 务 
程序 一 样 。 不 过 ,“ 信 号 向 量 ” 有 它 的 特 折 之 处 ， 除 指向 一 个 信号 处 理 程序 以 外 ， 必 还 可 以 是 两 个 特殊 
常数 SIG_DFL 和 SIG_IGN 之 >, PRIA MIAMI SRA “RRA” (default) 的 反应 或 者 忽略 而 不 
作 任 何 反 应 。 上面 给 出 这 贞 个 常数 的 定义 ， 见 文件 include/asm-1386/signal.h: 


131 #define SJG DFL ((__sighandler t)0) /* default signal handling */ 
132 define SIG IGN ((  sighandler t)1) /* ignore signal */ 
133 #define SIG ERR ((  sighandler t)-1) /* error rcturn from signal */ 


由 于 SIG DFL 的 数值 为 0， 当 向 晤 表 为 “空白 ”时 所 有 的 信号 向 量 都 视 作 SIG. DFL. 

“信号 向 量 ” 与 “中 断 向 量 ” 还 有 个 重要 的 不 同 之 处 。 大 家 知道 ， 中 断 身 量 表 在 系统 空间 中 ， 
每 个 中 断 问 量 所 指向 的 中 断 响应 程序 也 在 系统 空间 中 。 然 市 ， 虽 然 “ 信 号 向 量 表 ”也 在 系统 空间 中 ， 
可 是 这 些 “向量” 所 指向 的 处 球 程 序 却 般 都 是 在 用 户 空间 中 。 

对 信和 与 的 检测 与 响应 总 是 发 生 在 系统 空间 ， 通 常 发 生 在 两 种 情况 下 ;第 一 ， 当 前 进程 由 于 系统 调 
用 、 中 断 或 异常 而 进入 系统 空间 以 后 ， 从 系统 空间 返回 到 用 户 空 间 的 前 夕 。 第 二 ， 当 前 进 种 在 内 核 中 
进入 睡眠 以 后 刚 被 唤醒 的 时 人 息 ， 由 十 信号 的 存在 而 提前 返回 到 咱 户 空间 。 当 有 信号 要 响应 时 ， 处 理 沦 
执行 路 线 的 景象 如 图 6.6 所 示 。 

KEV ARES, fe SARI CHP PBR PP) 的 启动 、 执 行 及 返回 变 得 复杂 了 ， 读 者 
在 后 面 将 会 看 到 这 些 过 程 是 如 何 实 现 的 。 

中 断 向 量 表 中 的 每 个 “向 量 ” 基本 上 是 个 函数 指针 ， 早 期 Unix 系统 中 的 “信号 六 量 衣 ” 也 是 一 样 。 
但 是 ， 经 过 扩充 与 改进 ， 现 在 的 “信号 判 量 ” 已 经 不 仅仅 是 关 数 指针 了 。 每 个 “信和 号 问 量 ”部 是 一 个 
k sigaction 数据 结构 ， 这 是 在 include/asm-i386/signal.h 中 定义 的 : 
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当前 进程 因 系统 调用 /中 断 / 异 常 ， 转 向 用 户 空间 中 执行 信号 处 理 程 序 执行 完 
而 进入 内 核 信号 处 理 程序 毕 后 返回 到 内 核 中 


图 6.6 信和 号 的 检测 与 处 理 流程 图 


156 struci sigaction { 


157 union { 

158 . sighandler t sa handler; 

159 void (* sa sigaction) (int, struct siginfo *, void *); 
160 jc 

161 sigset t sa mask; 

162 unsigned long sa flags; 

163 void (*sa restorer) (void); 

164 ] 


这 里 的 _sa_handler fH sa sigaction 部 是 函数 指针 。 数 据 类 型 __sighandler_t 也 是 在 signal.h 中 定义 
的 : 


129 typedef void (*  sighandler t) (int); 


AY L, sa handler fH sa sigaction 只 是 在 调用 时 的 参数 表 不 同 ， 具 体 将 _u 解释 成 哪 一 个 指针 取决 
于 具体 的 约定 。 
另 一 个 指针 sa_restorer 现在 已 经 基本 不 用 了 , 但 是 sa mask 和 sa. flags PS E ER EH SUB REA 
色 。 
先 来 看 sa_mask。 简 单 地 说 ，sa_mask 起 一 个 “位 图 ”， 其 中 的 每 一 位 都 对 应 着 一 种 信号 。 如 果 位 
图 中 的 某 位 为 1， 就 表示 在 执行 当前 信号 的 处 理 程 序 期 间 要 将 相应 的 信号 暂时 “屏蔽 ”， 使 得 在 执行 
的 过 程 中 不 会 柑 套 地 响应 那 种 信号 。 特 别 地 ,不 管 位 图 中 的 相应 位 是 省 为 1， 当 前 信号 本 身 总 是 自动 屏 
Ak, EM PMA SAMA SRE HE. BRIE sa. flags 中 的 SA NODEFER 或 SA_NOMASK 标志 
为 1。 显然 ， 这 正 是 借鉴 了 在 中 断 服 务 中 关闭 中 断 以 防止 嵌 僚 的 经 验 ， 对 二 熟悉 中 断 机 制 的 读者 来 说 似 
乎 并 不 是 什么 深奥 的 道理 ， 可 是 这 却 是 将 “不 可 靠 信和 续 ” 改 进 成 “可 靠 售 号 ”的 关键 性 的 水 。 在 早 
期 Unix 系统 的 信号 机 制 中 ， 当 时 的 设计 人 员 似 ee 而 同 种 信号 
处 理 的 贬 套 可 以 通过 -一 种 简单 的 方法 米 避 免 。 怎 么 避免 昵 ?” 邢 器 是 : 每 当 执 行 “个 信号 处 理 程 序 时 ， 
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就 由 内 核 自动 将 “信号 向 量 表 ”中 相应 的 函数 指针 设置 成 SIG_DFL。 从 而 ， 在 执行 : :个 信号 处 理 程序 
的 过 程 中 如 果 又 接收 到 同 种 信号 的 话 ， 就 会 因为 此 时 的 “信号 向 量 ” 已 经 改 成 SIG. DFL. HARARE 
入 同一 个 处 理 程序 。 这 样 ， 应 用 称 序 所 设置 的 “信号 向 量 ” 就 是 “次 性 ”的 ， 所 以 信号 处 理 程序 中 
在 完成 了 需要 防止 幅 估 的 部 分 以 后 就 归 青 次 设置 信号 向 量 , 为 下 一 次 执行 同 信号 处 理 程 序 作 好 准备 。 
这 套 方案 看 起 来 似乎 可 行 ， 但 是 在 实践 中 却 碰 到 了 问题 。 一 种 典型 的 情景 就 是 对 CTRL_C BABERE. X 
家 知道 ， 在 键盘 上 启动 - -个 程序 后 ， 按 一 F CTRL_C 通常 会 使 正在 运行 的 程序 “流产 ”% 这 实际 上 就 起 
道 过 信号 机 制 来 实现 的 。 当 在 键盘 上 按 CTRL C 时 ， 内 核 会 向 相应 的 进程 发 出 :个 SIGINT 信号 ， 
对 这 个 信号 的 “默认 ”反应 就 症 通过 do exit ) 结 束 运 行 。 有 些 应 用 程序 对 CTRL_C 的 作用 另 有 安排 ， 
所 以 就 要 为 SIGINT 男 行 设置 一 个 “ 问 量 ” 使 它 指向 应 用 程序 中 的 一 个 了 数 , TEIL BCR CTRL_C 
这 个 事件 作出 响应 ， 并 再 次 设置 (RH “恢复 ”) 该 信号 向 量 ,， 为 下 -次 CTRL_C 事件 作 好 准备 。 吕 是 ， 
在 实践 中 却 发 现 ， 两 次 CTRL C 事件 往往 过 丁 密集 ， 有 时候 刚 进入 信号 处 理 程序 ， 还 没有 来 得 及 重新 
设置 信和 号 向 量 ， 第 “个 信号 就 到 达 了 。 由 于 此 时 向 量 表 中 对 应 于 SIGINT 的 向 量 已 在 启动 其 处 理 程序 
时 自动 改变 成 SIG_DFL, 而 对 SIG. DFL 信号 的 默认 反应 又 是 结束 进程 的 运行 ， 所 以 第 二 个 SIGINT 信 
导 的 到 来 就 往往 把 进程 “ 杀 ” 了 。 正 因为 这 样 ， 早 期 的 信号 机 人 制 被 称 为 “不 可 靠 信号 ”。 从 这 里 人 们 得 
出 了 一 些 教训 。 首 先 信号 问 量 不 应 该 是 “一 次 性 ”的 ， 也 就 是 不 应 该 在 执行 相应 处 理 程序 时 将 向 量 改 
成 SIG_DFL。 其 次 ， 在 执行 “个 信号 处 理 程 序 的 过 程 中 应 将 该 种 信号 自动 屏蔽 朱 ， 以 防 同 一 处 理 程序 
的 伐 套 。 此 外 ， 还 应 该 有 一 个 手段 ， 使 应 用 程序 可 以 在 执 行 处 理 程序 的 期 间 有 选择 地 将 芳 十 种 其 他 信 
号 屏蔽 掉 ， 这 就 是 sa mask HKU). BUB "BEC. 与 将 信号 忽略 丢弃 是 不 同 的 。 THERM SN “ie 
E"—F-BBBEER. 已 经 到 达 的 信号 仍旧 还 在 。 位 图 sa mask 的 类 型 为 sigset_t, 这 也 是 在 signal.h 
中 定义 的 ; 


13 #define _NSIG 64 

14 Hdefine NSIC BPW 32 

15 "define NSIG WORDS ( NSIG / _NSIG BPW) 

16 

17 typedef unsigned long old sigset t; /* at least 32 bits */ 
18 

19 typedef struct { 

20 unsigned long sig[ NSIG WORDS]; 


21 } sigset t; 


这 种 数据 结构 主要 几 来 模拟 中 汤 控 制 器 (如 Intel 8259). 中 的 “中 断 请 求 寄 存 器 ”和 “中 斯 屏蔽 寄 
存 器 ”task_struct 结构 中 的 blocked WARF P i bel S TER”. 以 前 task_struct 结构 中 还 有 个 sigset t 
数据 结构 signal, 就 是 相当 于 “中 断 请 求 寄存 器 ”后 来 把 它 移入 了 sigpending 数据 结构 中 (现在 task_struct 
结构 中 有 个 sigpending 数据 结构 pending). 注意 这 里 的 _NSIG 正 是 前 述 数组 action[ ] 的 大 小 。 早期 Unix 
系统 中 只 定义 了 32 种 信号 ， 所 以 只 要 一 个 无 符号 长 整数 就 可 容纳 了 。 而 现在 ，Linux (以 及 POSIX.4) 
定义 了 64 种 信号 ， 将 来 也 许 还 会 增加 ， 所 以 才 有 以 上 的 定义 。 

再 来 看 sa flags 中 的 标志 位 ， 它 们 的 定义 也 在 signal.h 中 : 


73 /* 
74 * SA FLAGS values: 
75 * 
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76 * SA ONSTACK indicates that a registered stack t will be used. 

77 * SA INTERRUPT is a no-op, but left due to historical reasons. Use the* SA RESTART 
flag to get restarting signals 

78 (which were the default long ago) 


79 * SA NOCLDSTOP flag to turn off SIGCHLD when children stop. 

80 * SA RESETHAND clears the handler when the signal is delivered. 

81 * SA NOCLDWAIT flag on STGCHLD to inhibit zombies. 

82 * SA NODEFER prevents the current signal from being masked in the handler 
83 * 

84 * SA ONESHOT and SA NOMASK are the historical Linux names for the Single 
85 * Unix names RESETHAND and NODEFER respectively. 

86 */ 


87 #define SA NOCLDSTOP 0x00000001 
88 Sdefine SA NOCLDWAIT 0x00000002 /* not supported yet */ 


89 &define SA_SIGINFO 0x00000004 
90 #define SA ONSTACK 0x08000000 
91 #define SA RESTART 0x10000000 
92 #define SA NODEFER 0x40000000 


93 #define SA RESETHAND 0x80000000 


这 些 标 志 位 的 作用 以 后 读 了 有 关 的 代 但 就 会 清楚 ， 但 是 有 几 个 慰 志 位 特别 值得 所 。 一 个 是 
SA_SIGINFO。 这 个 标志 位 为 1 表示 信和 号 处 理 程序 有 三 个 参数 〈 否 则 只 有 “个 , 即 所 处 理 的 信号 本 身 的 
标识 号 ， 如 SIGINT)， 其 中 之 一 为 指向 一 个 siginfo_t 数据 结构 的 指针 。 与 siginfo_t 有 关 的 数据 结构 和 
常数 都 是 在 include/asm-i386/siginfo.h 中 定义 的 : 


8 typedef union sigval { 


9 int sival int; 
10 void *sival ptr; 
il } Sigval t; 

12 


13 Sdefine SI MAX STZE 128 
14 define SI PAD STZE ((SI MAX STZE/sizeof(in))) - 3) 


15 

16 typedef struct siginfo { 

17 int si signo; 

18 int si errno; 

19 int si code; 

20 

21 union { 

22 int pad[SI PAD SIZE]; 

23 

24 /* kill( ) */ 

25 struct { 

26 pid t pid; /* sender's pid */ 
27 uid t uid; /* sender’ s uid */ 
28 } kill; 

29 


- 720 . 


第 6 章 传统 的 Unix HERI fs 


30 /* POSIX. lb timers */ 

31 struct { 

32 unsigned int  timerl; 

33 unsigned int  timer2; 

34 ) timer; 

35 

36 /* POSTX. lb signals */ 

37 struct { 

38 pid t pid; /* sender's pid */ 
39 uid t | uid; /* sender's uid */ 
40 sigval t sigval; 

4l } pts 

42 

43 /* SIGCHLD */ 

44 struct { 

45 pid t pid: /* which child */ 
46 uid t uid; /* sender’ s uid */ 
47 int status; /* exit code */ 
48 clock t utime; 

49 clock t _stime; 

50 ) sigchld; 

51 

52 /* SIGILL, STGFPE, SIGSEGV, SIGBUS */ 
53 struct | 

54 void * addr; /* faulting insn/memory ref. */ 
55 } sigfault; 

56 

57 /* SIGPOLL x/ 

58 struct { 

59 int band; /* POLL IN, POLL OUT, POLL MSG */ 
60 int fd; 

61 ) sigpoll; 

62 ) sifields; 


63 } siginfo t; 


如 前 所 述 ， 信 和 吕 机 制 是 对 中 断 机 制 的 模拟 。 就 像 中 断 请 求 dE. CROWD 信号 所 载 送 的 信息 是 二 
元 的 ， 也 就 是 “有 ”或 “没有 ”， 仅 此 而 已 。 在 中 断 机 制 中 ，“: 般 都 是 山中 断 服 务 程序 来 读 相应 外 设 的 
状态 寄存 器 以 获取 进 步 的 信息 ， 所 以 传统 的 信号 也 得 要 与 其 他 的 手段 相 结 合 4 能 完成 一 些 信息 量 要 
求 稍 大 的 通信 。 针 对 这 个 缺点 ， 改 进 后 的 信号 机 制 使 通信 的 双方 可 以 随 信 号 :起 传递 个 siginfo t 数 
据 结 构 以 及 一 个 void 指针 。 其 中 siginfo_t 结构 的 主体 是 一 个 union, 根据 信号 类 型 si_signo 的 值 而 赋予 
不 同 的 解释 ; hi void 指针 所 指 的 数据 类 型 则 由 通信 的 双方 自行 约定 。 

此 处 先 将 Linux 信号 的 专用 名 、 定 义 值 以 及 默认 反应 等 项 信息 列 十 表 6.1。 
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表 6.1 Linux 信号 专用 名 、 定 义 值 与 默认 反应 

信号 名 定义 值 用 途 或 来 源 默认 的 反应 
SIGHUP l 控制 TTY 断 开 连接 HEER II: 
SIGINT 2 Regit ET CTRL_C HFEA L 
SIGQUIT 3 TTY 键盘 上 按 CTRL V 进程 流产 《core) 
SIGILL 4 非法 指令 〈 异 党 ) 进程 流产 《core》 
SIGTRAP 5 遇 到 debug 断 点 ， 用 于 调试 进程 流产 (core) 
SIGABRT 6 使 进程 流产 进程 流产 《core) 
SIGIOT 6 同上 同上 
SIGBUS 7 访问 内 存 失 败 进程 流产 《〈core) 
SIGFPE 8 算术 运算 或 浮 点 处 理 出 错 进程 流产 《core》 
SIGKILL 9 使 进程 终止 (不 可 有 屏 责 ) 进程 终止 
SIGUSRI 10 由 应 用 软件 自行 定义 和 使 月 忽略 
SIGSEGV 11 越界 访问 内 存 进程 流产 (core) 
SIGUSR2 12 由 应 用 软件 白 行 定义 和 使 用 忽略 
SIGPIPE 13 SERA Mahia XD 进程 终 小 
SIGALRM 14 由 setitimer( X E RED SR UAR 忽略 
SIGTERM 15 使 进程 终止 进程 终止 
SIGSTKFLT 16 用 于 堆栈 出 错 《〈 尚 本 使 用 ) 进程 终止 
SIGCHLD 17 用 于 子 进程 终止 忽略 
SIGCONT 18 进程 继续 运行 ， 与 SIGSTOP 结合 使 用 忽略 
SIGSTOP 19 进程 暂停 运行 ， 转 入 TASK, STOPPED 状态 进程 暂停 
SIGTSTP 20 CTRL Z, HERE "ftii" CTASK, STOPPED) 进程 暂停 
SIGTTIN 21 后 台 进 程 读 控制 终端 时 使 用 进程 暂停 
SIGTTOU 22 后 台 进 程 写 控制 终端 时 使 用 进程 暂停 
SIGURG 23 用 于 紧急 VO 状况 忽略 
SIGXCPU 24 进程 使 用 CPU 已 超出 限制 HER I 
SIGXFSZ 25 文件 大 小 超出 限制 
SIGVTALRM 26 H setitimer( ) 设 管 的 “虚拟 ”定时 器 到 点 进程 终止 
SIGPROF 27 由 setitimer( ) 设 置 的 “统计 ”定时 器 到 点 进程 终于 
SIGMNCH 28 控制 终端 窗口 的 大 小 被 改变 忽略 
SIGIO 29 用 十 异步 VO 进程 终止 
SIGPOLL 29 用 于 异步 vo 进程 终止 
SIGPWR 30 用 于 电源 失效 进程 终止 
SIGUNUSED 31 RA, AGA 进程 终止 
SIGRTMIN 32 从 SIGRTMIN 至 SIGRTMAX 为 “实时 ”信和 号 进程 终止 
SIGRTMAX (NSIG 一 1) 





以 前 ,进程 的 task. struct 结构 中 有 两 个 位 图 (sigset_t 结构 )signal 和 blacked( 现 在 signal 在 task. struct 
结构 内 部 的 sigpending 结构 pending 中 )， 分 别 用 米 模 拟 中 断 控制 器 硬件 中 的 中 断 状态 或 者 说 中 断 请 
求 ) 寄存 器 和 中 断 详 项 寄存 器 。 每 当 有 -个 中 断 请 求 到 来 时 ， 中 断 状 态 寄存 器 中 与 之 相应 的 某 位 就 
被 置 成 1， 表示 有 相应 的 中 断 请 求 在 等 待 处 理 , 几 且 一 占 要 到 中 断 响应 程序 读 出 这 个 寄存 器 时 才 义 被 清 
0。 如 果 连 续 有 两 次 中 断 请 求 到 来 ， 则 有 可 能 因为 处 埋 嚣 来 不 及 响应 而 被 “合并 ”， 因 为 中 断 状态 寄存 
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器 中 其 体 的 状态 位 一 旦 被 置 成 ] 以 后 (在 清 0 之 前 ) 就 反映 不 出 到 底 被 连续 几 次 置 1。 在 中 断 机 制 中 这 
并 不 是 什么 问题 ， 因 为 道 常 中 断 响应 程序 在 检测 到 某 个 中 断 “ 通 道 ” 中 有 中 断 请 求 就 会 “ 轮 询 ” 连 接 


并 ”效应 只 是 形式 上 的 ， 不 是 实质 人 性 的 。 

可 是 ， 在 信号 机 制 中 就 不 同 了 。 接 收 到 信号 的 进程 无 法 “ 轮 询 ”所 有 可 能 的 信号 来 源 。 因 此 ， 在 
言 号 机 制 中 这 种 “合并 ”效应 是 实质 性 的 。 解 决 这 个 问题 的 出 路 在 十 为 信号 准备 个 队列 ， 每 产生 一 
个 信和 号 就 把 它 挂 入 这 个 队列 ， 这 样 就 可 以 确保 一 个 信号 也 不 会 于 失 了 。 所 以 ， 就 在 task struct 结构 中 
设置 了 一 个 信号 队列 , 后 来 又 把 task. struct 结构 中 的 信号 队列 和 信和 号 位 图 合并 成 为 一 个 sigpending 数据 
结构 ， 定 义 于 include/linux/signal.h 中 : 





17 struct sigpending { 


18 struct sigqucuc *head, **tail; 
19 sigset_t signal; 
20. 4}; 


顺便 提 一 卜 ， 在 task struct 中 还 有 两 个 用 于 信号 机 制 的 成 分 。 一 个 是 sas_ss_sp， 用 于 记录 当 进 程 
在 用 户 空 间 执 行 信号 处 理 程序 时 的 堆栈 位 置 。 另 一 个 是 sas_ss_size， 那 就 是 堆栈 的 大 小 。 下 面 我 们 列 
出 task. struct 数据 结构 中 所 有 与 信号 有 关 的 成 分 ， 以 便 查阅 : 


277 struct task struct { 


283 int sigpending; 
317 int exit code, exit signal; 
318 int pdeath signal; /* The signal sent when the parent dies */ 


379 /* signal handlers */ 


380 spinlock_t sigmask lock; /* Protects signal and blocked */ 
381 struct signal struct *sig; 

382 

383 sigset t blocked; 

384 struct sigpending pending; 

385 

386 unsigned long sas ss sp; 

387 Size t sas ss size; 

397 s 


注意 在 task, struct 结构 中 有 个 字段 叫 sigpending， 是 个 整数 ， 用 来 表示 这 个 进程 是 否 有 信号 在 等 待 
处 理 ， 而 上 述 的 sigpending 数据 结构 则 包括 一 个 信号 队列 和 一 个 信号 位 图 ， 不 要 把 两 个 sigpending 搞 
混 清 了。 

上 述 的 种 种 改进 无 疑 是 很 有 必要 的 ， 但 是 可 异 来 迟 了 。 在 作出 这 些 改 进 之 前 ， 人 们 已 经 在 Unix 上 
开发 了 很 多 使 用 信和 号 的 软件 。 就 信号 的 使 用 而 襄 ， 这 些 软件 在 相当 程度 上 可 以 说 是 为 早期 欠 成 熟 的 信 
号 机 制 量 身 定做 的 。 现 在 对 信号 机 制 有 了 改进 ， 但 是 对 这 些 已 经 存在 的 软件 还 要 保证 它们 能 在 新 的 环 
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境 中 “发 挥 余热 "”， 并 且 不 改变 其 运行 时 的 “习性 ”。 显 然 ， 比 较 简 单 的 办 法 是 保留 原先 山 经 定义 的 (31 
个 ) 信号 个 变 (包括 有 关 的 系统 调用 以 及 使 用 方式 )， 而 另外 表 定 义 一 些 新 的 信 与 (和 - 些 新 的 系统 调 
用 7， 对 这 些 新 的 信号 则 实施 改进 了 的 信号 机 制 。 在 实践 中， 这 种 对 “ 老 编 制 ” 实 行 “ 老 政 策 ”“ 新 编 
制 ” 实 行 “ 新 政策 ”的 现象 常常 是 不 可 避免 的 。 另 一 方面 ， 仔 细 想 下 就 可 以 明白 ， 上 述 的 这 些 改 进 
其 实 大 多 是 跟 时 间 有 关 的 ， 所 以 把 新 增加 的 信和 号 称 为 RT〈 实 时 ) 信号 。 从 SIGRTMIN 到 SIGRTMAX 
全 都 是 这 些 RT (EE, Bet, KBE RAR RT 这 两 个 宁 术 迷惑 ， 这 些 信号 与 一 般 意义 上 的 “ 实 
时 ”并 没有 关系 。 例 如 ， 这 些 信和 号 的 传递 不 比 普通 的 信号 快 ， 也 没有 时 间 上 的 承诺 。 

有 了 上 面 这 些 预 备 知识 ， 我 们 就 可 以 开始 介绍 代码 了 。 

eG AKEHE” 也 就 是 信号 处 理 程序 的 “安装 ” 其 作用 类 似 于 中 断 间 量 的 设置 。Linux 为 此 提 
供 了 一 个 系统 调用 。 第 -- 个 是 “传统 的 ” 老 的 调用 : 


sighandler t signal (int signnm , sighandler t handler ) ; 





这 里 的 数据 类 型 sighandler_t 为 指向 信号 处 理 程序 的 函数 指针 。 调 用 的 参数 有 两 个 ， 一 个 是 信号 的 
定义 值 signum (如 SIGINT)， 另 一 个 就 是 指向 出 用 户 定义 的 该 信号 处 理 程序 的 水 数 指针 handler. Ait 
handler 也 可 以 是 两 个 特殊 值 之 一 ， 即 SIG_IGN 或 SIG_DFL， 分 别 表示 忽略 该 信号 或 采取 对 此 信号 的 
次 认 反 应 。 系 统 调 用 的 返回 信 为 该 信号 原先 的 handler。 其 他 两 个 系统 调用 则 是 新 的 ， 但 是 在 用 户 程序 
设计 界面 上 却 作 为 相同 的 库 函 数 出 现 : 


int sigaction (int signum, const struct sigaction * newact, struct *sigaction oldact); 


这 个 库 函 数 会 根据 信号 的 编号 不 同 , 确定 应 该 落实 系统 调用 sys. sigaction( ) 还 是 sys_rt_sigaction( ). 

这 里 的 signum 还 是 一 样 ， 而 newact 和 oldact 为 两 个 指向 sigaction 数据 结构 的 指 外 。 其 中 newact 
所 指向 的 结构 为 新 的 、 待 设置 的 向 量 ， 放 oldact 所 指 则 为 用 来 返回 老 向 量 的 数据 结构 。 

像 其 他 系统 调用 一 样 ， 它 们 在 内 核 中 的 入 口 分 别 为 sys_signal( )，sys_sigaction( ) 和 
sys_rt_sigaction( )。 函 数 sys_signal( ) 是 在 kernel/signal.c 中 定义 的 : 


1244 /* 
1245 * For backwards compatibility. Functionality superseded by sigaction. 
1246 */ 


1247 asmlinkage unsigned long 
1248 sys signal(int sig, __sighandler_t handler) 


1249 { 

1250 struct k sigaction new sa, old sa; 

1251 int ret; 

1252 

1253 new sa.sa.sa handler - handler; 

1254 new sa.sa.sa flags = SA ONESHOT | SA NOMASK; 
1255 

1256 ret = do sigaction(sig, &new sa, &old sa); 
1257 

1258 return ret ? ret : (unsigned long)old.sa.sa.sa handler; 
1259  ] 
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函数 sys_rt_sigaction( ) 也 在 同一 个 文件 中 ， 


1187 asmlinkage long sys rt sigaction(int sig, const struct sigaction *act, 
1188 struct sigaction *oact, 


1189 size t sigsetsize) 

1190 ( 

1191 struct k sigaction new sa, old sa; 

1192 int ret = -EINVAL; 

1193 

1194 /* XXX: Don't preclude handling different sized sigset t's. */ 
1195 if (sigsetsize != sizeof(sigset 1)) 

1196 goto out; 

1197 

1198 if (act) ( 

1199 if (copy from user(&new sa.sa, act, sizeof (new sa. sa))) 
1200 return -EFAULT; 

1201 ) 

1202 

1203 ret = do sigaction(sig, act ? &new sa : NULL, oact ? &old sa : NULL); 
1204 

1205 if (lret && oact) | 

1206 if (copy to user(oact, &old sa.sa, sizeof (old sa. sa))) 
1207 return -EFAULT; 

1208 } 

1209 out: 

1210 return ret; 

1211 } 


比较 一 下 就 可 以 看 出 ， 这 贞 个 函数 其 实 都 调用 do, sigaction( ) 完 成 具体 的 操作 。 所 不 同 的 是 ， 
sys. signal( ) 从 应 用 程序 得 到 的 信息 量 较 少 (只 有 handler), 同时 又 要 保持 早期 Unix 中 系统 调用 signal( ) 
相同 的 性 状 , 所 以 将 new_sa.sa.sa_flags 固定 设 成 (SA_ONESHOT1SA_NOMSK)。 标 志 位 SA_ONESHOT 
表示 所 设置 的 向 量 是 “一 次 性 ”的 ， 也 就 是 要 按 传统 的 方式 ， 在 使 用 了 所 设置 的 函数 指名 以 后 就 将 其 
BUR SIG_DFL， 而 用 户 空 间 中 的 信号 处 理 程 序 则 负 有 再 次 调用 signal( ) 恢 复 该 向 量 的 责任 。 另 一 个 标 
志 位 SA_NOMSK, 则 表示 在 执行 信号 处 理 程 序 时 不 使 用 任何 信和 号 屏蔽 ,内 | 为 最 初 的 信号 机 制 中 是 没有 
信号 屏蔽 这 说 的 。 

235 — ^" eh RE sys_sigaction( ) 实 际 上 是 与 sys_rt_sigaction( ) 一 样 的 ， 只 是 细节 略 有 不 同 。 首 先 ， 是 在 
sys. sigaction( ) 中 不 存在 第 四 个 参数 sigsetsize。 其 次 ， 也 许 更 重要 的 ， 是 在 sys_sigaction( ) 参 数 表 中 使 
用 的 是 old_sigaction 结构 指名 ， 而 不 是 sigaction 结构 指针 。 这 两 种 数据 结构 含有 相同 的 成 分 ， 但 是 这 
些 成 分 在 结构 中 的 次 序 不 同 , 所 以 在 sys_sigaction( ) 中 只 好 把 这 些 成 分 逐 项 地 从 用 户 空 间 复 制 到 系统 空 
间 ， 沿 不 能 像 在 sys_rt_sigaction( ) 中 那样 把 整个 数据 结构 次 就 复制 过 来 。 读 者 也 许 会 好 奇 ， 为 什么 要 
改变 这 些 成 分 在 数据 结构 中 的 次 序 呢 ? 这 不 是 白 找 麻烦 吗 ? 其 实 这 样 做 是 有 道理 的 。 在 old_sigaction 
BUS MJ", sa mask 挤 在 sa. handler 与 sa flags 中 间 ， 这 样 就 限制 了 sa mask 步 扩 充 其 大 小 ， 也 
就 是 定义 更 多 信号 的 可 能 。 所 以 ， 在 sigaction 数据 结构 中 将 sa. mask 移 到 了 末尾 ， 这 样 当 sa_mask 的 
大 小 改变 时 ， 虽 然 sigaction 的 大 小 也 此 随 之 改变 ， 但 各 个 成 分 在 数据 结构 中 的 位 移 却 不 会 改变 。 考 虑 
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到 这 一 点 ， 明 知 这 样 做 会 带 来 不 使 也 只 好 “忍痛 ”了 。 事 实 上 ， 对 于 涉及 内 核 代码 的 人 来 说 ， 可 能 带 
来 的 混 清 还 真是 不 小 ， 因 为 在 应 用 程序 中 所 用 的 sigaction 数据 结构 却 又 是 对 应 于 内 核 代码 中 的 
oldsigaction 数据 结构 ! 这 完全 要 靠 不 同 的 “.h” 文 件 来 把 它们 区 分 开 来 。 不 过 ， 好 在 内 核 中 用 到 这 个 
数据 结构 的 代码 只 是 很 小 一 段 。 
不 管 怎样 ， 这 三 个 函数 最 终 都 是 调用 do_sigaction( ) 来 完成 的 ， 它 才 是 这 些 系统 调用 的 主体 ， 其 代 
码 也 在 kemel/signalc 中 《注意 ， 在 arch/i386/kernel 日 录 下 也 有 个 signal.c?: 


[sys_signal( ) > do. sigaction( )] 


1011 int do sigaction(int sig, const struct k sigaction *act, 


1012 struct k sigaction *oact) 

1013 { 

1014 struct k sigaction *k; 

1015 

1016 if (sig < 1 || sig > _NSIG || 

1017 (act && (sig == SIGKILL || sig == SIGSTOP) )) 

1018 return -EINVAL; 

1019 

1020 k = &current->sig->action[sig-1]; 

1021 

1022 spin_lock(&current->sig—>siglock) ; 

1023 

1024 if (oact) 

1025 *oact = *k; 

1026 

1027 if (act) { 

1028 *k = *act; 

1029 sigdelsetmask (&k->sa. sa_mask, sigmask(SIGKILL) | sigmask(SIGSTOP)) ; 
1030 

1031 /* 

1032 * POSIX 3. 3. 1. 3: 

1033 * "Setting a signal action to SIG IGN for a signal that is 
1034 * pending shall cause the pending signal to be discarded, 
1035 * whether or not it is blocked.” 

1036 * 

1037 * "Setting a signal action to SIG DFL for a signal that is 
1038 * pending and whose default action is to ignore the signal 
1039 * (for example, SIGCHLD), shall cause the pending signal to 
1040 * be discarded, whether or not it is blocked" 

1041 * 

1042 * Note the silly behaviour of SIGCHLD: SIG IGN means that the 
1043 * signal isn't actually ignored, but does automatic child 
1044 * reaping, while SIG DFL is explicitly said by POSIX to force 
1045 * the signal to be ignored. 

1046 */ 

1047 


. 726 . 


1048 
1049 
1050 
1051 
1052 
1053 
1054 
1055 
1056 
1057 
1058 
1059 
1060 
1061 
1062 


) 
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if (k->sa. sa handler == SIG IGN 

|| (k->sa. sa_handler == SIG DFL 

&& (sig == SIGCONT || 
sig == SIGCHLD |! 
sig == SIGWINCH))) | 

spin lock irq(&current-^sigmask lock); 

if (rm sig from queue(sig, current)) 
recalc sigpending (current); 

spin unlock irq(&current-^sigmask lock); 


) 


spin unlock (&current—>sig->siglock) ; 
return 0; 


系统 对 信号 SIGKILL 和 SIGSTOP 的 响应 是 不 允许 改变 的 ， 所 以 要 放 在 开头 时 加 以 检查 。 同 时 ， 


这 两 个 信号 也 不 允许 被 屏蔽 ,所 以 要 在 翌 滴 位 网 k->sa.sa_mask 中 将 与 这 两 个 信和 号 对 应 的 屏蔽 位 清除 ( 见 
1029 行 )。 信 和 号 的 数值 是 从 1 开始 定义 的 , 所 以 在 用 信和 号 数值 作为 数组 卜 标 时 旨 用 sig 一 1 而 不 是 sig( 见 
1020 行 )。 注 意 1024 行 和 1028 行 中 的 赋值 都 症 整 个 数据 结构 的 赋值 。 


当 新 设置 的 向 量 为 SIG_IGN 时 ， 或 者 为 SIG_DFL 而 涉及 的 信号 为 SIGCONT、SIGCHLD 和 


SIGWINCH 之 一 时 ， 如 果 已 经 有 一 个 或 几 个 这 样 的 信号 在 等 待 处 理 , 则 按 POSIX 标准 的 规定 此 将 这 些 
已 经 到 达 的 信号 丢弃 ， 所 以 通过 rm_sig_from_queue( ) 接 弃 已 经 到 达 的 信号 。 该 函数 的 代码 在 
kernel/signal.c 中 : 


[sys_signal( ) > do sigaction( ) > rm sig from queue( )] 


294 
295 
296 
297 
298 
299 
300 
301 
302 
303 


/ 


* 


* Remove signal sig from t—>pending. 
* Returns 1 if sig was found. 


* 


* All callers must be holding t->sigmask lock. 


*/ 


static int rm sig from queue (int sig, struct task struct *t) 


{ 
} 


return rm from queue(sig, &t->pending) ; 


函数 rm_from_gueue( ) 也 在 同一 文件 中 : 


[sys signal( ) > do_sigaction( ) > rm sig from queue( ) > rm from, queue( )] 


210 
271 
272 
273 


static int rm from queue(int sig, struct sigpending *s) 


{ 


struct sigqueue *q, **pp; 
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274 if (Isigismember(&s-^signal, sig)) 

215 return Q; 

276 

277 sigdelset (&s—>signal, sig); 

278 

279 pp = &s->head; 

280 

281 while ((q - *pp) != NULL) { 

282 if (q^ info.si signo == sig) { 

283 if (Opp = q >next) =— NULL) 
284 s->tail = pp; 

285 kmem cache free(sigqueue, cachep, q) ; 
286 atomic dec(&nr queued signals); 
287 continuo; 

288 ) 

289 pp = &q->next; 

290 ) 

291 return 1; 

292  ] 


WAS BARS KA, SE TAT Ss EPEERERE, 是 由 task. struct 结构 中 的 位 图 signal 

来 反映 的 ， 位 图 中 的 菜 一 位 为 1 ROARS TMA SARE, (MAC A 
到 了 几 个 同 种 的 信和 号。 在 这 种 情况 下 只 是 简单 地 将 位 图 中 相应 的 标志 位 清 0 (X 277 行 )。 而 对 于 新 的 
“实时 ”信号 ， 则 信号 的 到 达 椒 光 是 定性 的 ， 也 号 定量 的 。 到 达 的 信 吕 除了 使 位 图 中 的 相应 标志 位 党 

成 1 以 外 还 进入 了 本 进程 的 信号 队 询 ， 所 以 还 此 在 队列 中 搜索 并 将 其 释 族 《〈 见 281 行 的 while 循环 )。 

回 到 do. sigaction( ) 的 代码 中 ， 由 于 丢弃 了 若干 已 经 到 达 的 信号， 当前 进程 的 task struct 结构 中 表 

EMA Cl) 信号 在 等 待 处 理 的 总 标志 sigpending 也 得 要 从 重新 算 一 下 了 《 见 1055 行 )。 读 者 也 

许 会 问 , 为 什么 task_struct 结构 中 要 有 那么 个 总 标志 ? 判断 ”下 sigpending 结构 中 的 位 图 signal 是 否 为 

0 不 就 可 以 了 史 ? 问题 在 丁 位 图 并 不 就 是 一 WE. 从 前 ， 当 信号 的 数量 少 于 32 SHY, MEAE 

可 以 的 ， 但 现在 不 行 了 

PRU "omne" 有 关 的 系统 调用 还 有 些 

sigprocmask( ) 一 一 改变 本 进程 task_struct {iF KHA 5 SPADES blocked. TERIA Stach AR 
体 的 向 量 k_sigaction 数据 结构 中 的 屏蔽 位 图 sa_mask 不 同 。 位 图 sa_mask 的 屏蔽 位 只 在 执行 相应 的 处 
理 程 序 时 才 起 作用 ， 而 blocked “PANACEA WARE EM. SEE, BIR “GPa” INSERT 
阻止 对 出 经 到 达 的 信号 作出 响应 ， 号 屏 蔽 取消 ， 这 些 已 经 到 达 的 信号 还 是 会 得 到 处 理 的 。 

sigpending( ) 一 一 检查 有 哪些 信号 已 经 到达 而 尚 术 处 理 。 

sigsuspend( ) 一 -暂时 改变 本 进程 的 信号 屏蔽 位 图 ， 并 使 进程 进入 睡 距 ， 等 待 什 何 一 个 未 被 屏 培 的 
Hu. 

这 些 系 统 调用 也 部 有 相应 的 “实时 信号 ”版 本 ， 如 rt sigsuspend( ) 等 。 所 有 这 些 系统 调用 的 实现 大 
都 在 arch/i386/kernel/signal.c 和 kcrnel/signal.c 岗 个 文件 中 ,一 来 限于 篇 幅 , 二 来 也 给 读者 留 下 举一反三 
的 空间 ， 这 里 就 不 深入 人 到 有关 的 代码 中 去 了 了 。 

“ 信 呈 向量” 设置 好 了 ， 就 作 好 了 接收 和 处 理 信 号 的 准备 ， 下 一 步 环 要 看 怎样 向 一 个 进程 发 送信 
5ST. 
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F ASS MASCARA E IH TRI RR. HOM ARE kill( ): 


int kill( pid t pid, int sig); 


BR pid H AAA pid, 74 pid A OHT, Ap Axe aW RET ADEA np GE ERE, X9 —1 
时 则 发 送 给 系统 中 的 所 有 进程 。 
新 的 版 本 为 sigqueue( ): 


int sigqueue( pid t pid , int sig , const union sigval val); 


与 kill( ) 不 同 的 是 , sigqueue( ) 发 送 的 除 信号 sig 本 身 外 还 有 附加 的 信息 , 就 是 val. 此 外 ， sigqueue( ) 
只 能 将 信和 吕 发 送 给 一 个 特定 的 进程 , 而 不 像 kill( ) 那 样 可 以 通过 将 参数 pid 设 成 0 来 发 送 给 整个 进程 组 。 
参数 val 是 个 union， 它 可 以 是 一 个 长 整数 ， 但 实际 上 总 是 一 个 指向 siginfo 数据 结构 的 指针 。 
在 clib 中 还 有 个 库 函数 raise(int sig)， 用 来 发 送 “个 信号 给 自己 ， 相 当 于 killgetpid( ),sig)。 
系统 调用 kill( ) 在 内 核 中 的 主体 为 sys_kill( )， 其 代码 人 在 kernel/signal.c 中 : 


N 


979 asmlinkage long 
980 Sys kill(int pid, int sig) 


981 { 

982 struct siginfo info; 

983 

984 info. si_signo = sig; 

985 info. si_errno = 0; 

986 info. si_code = ST_USER; 

987 info. si_pid = current->pid; 
988 info.si uid = current->uid: 
989 

990 return kill something info(sig, &info, pid); 
991] | 


这 段 代码 很 简单 ， 先 准备 下 一 个 siginfo 结构 ， 然 后 调用 kill. something info(): 


[sys kill( ) > kill something. info( )] 


651 /* 

652 * kill something info( ) interprets pid in interesting ways just like kill(2). 
653 * 

654 * POSIX specifies that kill(-1,sig) is unspecified, but what we have 

655 * is probably wrong. Should make it like BSD or SYSV. 

656 */ 

657 


658 static int kill something info(int sig, struct siginfo *info, int pid) 
659 { 
660 if (tpid) { 
661 return kill pg info(sig, info, current->pgrp); 
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ee A 


662 ) else if (pid == -1) 1 

663 int retval = 0, count = 0; 

664 struct task struct * p; 

665 

666 read lock(&tasklist locl); 

667 for each task(p) { 

668 if (p>pid > 1 && p != current) { 
669 int err = send sig info(sig, info, p): 
670 ++count; 

671 if (err != -EPERM) 

672 retval = err; 

673 } 

674 } 

675 read unlock(&tasklist lock); 

676 return count ? retval : —ESRCH; 

671 ) else if (pid < 0) { 

678 return kill pg info(sig, info, -pid); 
679 } else { 

680 return kill proc_info(sig, info, pid); 
681 } 

682  ] 


可 见 ， 之 所 以 需要 Kill something info( ) 这 一 层 ， 是 因为 要 根据 pid 的 值 来 确定 是 要 将 信号 发 送 给 
一 个 特定 的 进程 (通过 kill_proc_info( ))， 还 是 整个 进程 组 〈 通 过 kill_pg_info( ))， 还 是 全 部 进程 ? 

相 比 之 下 ， 另 -个 系统 调用 sigqueue( ) 只 人 允许 将 信号 发 送 给 -个 特定 的 进程 , 并 且 随 同 信 号 发 送 的 
siginfo 结构 也 是 由 用 户 进程 白 己 设置 的 ， 所 以 它 在 内 核 中 的 实现 sys_rt_sigqueue( ) 就 要 简单 得 多 (也 在 
kernel/signal.c 中 )。 


993 asmlinkage long 
994 sys rt sigqueueinfo(int pid, int sig, siginfo t *uinfo) 


995 | 

996 siginfo t info; 

997 

998 if (copy from user(&info, uinfo, sizeof (siginfo_t))) 

999 return -REFAULT; 

1000 

1001 /* Not even root can pretend to send signals from the kernel. 
1002 Nor can they impersonate a kill( ), which adds source info. */ 
1003 if (info.si code >= 0) 

1004 return —EPERM; 

1005 info.si signo - sig; 

1006 

1007 /* POSIX. ib doesn't mention process groups. */ 

1008 return kill proc info(sig, &info, pid): 

1000  ] 


这 蛙 的 Kill. proc. info( ) 根 据 pid 找到 目标 进程 的 task_struct 结构 ， 然 后 道 过 send. sig info(), Hs 
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号 发 送 给 它 (kemel/signal.c): 
[sys kill( ) > kill something info( ) > kili proc info( )] 


635 inline int 
636 kill proc info(int sig, struct siginfo *info, pid t pid) 


637  ( 

638 int error; 

639 struct task struct *p; 

640 

641 read lock(&tasklist lock); 
642 p = find task by pid(pid); 
643 error - -ESRCH; 

644 if (p) 

645 error - send sig info(sig, info, p); 
646 read unlock(&tasklist lock): 
647 return error; 

648 } 


而 kill_pg_info( ) 则 将 同 fa S RIEA AMEH: 


[sys kill( ) > kill_something_info( ) > kill pg. info( )] 


582 /* 

583 * kill pg info( ) sends a signal to a process group: this is what the tty 
584 * control characters do (C, ‘7 etc) 

585 */ 

586 

587 int 

588 kill pg info(int sig, struct siginfo *info, pid t pgrp) 
589 { 

590 int retval = —EINVAL; 

591 if (pgrp > 0) { 

592 struct task struct *p; 

593 

594 retval = -ESRCH; 

595 read lock(&tasklist lock); 

596 for each task(p) { 

597 if (p->pgrp == perp) { 

598 int err = send sig info(sig, info, p); 
599 if (retval) 

600 retval = crr; 

601 ) 

602 } 

603 read_unlock (&tasklist_lock) ; 

604 } 

605 return retval; 
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AY KL, kill pg info( ) 最 终 也 是 逐个 地 找到 同一 进程 组 中 历 有 进程 的 task struct. 结构 ， 并 调用 


send. sig. info( ) 将 信号 发 送 给 它们 ， 也 就 是 说 ， 最 后 都 是 通过 send_sig_info( ) 来 完成 的 。 我 们 在 第 4 章 


mt 
Ah 


系统 调用 exit( INEPT, EARRA RAR CERET. ME, UDR BSR 
送 的 。 其 代码 在 signal.c 中 。 这 个 函数 比较 大 ， 所 以 还 是 分 段 米 看 Ckernel/signal.c): 


[sys_kill( ) > kill_something_info( ) > kill proc info( ) > send sig info( )] 


503 
504 
505 
506 
507 
508 
509 
510 
511 
512 
513 
514 
515 
516 
517 
518 
519 
520 
521 
522 
523 
524 
525 
526 
527 


int 
send sig info(int sig, struct siginfo *info, struct task struct *1) 
{ 

unsigned long flags; 

int ret; 


#if DEBUG SIG 
printk(’SIG queue (%s:%d): *d ", t->comm, t->pid, sig); 
Hendif 

ret = —EINVAL; 

if (sig < 0 || sig > _NSIG) 

goto out nolock; 
/* The somewhat baroque permissions check... */ 
ret = -EPERM; 


if (bad signal(sig, info, t)) 
goto out nolock; 
/* The null signal is a permissions and process existance probe. 
No signal is actually delivered. Same goes for zombies. */ 
ret - 0; 
if (sig || !t~sig) 


goto out nolock; 


HAE MASAMI Ky Sr, MAR "RUSO EDU. 这 是 通过 bad signal( ) 进 行 的 《signal.c): 


[sys_kill( ) > kill something info( ) > kill proc info( ) > send. sig info( ) > bad signal )] 


305 
306 
307 
308 
309 
310 
311 
312 


/* 

* Bad permissions for sending the signal 

*/ 

int bad signal(int sig, struct siginfo *info, struct task struct *t) 


{ 


return (!info |! ((unsigned long)info != 1 && SI_FROMUSER (info))) 
&& ((sig != SIGCONT) || (current session != t—>session)) 
&& (current-^euid ^ t->suid) && (current—>euid ^ t->uid) 
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313 && (current->uid ° t-^suid) && (current->uid ^ t->uid) 
314 && 'capable(CAP KILI); 
315 vJ 


这 里 的 current 指向 当前 进程 (信号 的 发 送 者 ) 的 task. straet 结构 ，t 则 指向 晶 标 进程 〈 信 号 的 接收 
者 ) 的 task struct 结构 。 宏 操作 SI FROMUSER( ) 以 及 有 关 的 “- 些 定义 都 在 include/asm-i386/siginfo.h 
中 ， 


99 /* 

100 * si code values 

101 * Digital reserves positive values for kernel-generated signals 

102 */ 

103 #define SI USER 0 /* sent by kill, sigsend, raise */ 

104 Hdefine SI KERNEL 0x80 /* sent by the kernel from somewhere */ 
105 define ST QUEUE zf /* sent by sigqueue */ 

106 #define ST TIMER . SI CODE( SI TIMER, -2) /* sent by timer expiration */ 
107 #define SI MESGQ =3 /* sent by real time mesq state change */ 
108 #define SI ASYNCIO -4 /* sent by AIO completion */ 

109 #define SI SIGIO -5 /* sent by queued SIGIO */ 

110 


111 H#define SI FROMUSER(siptr) ((siptr)-^si code <= 0) 
112 #define SI FROMKERNEL (siptr) ((siptr)-^si code > 0) 


上 列 的 7 个 常数 用 于 siginfo 结构 中 的 si code 字段 ， 用 来 区 分 7 种 不 同 的 信号 源 ， 读 者 可 以 结合 
看 一 下 前 面 sys_kill( ) 中 的 986 行 。 在 sys_rt_sigqueueinfo( ) 中 ， 则 随同 siginfo 结构 一 起 来 自 进程 的 用 
户 空间 ， 其 值 必须 为 一 负数 。 

信号 一 般 只 能 发 送 给 属于 同一 个 session CULA 4 章 有 关 说 明 ) 以 及 同一 个 用 户 〈 见 “文件 系统 ” 
TE) 的 进程 ， 和 除非 发 送信 号 的 进程 可 以 通过 suser( ) 暂 时 性 地 得 到 特权 用 户 的 权限 。 代 码 中 的 
capable(CAP_KILL) 正 是 试图 取得 这 种 特权 ， 读 者 中 参 疝 “文件 系统 ”一 章 中 的 有 关内 容 。 

这 时 要 提醒 一 下 。 在 上 面 的 评语 名 中 ，capable(CAP_KILL) 出 现在 一 个 “与 ” 条 件 表达 式 中 ， 所 以 
只 有 在 前 面 的 所 有 各 项 均 为 tue 时 才 会 执行 ， 这 起 由 C 语言 的 语义 规则 决定 的 。 还 有 ， 这 里 的 异 或 运 
算 ， 如 current -> euid ^ t -> suid)， 实 际 上 就 是 检验 两 者 是 否 不 等 。 

我 们 假定 通过 了 所 有 这 些 检验 ， 继 续 往 卜 看 (kernelsignal.c): 


[sys kill( ) > kill_something_info( ) > kill proc info( ) > send sig info( )] 


528 spin lock irqsave(&t-^sigmask lock, flags); 

529 handle stop signal(sig, t); 

530 

531 /* Optimize away the signal, if it's a signal that can be 
532 handled immediately (ie non-blocked and untraced) and 

533 that is ignored (either explicitly or by default). */ 
534 

535 if (ignored signal(sig, t)) 

536 goto out; 
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前 面 讲 过 ， -个 进程 可 以 通过 信号 屏蔽 位 图 米 暂 时 扣 绒 〈 或 遮盖 ) 所 接收 到 的 信号 。 但 是 ， 在 接 
收 到 某 些 特定 的 信号 以 后 ， 就 不 容许 屏蔽 另 一 些 特定 的 后 续 信 号 ， 所 以 对 这 些 信 号 要 强行 除去 屏蔽 ， 
为 后 续 信号 的 处 理 打 清 道路 。 例 如 ， 在 接收 到 SIGSTOP 以 后 ， 其 后 续 信号 必然 是 SIGCONT， 所 以 要 
将 屏蔽 位 图 中 的 SIGCONT 屏蔽 位 强行 清 0。 而 SIGCONT 的 后 续 信 号 则 可 以 是 SIGSTOP、SIGTSTP、 
SIGTTOU 以 及 SIGTTIN 中 的 任何 一 个 ， 所 以 要 把 这 些 屏蔽 位 全 部 清除 。 另 一 方面 ， 对 于 SIGKILL 和 
SIGCONT 来 说 ， 如 果 目 标 进 程 正在 TASK_STOPPED 状态 〈 注 意 ， 不 是 睡眠 状态 ， 还 要 将 其 唤醒 ， 
也 就 是 将 进程 的 状态 改 成 TASK_RUNNING。 这 些 处 理 都 是 由 handle stop signal ) 完 成 的 。 其 代码 也 
在 同一 文件 中 : 


[sys_kill( ) > kill. something, info( ) > kill proc. info( ) > send. sig info( ) > handle stop signak )] 


374 /* 

375 * Handle TASK STOPPED cases etc implicit behaviour 
376 * of certain magical signals. 

377 * 

378 * SIGKILL gets spread out to every thread. 

379 */ 


380 static void handle stop signal(int sig, struct task struct *t) 
381 { 


382 switch (sig) { 

383 case SIGKILL: case SIGCONT: 

384 /* Wake up the process if stopped. */ 
385 if (t->state == TASK STOPPED) 

386 wake up process(t); 

387 t-^exit code = 0; 

388 rm sig from queue(SIGSTOP, t); 

389 rm sig from queue(STGTSTP, t); 

390 rm sig from queue(SIGTTOU, t); 

391 rm sig from queue(SIGTTIN, t); 

392 break; 

393 

394° case SIGSTOP: case SIGTSTP: 

395 case SIGTTIN: case SIGTTOU: 

396 /* If we're stopping again, cancel SIGCONT */ 
397 rm sig from queue(SIGCONT, 1); 

398 break; 

399 } 

400  ] 


回 到 send. sig. info( ) 的 代码 中 ，535 行 是 一 项 优化 。 如 果 日 标 进程 的 “信号 向 量 表 ”中 对 所 投递 信 
号 的 响应 是 “忽略 ”(SIG_IGN)， 并 且 不 在 跟踪 模式 中 ， 也 没有 加 以 屏蔽 ， 那 就 根本 不 用 投递 了 〔 除 
SIGCHLD 4b). MA ignored_signal( ) 的 代码 在 kernel/signal.c FP: 


[sys_kill( ) > kill_something_info( ) > Kill_proc_info( ) > send_sig_info( ) > ignored signal( )] 
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367 
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372 


[sys_kill( ) > kill_something_info( ) > kill_proc_info( ) > send sig info( ) > ignored, signal( ) 
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static int ignored signal(int sig, struct task struct *t) 
{ 


/* Don t ignore traced or blocked signals */ 


if ((t->ptrace & PT PTRACED) || sigismember(&t->blocked, sig)) 


return 0; 


return signal type(sig, t-^sig) == 0: 


) 


> signal type( )] 
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337 
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/* 
* Signal type: 


* < 0 : global action (kill - spread to all non-blocked threads) 


* = 0 : ignored 
* > 0 : wake up. 
*/ 


static int signal type(int sig, struct signal struct *signals) 
{ 


unsigned long handler; 


if (!signals) 
return 0; 


handler = (unsigned long) signals-^action[sig-1]. sa. sa handler; 


if (handler > 1) 
return l; 


/* "Ignore^ handler.. Illogical, but that has an implicit 


handler for SIGCHLD */ 
if (handler -- 1) 
return sig -- SIGCHLD; 


/* Default handler. Normally lethal, but.. */ 
switch (sig) { 


/* Ignored */ 

case SIGCONT: case SIGWINCH: 

case SIGCHLD: case SIGURG: 
return 0; 


/* Implicit behaviour */ 
case SIGTSTP: case SIGTTIN: case SIGTTOU: 
return l; 


/* Implicit actions (kill or do special stuff) */ 
default: 
return -1; 
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353 } 
354 } 
不 然 的 话 ， 就 进入 具体 投递 的 过 程 了 。 我 们 继续 往 下 看 Ckernal/signal.c): 


[sys. kill( ) > kill something info( ) > kill_proc_info( ) > send sig info( )] 


538 /* Support queueing exactly one non-rt signal, so that we 
539 can get more detailed information about the cause of 
540 the signal. */ 

541 if (sig < SIGRTMIN && sigismember (&t~>pending. signal, sig)) 
542 goto out; 

543 

544 ret = deliver signal(sig, info, t); 

545 out: 

546 spin unlock irqrestore(&t-^sigmask lock, flags); 

547 if ((t->state & TASK INTERRUPTIBLE) && signal pending(t)) 
548 wake up process (t) ; 


549 out_nolock: 
550 #if DEBUG. SIG 
551 printk(” Xd -> %d\n”, signal pending(t), ret); 


552 #endif 

553 

554 return ret; 
555  ] 


对 于 “ 老 编制 ”的 信号 (sig < SIGRTMIN)， 所 谓 “ 投 递 ” 本 来 是 很 简单 的 ， 因 为 那 只 是 将 日 标 进 
程 的 “接收 信号 位 图 ”signal 中 相应 的 标志 位 设置 成 1， 而 无 需 将 信号 挂 入 队列 。 以 前 讲 过 ， 这 样 的 机 
制 有 时 候 会 将 在 短 时 期 中 接收 到 的 多 个 同 种 信和 号 合并 成 一 个 。 但 是 ， 内 核 中 对 这 些 “ 老 编制 ”信号 也 
套用 了 siginfo 数据 结构 〔 见 sys kill( ) 的 代 但 )， 尽 管 这 个 数据 结构 中 的 信息 并 非 米 日 应 用 程序 ， 也 并 
不 完整 ， 但 多 少 总 也 载 送 着 一 些 信 息 。 所 以 ， 这 里 采用 了 -种 折 中 的 办 法 ， 襄 是 对 于 “ 老 编制 ”的 信 
号 也 将 其 siginfo 结构 挂 入 队列 中 ， 不 过 只 挂 入 一 次 。 以 SIGINT 为 例 ， 当 第 一 个 SIGINT 到 达 时 ， 接 
收 位 图 中 的 SIGINT 标志 位 为 0， 所 以 将 其 设置 成 1， 并 日 将 伴随 的 siginfo 结构 扶 入 队列 。 然 后， 如 果 
在 第 一 个 SIGINT 信和 号 尚未 处 理 时 第 二 个 SIGINT 又 到 来 了 , 则 此 时 接收 位 图 中 相应 的 标志 位 已 经 为 1， 
队列 中 已 经 有 一 个 SIGINT 的 siginfo 数据 结构 在 等 待 处 理 ， 所 以 就 不 需要 再 投递 了 。 这 就 是 S41 行 中 
sigismember( ) 所 作 的 测试 。 所 以 ， 在 来 不 及 处 理 的 情况 上 下， 相继 到 达 的 同 种 信号 就 合 首 了 。 这 样 的 实 
山 一 来 是 多 少 也 增加 了 一 些 倍 息 量 ，- :来 读者 以 后 会 看 到 简化 了 对 信和 号 作出 响应 时 的 代码 。 同 时 ， 这 
样 的 实现 也 与 传统 的 信号 机 制 在 语义 .上 完全 一 致 。 

如 果 到 达 的 信号 属于 “新 编制 >， 妇 “实时 信号 ” 或 者 虽 属 “ 老 编 制 ” 但 接收 位 图 中 相对 的 标志 
位 为 0， 那 就 要 通过 deliver signal() BE" fii T Csignal.c). 


[sys kill( ) > kill something info( ) > kill_proc_info( ) > send sig info( ) > deliver signal )] 
493 static int deliver signal(int sig, struct siginfo *info, struct task struct *) 
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494  { 

495 int retval = send signal(sig, info, &t-»pending): 
496 

497 if (!retval && !sigismember (&t->blocked, sig)) 
498 signal wake up(t); 

499 

500 return retval; 

501 } 


具体 的 操作 主要 是 send signa )， 其 代码 也 在 signale '|!: 


[sys_Kill( ) > kill. something info() > kill. proc. info() > send sig. info() > deliver. signal( ) 
> send signal( )] 


402 static int send signal(int sig, struct siginfo *info, struct sigpending *signals) 
403 { 

404 struct sigqucue * q = NULL; 

405 

406 /* Real-time signals must be queued if sent by sigqueuc, or 
407 some other real-time mechanism. It is implementation 
408 defined whether kill( ) does so. We attempt to do so, on 
409 the principle of least surprise, but since kill is not 
410 allowed to fail with FAGAIN when low on memory we just 
411 make sure at least one signal gets delivered and don't 
412 pass on the info struct.  */ 

413 

414 if (atomic read(&nr queued signals) € max queued signals) { 
415 q = kmem cache alloc(sigqueue cachep, GFP. ATOMIC) ; 

416 } 

417 

418 if (q) | 

419 atomic inc(&nr queued signals); 

420 q->next. = NULL; 

42] *signals->tail = q; 

422 signals-^tail = &q->next; 

423 switch ((unsigned long) info) { 

424 case 0: 

425 q-^info.si signo = sig; 

426 q-^info.si errno = 0; 

427 q-^info.si code = SI USER; 

428 q-^info.si pid = current—>pid: 

429 q-^info.si uid = current-»uid; 

430 break; 

431 case Í: 

432 q ^info.si signo = sig; 

433 q ^info.si errno = 0; 

434 q->info. si code = SI KERNEL; 
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435 q-^info.si pid = 0; 

436 q— info.si uid = 0; 

437 break; 

438 default: 

439 copy siginfo(&q ^info, info); 

440 break; 

441 ) 

442 } else if (sig >= SIGRTMIN && info && (unsigned long)info != 1 
443 && info-»si code !- SI USER) { 

444 /* 

445 * Queue overflow, abort. We may abort if the signal was rt 
446 * and sent by user using something other than kill( ). 
447 */ 

448 return -EAGAIN; 

449 } 

450 

451 sigaddset(Ksignals-^signal, sig); 

452 return 0; 

453  ] 


投递 时 将 siginfo 结构 的 内 容 复制 到 一 个 sigqueue 数据 结构 中 ， 并 将 这 个 结构 挂 入 队列 。sigqueue 
数据 结构 的 定义 在 include/linux/signal.h FP: 


12 struct sigqueue | 

13 struct sigqueue *next; 
14 siginfo t info; 

15 m 


恋 者 也 许 会 问 ， 为 什么 不 直接 在 siginfo_t 数据 结构 中 增加 一 个 指针 next， 从 而 直接 将 此 数据 结构 
挂 入 队列 中 呢 ? 这 是 因为 并 非 每 次 调用 sys_kill( ) 或 sys_rt_sigqueueinfo( ) 时 者 一 定 会 将 这 个 数据 结构 挂 
入 队列 ， 而 分 配 / 释 放 这 样 个 数据 结构 的 系统 开销 实际 上 远 超过 当真 有 必要 时 临时 加 以 复制 的 开销 。 
所 以 ,在 sys_kill( ) 和 sys_rt_sigqueueinfo( ) 中 ， 将 这 个 siginfo t 结构 作为 局 部 量 安排 在 堆栈 上 上， 只 在 确 
有 必要 时 才 分 配 一 个 signal_queue 数据 结构 并 加 以 复制 。 

不 过 ， 并 非 在 所 有 的 情况 下 都 是 将 伴随 着 (或 者 说 载 送 着 ) 信号 的 siginfo t 结构 复制 到 sigqueue 
结构 中 ， 有 两 种 情况 是 例外 的 ， 那 就 是 当 参 数 info 的 值 为 特殊 值 0 或 1 的 时 候 。 在 这 两 种 情况 下 ,info 
应 被 视 作 整 数 而 不 是 指针 ， 发 生 的 信号 来 自 系 统 宁 间 (而 不 是 由 一 个 进程 在 用 户 空间 中 通过 系统 调用 
发 出 ) 的 情况 下 。 此 时 由 send sig info( ) 补 充 产 生出 相应 的 内 容 〈 见 424—437 行 )。 

最 后 ， 还 要 通过 sigaddset( ) 将 接收 位 图 中 相应 的 标志 位 设置 成 1。 

成 功 地 投递 了 信号 并 不 说 明 这 个 信号 就 是 在 等 待 着 处 理 了 , REG AMER T BERT IMS 
所 以 同 到 deliver_signal( ) 中 要 调用 sigismember( ) 加 以 检查 (497 行 )。 如 果 日 标 进程 止 在 睡眠 中 ， 并 且 
没有 屏蔽 所 投递 的 信号 ， 就 要 将 其 唤醒 并 立即 进行 调皮 (498 íT). 

函数 signal wake up( ) 的 代码 在 kernel/signal.c 中 。 我 们 把 有 关 的 代码 列 出 在 这 里 ， 读 者 可 结合 “; 
RE" BiTi: 


- 738 . 


第 6 章 传统 的 Unix 进程 问 通信 


[sys kill( ) > kill. something info( ) kill proc info( ) > send, sig. info( ) > deliver signal( ) 
> signal wake up( )] 


455 /* 

456 * Tell a process that it has a new active signal.. 

457 * 

458 * NOTE! we rely on the previous spin lock to 

459 * lock interrupts for us! We can only be called with 

460 * "sigmask lock” held, and the local interrupt must 

461 * have been disabled when that got aquired! 

462 * 

463 * No need to set need resched since signal event passing 
464 * goes through —>blocked 

465 */ 

466 static inline void signal wake up(struct task struct *t) 
4607 { 

468 t-^sigpending = l; 

469 

410 if (t->state & TASK INTERRUPTIBLE) { 

471 wake up process (1); 

472 return; 

473 } 

474 

475 #ifdef CONFIG SMP 

476 /* 

477 * If the task is running on a different CPU 

478 * force a reschedule on the other CPU to make 

479 * it notice the new signal quickly 

480 * 

481 * The code below is a tad loose and might occasionally 
482 * kick the wrong CPU if we catch the process in the 
483 * process of changing - but no harm is done by that 
484 * other than doing an extra (lightweight) IPI interrupt. 
485 */ 

486 spin lock(&runqueue lock); 

487 if (t-^has cpu && t-^processor != smp processor id( )) 
488 smp send reschedule(t-»processor); 

489 spin unlock (&runqucue. Lock) ; 

490 . &endif /* CONFIG SMP */ 

4931  ) 


函数 wake, up. process ) 的 代码 在 第 4 章 中 已 经 读 过 ， 读 者 不 妨 重 温 一 个 。 这 里 只 是 提 OCT. 将 日 
标 进程 唤醒 以 后 ， 如 果 目 标 进 程 的 优先 级 别 高 于 当前 进程， 那么 在 当前 进程 从 系统 调用 返回 之 际 就 有 
可 能 进行 “次 调度 ， 而 目标 进程 是 否 能 被 调度 运行 ， 则 取决 于 其 优先 级 别 及 其 他 各 种 因素 。 下 面 还 要 
谈 这 个 问题 。 
并 正 所 有 的 信号 都 是 由 某 个 进程 在 用 户 空 间 通 过 系统 调用 发 送 的 。 例 如 ， 人 在 第 2 章 中 的 页 面 异常 
处 理 程 序 do_page_fault( ) 里 ， 当 页 面 异 常 雹 法 恢复 时 就 会 通过 force_sig( ) 向 当前 进程 发 送 一 个 SIGBUS 
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信和 号。 函数 force_sig( ) 是 内 核 中 发 送信 号 的 基本 于 段 。 其 代码 人 在 kernel/signal.c 中 : 


[do page. fault( ) > force. sig( )] 


694 void 

695 force sig(int sig, struct Lask struct *p) 
6906 { 

697 force sig info(sig, (void*)lL, p); 
608 } 


[do page fault( ) > force sig( ) > force sig info( )] 


562 int 
563 force sig info(int sig, struct siginfo *info, struct task struct *t) 
564 { 


565 unsigned long int flags; 

566 

567 spin lock irqsave(&t-^sigmask lock, flags): 

568 if (sig == NULL) { 

569 spin unlock irgrestore(&t >sigmask lock, flags); 
570 return -ESRCH; 

571 ) 

512 

573 if (t-^sig- action[sig-1]. sa. sa handler == S1G_IGN) 
574 t-^sig-^action[sig-1]. sa. sa handler = SIG DFL; 
575 sigdelset (&t—>blocked, sig); 

576 recalc_sigpending(t) ; 

577 spin unlock irqrestore(&t-^sigmask lock, flags); 
578 

579 return send sig info(sig, info, t); 

580 } 


注意 ， 在 force sigC ) 中 调用 force sig info ) 时 将 第 .个 参数 设 成 1， 表示 是 以 内 核 的 名 义 发 送 的 。 
正 因为 force sig( ) 是 “强制 ”日 标 进 程 接 收 个 信号 ， 所 以 不 允许 日 标 进程 忽略 该 信号 ， 并 且 在 调用 
send, sig. info( ) 前 要 将 其 记 蔽 位 也 强制 清除 。 

至 此 , 信和 号 的 投递 已 经 完成 ， 接 下 来 就 是 日 标 进程 如 何 发 岗 信 号 的 到 米 以 及 如 何 对 此 作出 及 应 了 。 

在 中 断 机 制 中 ， 处 理 器 的 硬件 在 每 条 指令 结束 时 都 要 检测 是 否 有 中 断 请 求 存 企 。 信 与 机 制 是 纯 软 
件 的 ， 当 然 不 能 依靠 硬件 来 检测 信号 的 到 来 。 同 时 ， 要 在 每 条 指令 结束 时 都 来 检测 显然 也 是 不 现实 的 、 
甚至 是 不 可 能 的 。 那 么 ， 一 个 进程 在 什么 情况 下 检测 信号 的 存在 呢 ? 首先 是 每 当 从 系统 调用 、 中 断 处 
理 或 异常 处 理 返回 到 用 户 空间 的 前 夕 ， 还 有 就 是 当 进 程 被 从 睡眠 中 唤醒 (必定 起 在 系统 调用 中 ) 的 时 
候 ， 此 时 车 发 现 有 信号 在 等 待 就 要 提前 从 系统 调 川 返回 。 总 而 言 之 ， 不 管 是 正常 返回 还 是 提前 返回 ， 
在 返 问 到 用 户 室 间 的 前 夕 总 是 要 检测 信号 的 存在 并 作出 反应， 这 一 点 我 们 在 第 3 章 中 己 经 提 到 过 。 下 
而 是 arch/i386/kernelentry.S 中 的 :个 片断 : 


217 ret with reschedule: 
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218 cmpl $0, need resched (%ebx) 
219 jne reschedule 

220 empl $0, sigpending (%ebx) 

221 jne signal return 

222 restore_all: 

223 RESTORE ALL 

224 

225 ALIGN 

226 signal return: 

227 sti # we can get here from an interrupt handler 
228 test] $(VM MASK), EFLAGS (%esp) 
229 movl %esp, %eax 

230 jne v86 signal return 

231 xorl %edx, %edx 

232 call SYMBOL NAME(do signal) 
233 jmp restore all 


建议 读者 回 过 头 去 看 一 下 第 3 章 中 的 有 关内 容 , 摘 清楚 sigpending (%ebx) RFE current -> sigpending. 
这 里 还 要 指出 一 点 ， 一 般 来 说 ， 当 进程 运行 于 用 户 空间 时 ， 即 使 信号 到 达 了 也 不 会 引起 进程 立刻 对 信 
号 作出 反应 ， 而 要 到 当前 进程 内 某 种 原因 (包括 时 钟 中 断 〉 进 入 内 核 半 从 内 核 返 回 时 才 会 作出 反应 ， 
所 以 通常 在 时 间 上 都 会 有 一 段 延迟 。 可 是 ， 当 信号 来 源 于 异常 处 理 〈 或 中 断 服务 、 系 统 调用 》 时 ， 则 
由 于 进程 已 经 在 内 核 中 送行 ， 在 返回 到 用 户 空间 之 前 就 会 作出 反应 ， 所 以 几乎 可 以 认为 是 立即 就 作出 
反应 。 特 别 是 在 异常 处 理 时 ， 这 种 反应 发 生 在 返回 到 用 户 空间 重新 执行 引起 异常 的 那 条 指令 之 前 ， 所 
以 从 用 户 空间 的 程序 执行 角度 来 看 就 是 立即 的 。 

对 信号 作出 反应 的 具体 操作 是 通过 do_signal( ) 完 成 的 。 这 又 是 一 个 比较 大 的 函数 ， 我 们 还 是 一- 段 
一 段 往 下 看 。 有 关 的 代码 都 在 arch/i386/kernel/signal.c 中 : 


[ret with reschedule( ) > do_signal( )] 


579 /* 

580 * Note that ‘init’ is a special process: it doesn’t get signals it doesn’t 
581 * want to handle. Thus you cannot kill init even with a STGKILL even by 
582 * mistake. 

583 */ 

584 int do_signal (struct pt regs *regs, sigset t *oldset) 

585 { 

586 siginfo_t info; 

587 struct k_sigaction *ka; 

588 

589 /* 

590 * We want the common case to go fast, which 

591 * is why we may in certain cases get here from 

592 * kernel mode. Just return without doing anything 

593 * if so. 

594 */ 

595 if ((regs->xes & 3) != 3) 
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596 return 1; 

597 

598 if (!oldset) 

599 oldset = &current—>blocked; 
600 


读者 不 妨 先 回顾 - 下 第 3 章 中 有 关 pt regs 数据 结构 的 内 容 。 在 中 断 处 理 、 异常 处 理 或 系统 调用 中 ， 
处 理 器 的 系统 空间 堆栈 保存 着 该 处 理 器 在 进入 内 核 之 前 的 “现场 ” 也 就 是 各 个 寄存 器 在 进入 内 核 前 的 
内 容 。Linux 的 内 核 将 系统 空间 堆栈 中 这 些 寄 存 器 的 “ 映 象 ”看 作 -个 数据 结构 ， 这 就 是 pt_regs。 所 
以 ， 这 里 的 指针 regs 指向 系统 空间 堆栈 中 的 这 些 寄存 器 映 象 ， 其 中 regs -> xcs 为 处 埋 嚣 进入 这 些 程序 
前 代码 段 寄 存 器 CS 的 内 容 。 如 果 处 理 器 是 从 用 户 空间 进入 中 断 、 异 常 或 陷阱 《系统 调用 )， 则 当时 CS 
的 最 低 师 位 必定 是 3〈 表 示 用 户 空 间 )。 反 过 来 ， 如 采 regs -> xcs 的 最 低 两 位 不 等 于 3 AIA, SIULUDA. 
次 中 断 或 异常 发 牛 于 系统 空间 ， 所 以 处 理 器 并 不 是 处 于 返回 到 用 户 空间 的 前 多， 并 不 需要 对 信号 作出 
反应 。 理 则 ， 就 要 往 下 跑 了 Carch/i386/kernelsignal.c:do, signal( )): 


[ret with, reschedule( ) > do. signal )] 


601 for (::) { 


602 unsigned long signr; 

603 

604 spin lock irq(&current ->sigmask_lock) ; 

605 signr = dequeue signal (&current->blocked, &info); 

606 spin unlock irq(&current-^sigmask lock); 

607 

608 if (!signr) 

609 break; 

610 

611 if ((current—>ptrace & PT PTRACED) && signr != SIGKILL) { 
612 /* Let the debugger run. */ 

613 current-^exit code = signr; 

614 current-»state = TASK STOPPED; 

615 notify parent (current, SIGCHLD) ; 

616 schedule( ); 

617 

618 /* We’ re back. Did the debugger cancel the sig? */ 
619 if (! (signr = current->exit_code) } 

620 continue; 

621 current-^?exit code = Q; 

622 

623 /* The debugger continued. Ignore SIGSTOP. */ 

624 if (signr == SIGSTOP) 

625 continue; 

626 

621 /* Update the siginfo structure. Is this good? */ 
628 if (signr != info.si signo) | 

629 info.si signo = signr; 
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630 info.si errno = 0; 

631 info. si_code = SI USER; 

632 info. si_pid = current-^p pptr—pid; 

633 info.si uid = current-^p pptr-^uid; 

634 } 

635 

636 /* If the (new) signal is now blocked, requeue it. */ 
637 if (sigismember (&current->blocked, signr)) { 
638 send sig info(signr, &info, current); 
639 continue; 

640 ) 

641 } 

642 

643 ka = &current—>sig—>action[signr-1]- 

644 if (ka->sa. sa_handler == SIG IGN) | 

645 if (signr != SIGCHLD) 

646 continue; 

647 /* Check for SIGCHLD: it's special. */ 

648 while (sys_wait4(-1, NULL, WNOHANG; NULL) > 0) 
649 /* nothing */; 

650 continue; 

651 } 

652 

653 if (ka->sa. sa handler == SIG DFL) { 

654 int exit_code = signr: 

655 

656 /* Init gets no signals it doesn't want. */ 
657 if (current pid == 1) 

658 continue; 

659 

660 switch (signr) { 

661 case SIGCONT: case SIGCHLD: case SIGWINCH: 
662 continue; 

663 

664 case SIGTSTP: case SIGTTIN: case SIGTTOU: 
665 if (is_orphaned_pgrp(current~>pgrp) ) 

666 continue; 

667 /* FALLTHRU */ 

668 

669 case SIGSTOP: 

670 current—>state = TASK STOPPED: 

671 current—Yexit_code = signr; 

672 if (! (current->p_pptr->sig- >action[SIGCHLD-1). sa. sa. flags & SA_NOCLDSTOP)) 
673 notify_parent (current, SIGCHLD); 

674 schedule( ); 

675 continue; 

676 

677 case SIGQUIT: case SIGILL: case SIGTRAP: 
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678 case SIGABRT: case SIGFPE: case SIGSEGV: 

679 case SIGBUS: case SIGSYS: case SIGXCPU: case SIGXFSZ: 
680 if (do coredump(signr, regs)) 

681 exit code |= 0x80; 

682 /* FALLTHRU */ 

683 

684 default: 

685 sigaddset (&current->pending. signal, signr); 
686 recale sigpending(current) ; 

687 current ->flags |= PF SIGNALED; 

688 do exit(exit code); 

689 /* NOTREACHED */ 

690 } 

691 } 

692 

693 /* Reenable any watchpoints before delivering the 
694 * signal to user space. The processor register will 
695 * have been cleared if the watchpoint triggered 

696 * inside the kernel 

697 */ 

698 asm  (/movl %0,%%db7”: : "r^ (current->thread. debugreg[7])); 
699 

700 /* Whee! Actually deliver the signal. */ 

101 handle signal(signr, ka, &info, oldset, regs): 

702 return 1; 

703 ] 

704 


这 是 个 比较 大 的 for fit (601~703 47). TERE FOUR T ARE MAGEE f 6 DÀ PU PEUT 
dequeue, signal( ) 取 出 -个 未 加 屏蔽 的 信号 加 以 处 理 ， 直到 信号 队列 中 不 再 存在 这 样 的 信号 ( 见 608 17), 
或 者 相应 的 “信号 向 量 ” 为 SIG_DFL， 即 对 该 信号 采取 默认 的 反应 方式 为 止 。 而 这 默认 的 反应 又 是 让 
接收 到 信号 的 进程 “寿终正寝 ”( 见 688 行 ), 或 者 执行 了 一 个 由 用 户 设 党 的 信号 处 理 程序 之 后 ( 见 702 
行 )。 

函数 dequeue_signal( ) 的 代码 也 在 同一 文件 中 , 其 代码 并 不 复杂 却 颇 为 繁 坑 , 我 们 就 不 深入 进去 了 。 
简单 地 说 ， 它 参照 一 个 序 项 位 图 ,在 这 里 是 current -> blocked， 从 当前 进程 的 信号 队列 中 找到 个 未 加 
PME, BU signal queue. 数据 结构 ， 将 其 脱 链 并 把 其 内 容 复 制 到 数据 结构 info H, HAO 
signal queue 数据 结构 ， 然 后 将 进程 的 信号 接收 位 图 中 相应 的 标志 位 清 0， 并 重新 计算 :下 进程 的 
sigpending 标志 。 

当 .个 进程 受到 其 父 进程 的 跟踪 而 处 于 debug 模式 时 , 对 信号 的 反应 有 ”- 些 特 殊 的 考虑 (611~641 
行 )。 我 们 这 里 先 跳 过 它 ， 刘 讲述 ptrace( ) 时 表 回 过 头 来 看 这 一 段 代 码 。 

如 前 所 述 ， 对 具体 信号 的 反应 取决 杆 其 “信号 向 量 ” 的 设置 ， 所 以 要 根据 信号 的 数位 在 “ 信 委 问 
量 表 ” 中 找到 相应 的 向 量 ， 即 k_sigaction 数据 结构 ， 并 让 指针 ka 指向 这 个 数据 结构 。 

如 果 设 置 的 反应 方式 是 “忽略 ” (SIG_IGN)， 那 么 一 般 来 说 对 这 个 信号 的 处 理 就 完成 了 CR. 646 
行 )。 但 有 一 个 例外 ， 那 就 是 当 信号 为 SIGCHLD 时 。 这 个 们 号 通常 是 在 一 个 子 进程 通过 exit( ASTM 
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用 结束 其 生命 时 向 父 进程 发 出 的 ， 所 以 此 时 接收 到 SIGCHLD 信号 的 进程 此 调用 sys_waitd( ) 米 检查 其 
所 有 的 子 进程 《第 一 个 参数 为 一 1)， 只 要 找到 一 个 已 经 结束 生命 的 子 进 程 就 为 其 “料理 后 事 ”( 见 第 4 
章 )。 注 意 ， 这 里 的 第 二 个 参数 WwWNOHANG， 表 示 如 果 没 有 发 现 已 经 结束 生命 的 子 进程 也 要 立即 返回 
EX REHE OO, WEE. 

男 一 个 特殊 的 反应 方式 是 SIG_DFL。 当 “信号 向 量 ” 为 SIG DEL 时 ， 多 数 信和 号 (包括 SIG_KILL) 
都 会 落 入 684 行 的 default 部 分 ， 通 过 do_exit( ) 结 束 进程 的 运行 。 对 十 SIG_KILL 来 说 ， 一 米 它 的 信号 
向 量 是 不 容许 设置 的 ;一 来 向 量 中 的 相应 屏 藏 位 也 在 每 次 设置 “信和 号 向 量 ” 叶 自动 清 0 ( 均 见 
do_sigaction( ))， 而 日 在 通过 sys_rt_sigprocmask( ) 没 置 进程 的 信号 屏蔽 位 图 时 也 会 自动 将 SIGKILL 的 
BERR AO. PAX BUS, IR MAS BRS “SRE”. HERS HA 667 和 682 行 ， 这 些 地 
方 都 没有 break 语句 。 不 过 ，pid 为 1 的 init 进程 对 所 有 这 些 信号 都 有 “免疫 力 ” 而 不 受 任何 影响 〔 见 
658 行 )。 

由 此 可 网 ， 当 信和 与 问 量 为 SIG_IGN 或 SIG. DFL 时 ， 对 信号 的 反应 都 在 系统 空间 完成 ， 而 无 须 回 
到 用 户 空 间 。 

如 果 “ 信 号 向 量 ” 指 向 其 个 由 用 户 设置 的 信号 处 理 程序 ， 那 就 要 凋 用 handle_signal( ) 了 予以 执行 了 。 
我 们 将 在 后 面 加 以 介绍 。 

当 601 行 的 for 循环 “正常 ”结束 时 ， 也 就 是 说 当 执行 到 第 703 行 的 后 面 时 ， 当 前 进程 中 肯定 已 经 
没有 未 加 屏蔽 的 信号 了 。 这 是 因为 在 这 个 for 循环 中 只 有 一 个 出 口 ， 即 break 语句 ， 那 就 是 在 第 609 行 
处 。 册 且 己 经 处 理 过 的 信号 肯定 全 都 不 是 通过 用 户 定义 的 信和 号 处 理 程序 进行 的 ， 洗 则 就 在 702 行 处 返 
加 了 。 峡 进一步 ， 这 些 信号 中 也 没有 一 个 使 进程 结束 运行 ， 否 则 就 在 688 行 通 过 不 会 返回 的 do_exit( ) 
HET v AZ. 这 些 信 号 只 可 能 是 SIGCHLD, SIGCONT, SIGWINCH, SIGTSTP, SIGTTIN, SIGTTOU 
和 SIGSTOP， 或 者 信号 向 量 设置 成 SIG_IGN 的 其 他 信号 。 这 些 信 号 如 果 来 日 某 个 系统 调用 的 过 程 中 ， 
则 往往 标志 兰 该 系统 调用 过 程 的 失败 。 这 种 情况 常常 发 生 在 设备 驱动 程序 中 ， 并 且 往往 会 要 求 自动 重 
新 执行 失败 的 系统 调用 ， 就 好 像 在 执行 指令 的 过 程 中 发 生 异 常 时 紫 求 重新 执行 失败 的 指 今 一 样 。 堵 么 ， 
这 是 怎么 实现 的 呢 ? i dk TE do signal): 





[ret_with_reschedule( ) > do_signal( )] 


705 /* Did we come from a system call? */ 
706 if (regs-^orig eax >= 0) { 

707 /* Restart the system call - no handlers present */ 
708 if (regs-^eax == -ERESTARTNOHAND | | 
709 regs—>cax == -ERESTARTSYS || 
710 regs->eax == -ERESTARTNOINTR) { 
711 regs >eax = regs—>orig_ eax: 

712 regs—>eip = 2; 

713 } 

714 } 

715 return 0; 

716 | 


首先 要 明白 ，rcgs -> orig eax 为 处 埋 器 进入 系统 空间 前 寄存 器 EAX 的 内 容 ， 而 regs -> eax 则 为 系 
统 调用 的 返 辐 值 。 处 理 器 在 因 系 统 调用 而 进入 系统 空间 之 前 ， 寄 存 器 EAX 中 为 系统 调用 号 。 而 系统 调 
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用 号 不 会 是 负数 ， 所 以 首先 要 检查 regs -> orig_eax 是 否 大 于 等 于 0。 田 一 方面 ， 失 败 的 系统 调用 若 槛 
求 自动 重新 执行 就 会 将 EAX 中 的 返回 值 regs -> eax 设置 成 负 的 ERESTARTNOHAND, ERESTARTSYS 
和 ERESTARTNOINTR 之 一 .所 以 , 当 regs -> eax 为 这 三 者 之 一 时 , 就 将 regs -> orig. eax *3 [Bl regs -> eax, 
并 且 将 regs -> eip 的 数值 减 2。 我 们 在 第 3 章 中 讲 过 ， 系 统 调用 是 道 过 -条 “int $0x80” 指 令 实现 的 。 
在 正常 的 情况 下 ， 当 处 理 器 执行 该 指令 进入 系统 空间 时 其 指令 指针 EP 指向 其 下 一 条 指令 ， 这 样 当 处 
理 器 返回 到 用 户 空间 时 就 会 继续 往 下 执行 。 现 在 ， 将 regs -> eip 的 数值 减 2， 就 使 得 处 理 器 返回 到 用 户 
空间 时 其 EIP 又 着 过 去 指向 该 INT 指令 了 (因为 NT 指令 的 大 小 是 芒 个 字 节 )， 所 以 束 会 重新 执行 一 
次 该 系统 调用 。 

如 果 用 户 设置 了 信号 处 理 程序 〈 在 用 户 空间 中 )， 就 要 通过 函数 handle signal( ) 准 备 好 对 处 埋 程序 
的 执行 ， 其 代码 也 在 arch/i386/kernel/signal.c +: 


[ret_with_reschedule( ) > do_signal( ) > handle signal )] 


533 /* 

534 * OK, we're invoking a handler 
535 */ 

536 


537 static void 
538 handle_signal (unsigned long sig, struct k sigaction *ka, 


539 siginfo t *info, sigset t *oldset, struct pt regs * regs) 
540 d 

541 /* Are we from a system call? */ 

542 if (regs->orig eax >= 0) { 

543 /* If so, check system call restarting.. */ 
544 switch (regs->eax) { 

545 case -ERESTARTNOHAND: 

546 regs-»eax = -EINTR; 

547 break; 

548 

549 case -ERESTARTSYS: 

550 if (!(ka-^sa.sa flags & SA RESTART)) | 
55] regs-2eax = -EINTR; 

552 break; 

553 } 

554 /* fallthrough */ 

555 case -ERESTARTNOINTR: 

556 regs-^eax = regs-^orig eax: 

557 regs-»eip -= 2; 

558 } 

559 j 

560 

561 /* Set up the stack frame */ 

562 if (ka-^sa.sa flags & SA SIGINFO) 

563 setup rt frame(sig, ka, info, oldset, regs); 
564 else 

565 setup frame(sig, ka, oldset, regs); 
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566 

567 if 《ka->sa. sa flags & SA ONESHOT) 

568 ka-»sa. sa handler = SIG DFT; 

569 

570 if (!(ka >sa sa flags & SA NODEFER)) | 

571 spin lock irq(&current-^sigmask lock); 
572 sigorsets (&current—>blocked, &current-»blocked, &ka-^sa. sa mask) ; 
513 sigaddset (&current—>blocked, sig); 

574 recalc_sigpending (current) ; 

575 spin_unlock_irg(&current->sigmask lock); 
576 } 

577 ] 


由 于 在 do, signal( ) 中 执行 完 handle_signal( )DUHBERHBORIELT ,— BEL HE d 4536 re X A FR RC 
后 重新 执行 的 问题 。 不 过 ， 此 时 《〈 执 行 用 户 设 置 的 倍 号 处 理 程序 前 夕 ) 的 重新 执行 〈 实 际 上 是 为 重新 
执行 所 作 的 准备 ) 却 是 有 区 分 并 有 卫 有 条 件 的 了 。 

前 面 讲 过 ， 由 用 户 提供 的 信号 处 理 程序 是 在 用 户 空 间 执行 的 ， 而 用 执行 完毕 以 后 还 要 回 到 系统 空 
间 ， 这 是 由 setup_rt_frame( ) 或 setup_frame( ) 作 出 安排 的 。 二 者 的 代 但 大 同 小 异 ， 所 以 我 们 在 这 里 只 看 
setup frame( )。 在 深入 到 代码 中 去 之 前 ， 先 大 致 介绍 一 下 所 涉及 的 一 些 问题 和 解决 方案 。 大 家 知道 ， 
在 调用 一 个 子 程序 时 ， 堆 栈 要 征 下 ( 远 辑 意义 上 是 往 上 ) 伸展 ， 这 是 因为 需要 在 堆栈 中 保存 子 程序 的 
返回 地 址 ， 还 因为 子 程序 往往 会 有 局 部 变量 ， 也 要 占用 堆栈 中 的 空间 。 此 外 ， 调 用 子 程序 时 的 参数 也 
是 在 堆栈 中 。 子 程序 调用 嵌 套 愈 深 ， 则 堆栈 仲 展 的 层次 也 愈 多 。 而 堆栈 中 的 每 一 个 这 样 的 层次 ， 就 称 
为 一 个 “框架 ” BD frame。 当 子 程序 和 调用 它 的 程序 都 在 同 空间 中 时 ， 堆 栈 的 伸展 ， 也 就 是 堆栈 中 
框架 的 建立 是 很 自然 的 。 因 为 首先 call 指令 本 身 就 会 将 返回 地 址 自动 斥 入 堆栈 , 而 调用 参数 则 通过 push 
指令 村 入 堆栈 。 其 次 ， 在 堆栈 中 为 局 部 灾 量 分 配 空间 也 很 简单 ， 只 要 在 进入 了 程序 之 后 适当 调整 堆栈 
外 就 可 以 了 。 然 而 ， 当 者 不 在 同 “. 空 间 时 ， 情 况 就 比较 复杂 了 。 从 某 种 意义 上 讲 ， 中 断 处 理 、 异 
常 处 理 以 及 系统 调用 ， 都 可 以 看 作 是 了 程序 调用 ， 只 不 过 调用 者 在 用 户 空间 而 子 程序 在 系统 空间 。 所 
以 ,在 返回 到 用 户 空间 前 乡 ， 系 统 空 间 堆栈 的 内 容 ， 也 就 是 指针 regs 所 指向 的 pt_regs 数据 结构 ， 实 际 
上 就 是 一 个 框架 。 这 个 框架 的 内 容 次 定 了 当 处理 器 回 到 用 户 空间 时 从 何 处 继续 执行 指令 ， 用 户 空间 扒 
栈 在 何 处 以 及 各 个 寄存 器 的 内 容 。 现 在 ， 既 然 要 求 处 理 器 在 同 到 用 户 空间 时 要 执行 男 一 段 程序 ， 就 得 
在 系统 空间 堆 校 中 为 之 准备 一 个 不 同 的 框架 。 吕 是， 最 终 还 得 要 问 到 当初 作出 系统 调用 或 者 被 中 断 的 
地 方 去 ， 所 以 原先 的 框架 也 不 能 丢掉 ， 要 保存 起 来 。 保 存在 那里 呢 ? 一 个 进程 的 系统 空间 堆栈 的 大 小 
是 很 有 限 的 〈 见 第 3 章 )， 所 以 最 合理 的 就 是 把 它 作为 信 续 处 理 程序 的 附加 局 部 量 ， 也 就 是 保存 在 进程 
的 用 户 空间 堆栈 中 的 因 调 用 该 处 理 程序 而 形成 的 框架 里 。 这 样 ， 就 有 必要 在 进入 用 户 空间 执行 信号 处 
理 程序 之 前 ， 就 准备 好 用 户 空 间 堆栈 中 的 框架 ， 只 有 如 此 才能 先 把 原先 的 框架 复制 到 用 户 空间 的 框架 
中 作为 局 部 量 保存 起 来 ， 回 到 系统 空间 中 以 后 再 从 姥 里 复制 加 来。 框架 的 形成 是 在 程序 运行 过 程 中 ， 
特别 是 在 子 程序 调用 的 过 程 中 白 然 形 成 的 ， 但 是 代 架 的 形成 也 有 其 规律 吕 循 。 现 在 尚未 执行 对 信号 处 
理 程 序 的 调用 ， 当 然 也 不 存在 调用 该 处 理 竹 序 的 伐 架 ， 所 以 实际 上 是 按照 形成 框架 的 规律 先 作 好 准备 ， 
预先 在 用 户 空间 堆栈 中 打下 一 些 埋伏 。 

另 一 个 问题 是 ， 在 用 户 空间 执行 完 信号 处 理 程序 以 乒 ， 义 怎样 重 返 系 统 空间 ? 我 们 知道 ， 从 用 户 
空间 进入 系统 空间 的 手段 无 砷 就 是 中 断 、 异 常 以 及 陷 阴 ， 放 系统 调用 正 是 陷阱 的 运用 。 显 然 ， 中 斯 和 
异常 都 不 如 系统 调用 更 为 合适 ,所 以 内 核 中 为 了 这 个 目的 而 专门 设置 了 一 个 系统 调用 sigreturn( )。 不 过 ， 
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要 求 用 户 在 其 信和 号 处 理 程 序 中 调用 一 个 特别 的 库 函 数 或 系统 调用 是 不 大 合适 的 。 因 为 一 来 那样 就 对 信 
号 处 理 程序 有 了 特殊 的 紫 求 ， 二 来 更 难以 保证 用 户 不 会 筷 记 人 在 其 程序 中 作出 这 样 的 调用 ， 并 且 C 编译 
也 难以 保证 在 编译 时 加 以 检查 〈 当 然 ， 也 并 非 绝对 不 可 能 )。 所 以 ， 节 好 是 由 内 核 在 启动 信号 处 理 程序 
时 自动 地 插入 这 个 调用 。 

这 样 ， 思 路 就 渐渐 清晰 了 。 整 个 过 程 大 致 上 可 以 归纳 为 以 下 这 些 步 又: 

(1) 在 用 户 空间 堆栈 中 为 信和 导 处 理 程序 的 执行 预先 创建 一 个 框架 ， 框 架 中 包括 一 个 作为 局 部 量 的 

数据 结构 ， 并 把 系统 空间 堆栈 中 的 “原始 框架 ”保存 到 这 个 数据 结构 中 。 

(2) 在 信号 处 理 程序 中 插入 对 系统 调用 sigreturn( ) 的 调用 。 

(3) 将 系统 空间 堆栈 中 “原始 框架 ”修改 成 为 执行 信 筷 处 理 程 序 所 需 的 框架 。 

(4) “返回 ”到 用 户 空间 ， 但 是 却 执行 信号 处 理 程序 。 

(5 信号 处 理 程序 执行 完毕 以 后 ， 遂 过 系统 调用 sigretum( ERRA TA] . 

(6) 在 系统 调用 sigreturn( ) 中 从 用 户 空间 恢复 “原始 框 锅 ”。 

(7) 再 返回 到 用 户 空间 ， 继 续 执 行 原先 的 用 户 程 序 。 

知道 了 这 个 大 至 过程， 有 关 的 源 代 人 就 比较 容易 百 解 了 。 先 来 看 文件 arch/i386/kernel/signal.c 中 的 
函数 setup. frame( ): 


[ret with, reschedule( ) > do. signal( ) > handle signal( ) > setup frame( )] 


388 static void setup frame(int sig, struct k sigaction **ka, 


389 sigset t *sct, struct pi regs * regs) 

390 { 

391 struct sigframe *frame; 

392 int err = 0; 

393 

394 frame = get sigframe(ka, regs, sizeof (*frame) ) ; 

395 

396 if (laccess ok(VERIFY WRITE, frame, sizeof (*frame) )) 

397 goto give sigsegv; 

398 

399 err |= | put user((current-^exec domain 

400 && current-^exec domain->signal_invmap 
401 && sig < 32 

402 ? current~>exec domain—>signal_ invmap[sig] 
403 : sig), 

404 &frame-^sig); 

405 if (err) 

406 goto give sigsegv; 

407 

408 err |= setup _sigcontext (&frame—sc, &frame->fpstate, regs, set-^sig[0]): 
409 if (err) 

410 goto give sigsegv; 

411 

412 if ( NSIG WORDS > 1) { 

413 err |= copy to user(frame— extramask, &sct—sig[1], 
414 sizeof (frame-^extramask)); 
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415 } 

416 if (err) 

417 goto give_sigsegv; 

418 

419 /* Set up to return from userspace. If provided, use a stub 
420 already in userspace. */ 

421 if (ka-^sa.sa flags & SA RESTORER) { 

422 err |= | put user(ka-^sa.sa restorer, &frame—>pretcode) ; 
423 ) else { 

424 err |= put user(frame—- retcode, &frame-^pretcode); 
425 /* This is popl *eax ; movl $,%eax ; int $0x80 */ 

426 err |= put user(O0xb858, (short *) (frame-^retcode*0)); 
427 err |= put user( NR sigreturn, (int *) (frame->retcode+2)) ; 
428 err |= put user(0x80cd, (short *) (frame— retcode*6)); 
429 } 

430 

431 if (err) 

432 goto give sigsegv; 

433 

434 /* Set up registers for signal handler */ 

435 regs—>esp = (unsigned long) frame; 

436 regs->eip = (unsigned long) ka—>sa. sa handler; 

437 

438 set fs(USER DS); 

439 regs-?xds = | USER DS; 

440 regs-?xes = . USER DS; 

441 regs-?xss = | USER DS; 

442 regs-?xcs = . USER CS; 

443 regs—>eflags &- "TF MASK; 

444 

445 iif DEBUG SIG 

446 printk("SIG deliver (%s:%d): sp-*p pc-*p ra=%p\n”, 

447 current—>comm, current—>pid, frame, regs—>eip, frame-?pretcode); 
448 Hendif 

449 

450 return; 

451 

452 give sigsegv: 

453 if (sig == SIGSEGV) 

454 ka-?sa. sa handler - SIG DFL; 

455 force sig(SIGSEGV, current); 

456 } 


TAGEHEPUERDBEAS, BD sigframe 数据 结构 ， 这 也 是 在 arch/i386/kernel/signal.c 中 定义 的 : 


162 /* 
163 * Do a signal return; undo the signal stack. 
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164 */ 

165 

166 struct sigframe 

167 { 

168 char *pretcode; 

169 int sig; 

170 struct sigcontext sc; 
171 struct _fpstate fpstate; 
172 unsigned long extramask( NSIG WORDS-1]; 
173 char retcode[8]; 

144 上 


REAM LR RRM MB, DIAS ERU fei REREREET AR E ERR Mee. PIU, 
这 个 数据 结构 中 的 成 分 都 是 “附加 ”局 部 量 ， 而 对 于 信和 号 处 理 程序 来 说 是 不 可 见 的 《在 信号 处 理 程 序 
中 不 能 引用 这 些 局 部 量 )。 其 中 sigcontext 数据 结构 的 定义 在 include/asm-i386/sigcontext.h "P: 


57 struct sigcontext | 


58 unsigned short gs, __gsh; 
59 unsigned short fs, __fsh; 
60 unsigned short es, __esh; 
61 unsigned short ds, | dsh; 
62 unsigned long edi; 

63 unsigned long esi; 

64 unsigned long ebp; 

65 unsigned long esp; 

66 unsigned long ebx; 

67 unsigned long edx; 

68 unsigned long ecx; 

69 unsigned long eax; 

70 unsigned long trapno; 

71 unsigned long err; 

72 unsigned long eip; 

73 unsigned short cs, __csh; 
74 unsigned long eflags; 

75 unsigned long esp_at_signal; 
76 unsigned short ss, __ssh; 
T1 struct _fpstate * fpstate; 
78 unsigned long oldmask; 

79 unsigned long cr2; 

80 kh 


显然 ， 这 个 数据 结构 就 是 用 来 保存 系统 空间 堆栈 中 的 原始 框架 的 。 至 于 sigframe 结构 中 其 他 成 分 
的 作用 与 用 途 ， 等 一 下 就 会 清楚 。 框 架 的 结构 确定 了 ， 还 要 确定 其 在 用 户 空间 中 的 位 置 ， 这 就 是 
get_sigframe( ) 要 做 的 事  Carch/i386/kernel/signal.c): 


[ret_with_reschedule( ) > do. signak ) > handle_signal( ) > setup frame( ) > get. sigframe( )] 
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361 /* 

362 * Determine which stack to use.. 

363 */ 

364 static inline void * 

365 get_sigframe (struct k sigaction *ka, struct pi regs * regs, size t frame size) 
366 { 

367 unsigned long esp; 

368 

369 /* Default io using normal stack */ 

370 esp = regs—>esp; 

371 

372 /* This is the X/Open sanctioned signal stack switching.  */ 
373 if (ka-^sa.sa flags & SA ONSTACK) { 

374 if (! on sig stack(esp)) 

375 esp = eurrent-?sas ss sp + current-Psas ss size; 
376 ) 

371 

378 /* This is the legacy signal stack switching. */ 

379 else if ((regs- xss & Oxffff) !- | USER DS && 

380 !(ka-»sa.sa flags & SA RESTORER) && 

381 . ka->sa. sa restorer) | 

382 esp = (unsigned long) ka—>sa. sa restorer; 

383 } 

384 

385 return (void *)((esp - frame size) & -8ul); 

386 } 


这 里 的 regs -> esp 是 用 户 空间 中 当前 的 堆栈 指针 ， 也 就 是 进入 系统 空间 之 前 的 堆栈 指针 ， 所 以 在 
典型 情况 下 执行 信号 处 理 程序 的 框架 就 要 从 这 一 点 往 下 伸展 。 但 是 ， 有 两 个 例外 。 第 一 个 例外 是 用 户 
进程 已 经 通过 系统 调用 sigaltstack( ) 为 信号 处 型 程序 的 执行 设置 了 替换 堆栈 ， 并 日 在 设置 “信和 号 向 量 ” 
时 将 flags 中 的 标志 位 SA_ONSTACK 设置 成 1。 这 种 情况 下 当前 进程 的 task. struct 结构 中 sas ss sp 和 
sas ss size 分 别 为 所 设置 的 堆栈 位 置 和 大 小 ， 而 (sas_ss_sp 十 sas_ss_size》 则 为 该 堆栈 空间 的 顶点 ， 堆 
栈 从 这 一 点 开始 向 下 伸展 。 不 过 ， 先 要 检查 一 个 是 否 已 经 在 这 个 奉 换 堆栈 上 。 这 申 inline 函数 
on_sig_stack( ) 的 定义 为 (sched.h): 


[ret with reschedule( ) > do_signal( ) > handle signal( ) > setup_frame( ) > get_sigframe( ) 
> On, sig, stack( )] 


621 /* True if we are on the alternate signal stack.  */ 


622 

623 static inline int on sig stack(unsigned long sp) 

624 { 

625 return (sp  current-5sas ss sp < current->sas_ss_size); 
626 — ] 


第 二 个 例外 与 在 执行 完 信 号 处 理 程序 后 重 返 系统 空间 的 过 程 有 关 。 如 前 所 述 ， 最 妥当 的 办 法 是 让 
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内 核 自 动 插入 一 些 代码 , 通过 系统 调用 sigreturn( ) 解 决 这 个 问题 。 也 就 是 说 , 把 这 个 问题 交 给 操作 系统 ， 
用 户 进程 就 不 用 操 这 个 心 了 。 可 是 在 发 展 的 过 程 中 有 过 -- 段 时 期 ， 曾 经 在 系统 调用 sigaction( ) 的 界面 
上 提供 了 :个 手段 , 让 用 户 给 定 一 段 程序 用 于 这 个 目的 ,这 就 是 sigaction 数据 结构 中 的 指针 sa_restorer。 
现在 ， 系 统 调 用 sigaction( ) 的 “man” 人 页面 中 已经 明确 讲 sa. restorer “已 经 过 时 ”并 量 “ 不 应 使 用 ”但 
是 出 于 兼容 的 需要 还 得 考虑 其 存在 。 所 以 ， 如 果 使 用 了 sa_restorer， 就 要 把 框架 的 顶点 设置 在 这 个 位 置 
E 
, ABTA CA SURE THER, MUARA AREER REA) 

i i 相差 一 个 frame. size 的 地 方 , 而 frame size IEA sigframe 数据 结构 的 大 小 。 注意 这 
里 的 无 符号 长 整数 一 8 实际 上 是 0xffff fff8， 用 以 对 齐 框架 起 始 地 址 的 边界 。 这 样 ， 对 于 信号 处 理 程序 ， 
这 个 sigframe 数据 结构 就 相当 于 一 个 额外 的 调用 参数 。 

用 户 空 间 框架 的 位 置 frame 已 经 确定 ， 让 我 们 回 到 setup frame( ) 中 。 接 着 检验 一 下 用 户 室 间 中 的 
这 一 部 分 是 否 可 写 ， 然 后 就 是 往 用 户 空间 的 这 个 框架 中 复制 信息 了 。 这 里 的 __put_user( ) 将 其 第 一 个 参 
数 复制 到 用 户 空 间 中 出 其 第 二 个 参数 所 指向 的 地 方 。 首 先是 frame -> sig， 因 为 这 个 量 有 点 特殊 。 企 有 
的 “执行 域 "”” 即 Unix 变种 里 《 见 第 4 章 中 有 关内 容 )， 为 信号 定义 的 数值 可 能 会 有 所 不 同 。 在 这 种 情 
况 下 相应 exec_domain 数据 结构 中 的 指针 signal_invmap 会 指向 一 个 信号 变换 表 ， 上 所 以 要 把 这 个 因素 考 
虐 进 去。 下面 就 是 复制 系统 空间 堆栈 上 的 pt_regs 结构 以 及 一 些 有 关 的 内 容 了 ， 包 括 有 关 浮 点 处 理 器 的 
内 容 和 信号 屏蔽 位 图 Carch/i386/kernel/signal.c): 


[ret with reschedule( ) > do_signal( ) > handle signal( ) > setup. frame( ) > setup sigcontext( )] 


314 /* 

315 * Set up a signal frame. 
316 */ 

317 


318 static int 
319 setup sigcontext (struct sigcontext *sc, struct _fpstate *fpstate, 


320 struct pt_regs *regs, unsigned long mask) 

321 { 

322 int tmp, err = 0; 

323 

324 tmp = 0; 

325 asm (“movl %%gs,%0” : “=r” (tmp): ^0^(tmp)); 

326 err |= put user(tmp, (unsigned int *)&sc-^gs); 

321 . asm  ('movl %%fs, %0” : “=r” (tmp): "0" (tmp)); 

328 err |= | put user(tmp, (unsigned int *)&sc-^fs); 

329 

330 err |= | put user(regs-^xes, (unsigned int *)&sc—es) ; 
331 err |= | put user(regs-2xds, (unsigned int *)&sc—>ds); 
332 err |= | put user(regs-^edi, &sc~>edi) ; 

333 err |= __put_user(regs—>esi, &sc—>esi) ; 

334 err |= __put_user(regs—>ebp, &sc—>ebp) ; 

335 err |= __put_user({regs>esp, &sc—>esp) ; 

336 err |= __put_user(regs—>ebx, &sc-^ebx); 

337 err |= __put_user(regs>edx, &sc—>edx) ; 
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338 err |= | put user(regs->ecx，&sc->ecx) ， 

339 err |= __put_user(regs—>eax, &sc-^eax); 

340 err |= put user(current-^thread. trap no, &sc->trapno) ; 
341 err |= put user(current-^thread. error code, &sc—>err); 
342 err |= put user(regs-^eip, &sc—eip): 

343 err |= put user(regs— xcs, (unsigned int *)&sc—>cs); 
344 err |= | put user(regs-^eflags, &sc-^»eflags); 

345 err |= put user(regs-^esp, &sc—^esp at signal); 

346 err |= | put user(regs—^»xss, (unsigned int *)&sc-^ss); 
347 

348 tmp = save i387(fpstate); 

349 if (tmp < 0) 

350 err = I: 

351 else 

352 err |= __put_user(tmp ? fpstate : NULL, &sc-^fpstate); 
353 

354 /* non-iBCS2 extensions.. */ 

355 err |= | put user(mask, &sc->oldmask) ; 

356 err |= | put user(current-^thread.cr2, &sc—cr2): 

357 

358 return err; 

359  ] 


我 们 把 这 个 函数 的 代码 留 给 读者 。 完 成 以 后 ， 如 果 信 号 屏蔽 位 图 的 大 小 超过 “个 长 整数 的 大 小 ， 
则 还 要 把 超出 的 部 分 也 复制 过 去 。 

下 面 是 关键 的 部 分 ， 也 就 是 对 重 返 系 统 空间 进行 安排 了 。 人 在 sigframe 数据 结构 中 有 个 8 字 节 的 数 
组 retcode[ ], 还 有 个 指针 pretcode. 指针 pretcode 指向 一 段 使 进程 在 执行 完 信号 处 理 程 序 后 重 返 系 统 空 
间 的 代码 。 如 果 用 户 提供 了 这 人 么 一 个 函数 ， 就 把 该 函数 指针 复制 到 pretcode P; 否则， 在 典型 的 情况 
下 , 就 使 这 个 指针 指向 retcode[ ] ( 见 424 行 )， 并 且 在 retcode[ ] 中 预先 写 入 这 样 三 条 指令 Z 426 一 428 
47): 


popl eax; 
movl $ NR sigreturn , *eax; 
int $0x80; 


这 三 条 指令 正好 占 8 个 字 节 。 指令 中 的 __NR_sigretum 为 系统 调用 sigreturn( ) 的 调用 号 。 经 过 这 样 
处 理 以 后 ， 用 户 空间 中 堆栈 的 构成 如 图 6.7 所 示 。 

这 里 旧 指 出 ， 当 前 进程 返回 到 用 户 空间 时 (下 面 就 会 看 到 )， 是 “返回 ”而 不 是 “调用 ”进入 信和 号 
处 理 程序 的 ， 所 以 在 pretcode 的 下 方 不 会 青 压 入 :个 “返回 地 址 ?。 这 样 ，pretcode 就 正好 处 在 本 来 应 
该 是 信号 处 理 程序 运行 框架 中 返回 地 址 的 位 置 上 。 在 信号 处 理 程序 的 末尾 执行 ret 指令 时 ， 就 会 把 它 当 
成 返回 地 址 而 转 入 预先 “埋伏 ”在 retcode[ ] 中 的 一 条 指令 ， 或 者 由 用 户 另 行 提供 的 sa_restorer 函数 。 
而 位 于 pretcode 上 方 的 sig， 则 成 为 对 信和 号 处 理 程序 的 第 一 个 调用 参数 。 可 见 ，sigframe 数据 结构 的 内 
容 ， 包 括 各 个 字段 的 次 序 ， 是 根据 整个 执行 过 程 精心 设计 好 的 ， 不 能 随便 更 改 。 
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堆栈 中 原来 的 内 容 


retcode[ ] 


堆栈 向 下 伸展 


sigframe 结构 
sigframe 的 其 


他 成 分 





信号 处 理 程序 中 
的 局 部 变量 


信号 处 理 程序 
的 运行 框架 


图 6.7 信和 号 处 理 结束 返回 系统 空间 前 用 户 空间 堆栈 结 


读者 也 许 要 问 ， 这 里 一 共 就 是 三 条 指令 ， 进 程 在 执行 “int $0x80” 指 令 进 入 sigreturn( ) 系 统 调用 
之 后 最 终 还 要 回 旬 用 户 空间 来 ， 那 时 候 按理 应 该 回 到 它 的 下 -条 指令 ， 可 是 这 里 没有 指令 了 啊 。 答 案 
是 ， 在 系统 调用 sigreturn( ) 中 ， 要 从 用 户 空间 的 这 个 框架 中 恢复 转 入 用 户 空间 之 前 的 “原始 框架 ” 所 
以 到 那 时 候 就 会 返回 到 原先 应 该 去 的 地 方 ， 也 就 是 当初 发 生 中 断 、 并 常 或 系统 调用 的 地 方 。 

安排 好 了 用 户 空间 中 的 框架 ， 就 要 安排 系统 空间 的 框架 了 。 这 里 最 关键 的 是 返回 到 用 户 空间 时 的 
堆栈 指针 regs -> esp 利 取 指 令 指针 regs -> eip。 还 有 就 是 一 些 段 寄 仔 占 ， 不 过 其 实 这 些 寄存 器 的 值 本 来 
也 就 是 _USER_DS 和 __USER_CS， 只 有 在 特殊 的 情况 下 才 有 例外 。 至 于 一 些 通用 寄存 器 ， 如 %eax， 
%ebx 等 ， 则 对 于 信和 号 处 理 程序 并 光 意 义 ， 所 以 不 需要 设置 。 最 后 ， 处 理 器 在 用 户 空间 时 有 可 能 正 处 于 
硬件 跟踪 模式 ， 而 信号 处 理 程序 相应 于 中 断 处 理 ， 所 以 在 进入 这 段 程序 时 要 把 硬件 跟踪 关闭 ， 也 就 是 
在 标志 寄存 器 的 映 象 regs -> eflags 中 将 TF 位 清 0。 经 过 这 样 的 安排 以 后 ， 就 为 表面 上 按 正 常 途径 “ 返 
回 ” 用 户 空间 ， 但 是 实际 上 却 转 入 信号 处 埋 程 序 作 好 了 准备 。 最 终 ， 处 理 器 经 由 setup frame( ), 
handle_signal( ) 和 do_signal( ) 逐 层 返回 到 entry.S 中 的 signal_return， 从 而 进入 restore. all. 从 那 以 后 的 
过 程 读者 应 该 已 经 熟悉 了 《〈 见 第 3 €. HF regs -> esp 和 regs -> eip 的 设置 ， 处 理 器 进入 用 户 空 间 时 
从 ka -> sasa_handler 所 指向 的 地 方 开 始 执行 ， 而 堆栈 指针 则 指向 前 面 设置 好 了 的 框架 ， 实 际 是 指向 
frame -> pretcode， 即 信号 处 理 程序 的 返回 地 址 ， 正 好 跟 在 用 户 空间 中 通过 call 语句 进入 信 号 处 理 程序 
时 一 样 。 

这 号 处 理 程序 执行 完毕 以 后 , 处理 器 又 道 过 系统 调用 sigreturn( ) 进 入 系统 空间 。 内 核 中 实现 这 个 系 
统 调 用 的 主体 是 sys sigreturn( )， 其 代码 也 在 arch/i386/kernel/signal.c P: 


249 asmlinkage int sys sigreturn(unsigned long ^ unused) 


250 { 

251 struct pt regs *regs = (struct pt regs *) & unused; 

252 struct sigframe *frame = (struct sigframe *) (regs—esp - 8); 
253 sigset 1 set; 

254 int eax; 

255 
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256 if (verify_area(VERIFY READ, frame, sizeof (*frame) )) 
257 goto badframe; 

258 if (. get user(set. sig[0], &frame->sc. oldmask) 
259 || CNSIG WORDS > 1 

260 && — copy from user (&set. sig[1], &frame—>extramask, 
261 sizeof (frame-^extramask)))) 

262 goto badframe; 

263 

264 sigdelsetmask(&set, ~ BLOCKABLE); 

265 spin lock irq(&current-^sigmask lock); 

266 current—>blocked = set; 

267 recalc_sigpending (current) ; 

268 spin unlock irq(&current-^sigmask lock); 

269 

210 if (restore sigcontext(regs, &frame—>sc, &eax)) 
271 goto badframe; 

212 return eax; 

273 

274 badframe: 

275 force sig(SIGSEGV, current); 

216 return 0; 

277 } 


显然 ， 这 段 程序 的 作用 ， 就 是 从 用 户 空间 执行 信号 处 理 程 序 的 框架 中 恢复 当初 系统 空间 中 的 原始 
框架 。 我 们 把 这 段 程序 留 给 读者 自己 阅读 ， 不 过 有 两 点 要 提示 一 下 。 

首先 ， 系 统 调用 的 框架 就 是 系统 空间 堆栈 上 的 pt_regs 数据 结构 。 在 sys sigreturn( ) 中 取 第 一 个 调 
用 参数 _unused 的 地 址 就 得 到 了 这 个 结构 的 起 始 地 址 。 读 者 不 妨 回 顾 一 下 第 3 章 中 的 有 关内 容 。 在 执 
行 完 宏 操作 SAVE_ALL 以 后 ， 系 统 空间 堆栈 中 的 最 后 一 项 ， 也 就 是 pt_regs 结构 中 的 第 -项 ， 是 %ebx 
的 内 容 。 它 的 下 面 就 是 调用 sys_sigreturn( ) 的 第 一 个 〈 也 是 惟一 的 ) 参数 __unused。 不 过 这 里 并 不 需要 
用 到 这 个 参数 的 内 容 ， 而 只 是 要 知道 它 在 堆栈 中 的 地 址 ， 因 为 这 就 是 pt_regs 数据 结构 的 起 始 地 址 。 

还 有 ， 就 是 用 户 空间 中 的 框架 ， 也 就 是 sigframe 数据 结构 的 起 始 地 址 frame。 该 结构 中 底部 的 第 一 
项 pretcode 就 是 信号 处 理 程 序 的 返回 地 址 ， 所 以 当 处 理 器 从 信和 号 处 理 程序 返回 时 ， 堆 栈 指针 就 调整 到 
了 这 一 项 的 上 方 ， 也 就 是 起 始 地 址 加 4 个 字 节 的 地 方 。 然 后 ， 前 述 三 条 指令 中 的 第 一 条 “popl peax” 
又 使 堆栈 指针 往 上 调 了 4 个 字 节 。 这 样 ， 当 处 理 器 在 用 户 空间 执行 int 指令 进入 系统 空间 时 ， 其 用 户 空 
间 的 堆栈 指针 指向 该 sigframe 结构 的 起 始 地 址 再 加 8 个 字 节 的 地 方 ， 所 以 〈regs->esp 一 8》 就 是 这 个 结 
构 的 起 始 地 址 。 

函数 中 其 余 的 代码 ， 以 及 处 理 器 使 用 恢复 后 的 原始 框架 返回 用 户 空间 的 过 程 ， 读 者 应 该 不 会 有 什 
么 困难 了 。 

读者 也 许 要 问 , 既然 通过 sigreturn( ) 重 返 系 统 室 间 以 后 实际 上 不 干什么 事 ， 只 是 恢复 了 原始 杠 架 以 
后 就 从 “原先 的 系统 调用 《或 中 断 )” 返 回 了 ， 那 么 是 否 可 以 简化 一 点 呢 ? 例如 ， 可 以 在 用 户 空间 堆栈 
中 ， 从 当前 的 系统 调用 框架 向 下 调整 ， 先 将 系统 空间 堆栈 中 的 返回 地 址 搬 到 用 户 空间 堆栈 中 ， 而 把 系 
统 空间 堆栈 中 的 返回 地 址 ， 改 成 指向 用 户 空 间 的 信号 处 理 程序 。 这 样 ， 从 当前 系统 调用 返 同时 就 会 返 
回 到 用 户 空 间 中 的 信号 处 理 程 序 。 而 在 执行 完 信号 处 理 程序 后 碰 到 ret 指令 时 ， 则 又 返回 到 原先 进行 系 
统 调用 或 发 生 中 断 的 地 方 。 这 样 , 整个 过 程 简化 了 , 代码 也 简单 了 , 而 系统 调用 sigreturn( ) 也 不 需要 了 ， 

- 755. 


Linux 内 核 源 代码 情景 分 析 (上 册 ) 


岂 不 很 好 ? 事实 上， 早期 的 unix (如 第 6 版 ) 正 是 这 样 做 的 。 但 是 在 这 样 的 解决 方案 中 必须 有 个 保证 ， 
就 是 用 户 空 间 的 信和 号 处理 程序 对 于 处 理 器 的 “于 作 现场 ”( 邵 内 核 中 通过 SAVE_ALL 保存 的 所 有 寄存 
器 的 内 容 ) 完全 “透明 ” 即 不 改变 这 些 寄存 器 的 内 容 。 例 如 ， 如 果 能 保证 在 进入 信和 号 处 理 程序 时 一 定 
会 调用 - 段 类 似 于 SAVE ALL 的 程序 , 而 在 离开 信号 处 理 程序 之 前 则 调用 一 段 类 似 于 RESTORE_ALL 
的 程序 ， 那 就 没有 问题 了 。 然 而 ， 信 和 号 处 理 程 序 是 由 用 户 开 发 ， 且 在 用 户 空 间 中 运行 的 ， 没 有 一 个 通 
用 有 效 并 且 可 靠 的 方法 可 以 保证 巾 用 户 开 发 的 程序 对 寄存 器 内 容 的 透明 性 。 明 白 了 这 点 ， 就 可 以 理 
解 为 什么 要 笋 费 苦心 地 来 设计 个 sigretum () 系 统 调用 了 。 

通过 对 从 设置 “信号 向 量 ”、 发 送信 和 号、 到 执行 信号 处 理 程序 的 全 过 程 的 了 解 ， 并 有 日 将 此 过 程 与 中 
断 机 制 中 设置 “中 汤 向 量 *”、 中 断 请 求 、 到 执行 中 断 处 理 程序 的 过 程 加 以 类 比 ， 读 者 应 该 对 信号 机 制 有 
了 比较 深入 的 理解 。 当 然 ， 进 程 之 问 通过 信号 机 制 的 互动 此 有 用 户 程序 的 参与 ， 而 那 已 是 属于 应 用 程 
序 设计 的 范 因 了。 有 兴趣 〈 或 者 有 需要 ) 的 读者 可 以 参考 有 关 专 车。 


65 系统 调用 ptrace( ) 和 进程 跟踪 


为 方 使 应 用 软件 的 开发 和 调试 ， 从 Unix f] ART Af LER T — POSTS AT HP EET PR Bs Al 
控制 的 手段 ， 那 就 是 系统 调用 ptrace( )。 通 过 ptrace(), — T 3ERE 8T EAS e ie 5 — "HERE ALTERI 
寄存 器 ， 包 括 其 指令 空间 、 数 据 空 间 、 堆 栈 以 及 所 有 的 寄存 器 。 与 信号 机 制 〈 以 及 其 他 手段 ) 相 结合 ， 
就 可 以 实现 让 -个 进程 在 另 一 个 进程 的 控制 和 跟踪 下 运行 的 目的 。GNU 的 调试 工具 gdb 就 是 一 个 典型 
的 实例 。 道 过 gdb， 软 件 开 发 人 员 可 以 使 一 个 应 用 程序 在 gdb 的 “监视 ”和 操纵 下 受 控 地 运行 。 对 于 受 
gdb 控制 的 进程 ,可 以 通过 在 其 程序 中 设置 断 点 , 检查 其 堆栈 以 确定 函数 调用 路 线 , 检查 并 改变 局 部 溉 
量 或 全 局 变量 的 内 容 等 等 方法 ， 来 进行 调试 。 显 然 ， 所 有 这 些 手段 从 概念 上 说 都 确实 属于 进程 问 “ 通 
信 ” 的 范畴 ， 但 是 必须 指出 ， 这 只 是 为 软件 调试 而 设计 和 设立 的 ， 不 应 该 用 于 一 般 的 进程 间 通 信 。 一 
般 而 言 ， 通 信 是 要 由 双方 都 介入 且 互 相 协调 才能 完成 的 。 就 拿 “ 管 道 ”来 说 ， 虽 然 管道 是 单 向 的 ， 但 
一 定 得 由 一 方 写 ， 另 一 方 读 才 能 达到 目的 。 再 拿 信 号 来 说 ， 虽 然 信 号 是 异步 的 ， 也 就 是 接收 信号 的 一 
方 并 不 知道 信号 会 在 什么 时 候 到 来 ， 因 而 在 应 用 程序 中 并 不 主动 有 意 地 去 检查 有 否 信号 到 达 。 但 是 从 
总 体 而 言 ， 接 收 方 知 道 信号 可 能 会 到 来 ， 并 且 为 此 在 应 用 程序 中 作出 了 安排 。 而 当 信号 真 的 到 来 时 ， 
接收 方 也 “知道 ”其 到 来 ， 并 根据 事先 的 安排 作出 反应 。 然 而 ， 由 ptrace ) 所 实现 的 “通信 ” 却 完 全 契 
单方 而 的 ， 被 跟踪 的 进程 甚至 并 不 知道 (从 应 用 程序 的 角度 而 言 》 自 己 是 在 受到 控制 和 监视 的 条 件 下 
运行 。 从 这 个 角度 讲 ，ptrace( ) 其 实 又 不 属于 “进程 问 通 信 ”。 

那么 ， 怎 样 通过 ptrace( ) 来 实现 上 述 这 些 目的 昵 ? 先 来 看 看 这 个 系统 调用 的 格式 : 


int ptrace(int request , int pid, int addr, int data); 


参数 pid 为 进程 号 ， 指 明了 拘 作 的 对 象 ， 而 request， 则 是 具体 的 操作 ， 文 件 include/linux/ptrace.h 
中 定义 了 所 有 可 能 的 操作 码 : 


8 #define PTRACE TRACEME 
9 #define PTRACE PEEKTEXT 
10 #define PTRACE PEEKDATA 
11 #define PTRACE_PEEKUSR 
12 #define PTRACE_POKETEXT 
13 #define PTRACE POKEDATA 
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14 "define PTRACE POKEUSR 6 

15 #define PTRACE CONT 7 

16 H#define PTRACE KILL 8 

17 define PTRACE SINGLESTEP 9 

18 

19 Hdefine PTRACE ATTACH 0x10 
20 #define PTRACE DETACH 0x11 
21 

22 #define PTRACE SYSCALL 24 


跟踪 者 《如 gdb) 先 要 通过 PTRACE ATTACH 与 被 跟踪 进程 建立 起 关系 ， 或 者 说 “Attach” 到 被 
跟踪 进程 。 然 后 ， 就 可 以 通过 各 种 PEEK 和 POKE 操作 来 读 / 写 被 跟踪 进程 的 指令 空间 、 数 据 空间 或 者 
各 个 寄存 器 ， 每 次 都 是 AKF, H addr 指明 其 地 址 ; 或 者 ， 也 可 以 通过 PTRACE SINGLESTEP. 
PTRACE KILL. PTRACE SYSCALL 和 PTRACE CONT 等 操作 来 控制 被 跟踪 进程 的 运行 。 最 后 ， 通 
it PTRACE_DETACH 中 被 跟踪 进程 脱离 关系 。 所 有 这 些 操作 都 是 单方 面 的 ， 被 跟踪 进程 既 不 能 折 绝 ， 
也 无 需 “ 合 作 ”。 惟 一 例外 是 PTFRACE_TRACEME， 用 来 主动 接受 跟踪 。 

像 其 他 系统 调用 一 样 ，ptrace( ) 在 内 核 中 的 实现 是 sys_ptrace( )。 其 代码 人 在 arch/i386/kernel/ptrace.c 
中 : 


[sys ptrace( )] 


137 asmlinkage int sys ptrace(long request, long pid, long addr, long data) 
138 { 


139 struct task struct *child; 

140 struct user * dummy - NULL; 

141 int i, ret; 

142 

143 lock kernel( ); 

144 ret - -EPERM; 

145 if (request == PTRACE TRACEME) { 

146 /* are we already being traced? */ 
147 if (current->ptrace & PT PTRACED) 
148 goto out; 

149 /* set the ptrace bit in the process flags. */ 
150 current—>ptrace |= PT PTRACED; 

15i ret = 0; 

152 goto out: 

153 ) 


首先 是 对 PTRACE_TRACEME ff) Ab 8 , HS ap AE EE ATE FE task. struct FP Eros PF. PTRACED. 
这 个 标志 位 的 作用 读者 以 后 会 看 到 。 如 果 不 是 主动 请 求 跟踪 ， 那 就 一 定 有 个 目标 进程 了 。 继 续 往 下 看 
代码 : 


{sys_ptrace( )] 
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154 ret = -ESRCH; 

155 read lock(&tasklist lock); 

156 child = find task by pid(pid); 
157 if (child) 

158 get task struct (child) ; 
159 read unlock(&tasklist lock); 
160 if (!child) 

161 goto out; 

162 

163 ret = —EPERM; 

164 if (pid == 1) /* you may not mess with init */ 
165 goto out tsk; 

166 


函数 find. task. by. pid( )， 顾 名 思 义 就 是 根据 进程 号 找到 目标 进程 的 task_struct 结构 。 可 是 跟踪 者 
怎样 才能 知道 目标 进程 的 进程 号 呢 ? 以 gdb 为 例 有 两 种 情况 。 一 种 情况 是 被 跟踪 进程 本 来 就 是 由 gdb 
通过 fork( ) 和 exec( ) 启 动 的 。 这 种 情况 下 的 命令 行为 : 


gdb prog 


执行 prog 的 进程 本 来 就 是 gdb 的 子 进程 ， 所 以 gdb 当然 知道 它 的 进程 号 。 

另 一 种 情况 是 prog 进程 在 启动 gdb 之 前 已 经 在 运行 。 在 这 种 情况 下 操作 人 员 要 先 弄 清楚 它 的 进程 
号 (如 通过 “ps”)， 再 把 这 进程 号 作为 参数 用 在 启动 gdb 的 命令 行 中 。 此 时 的 命令 行 类 似 于 : 

gdb prog 1234 

因此 ， 在 这 两 种 情况 下 edb 都 会 知道 目标 进程 的 进程 号 。 

不 过 请 注意 ，1 号 进程 ， 即 初始 化 进程 init( ) 是 不 允许 跟踪 的 。 

找到 目标 进程 以 后 ， 要 通过 get_task_struct( ) 递 增 对 子 进程 的 task, struct 所 在 页 面 的 使 用 计数 ， 到 
完成 了 操作 以 后 再 通过 后 面 (468 行 ) 的 free_task_struct( ) 还 原 。 这 是 因为 有 些 操作 在 过 程 中 可 能 会 发 
生 进 程 调度 (读者 可 以 自己 看 一 下 access. process. vm ) 的 代码 )， 需 要 防止 因为 子 进 程 先 得 到 机 会 运行 
FE exit( )， 从 而 将 其 task_struct 结构 所 在 负面 释放 掉 的 可 能 。 

现存 可 以 执行 具体 的 操作 了 ， 先 来 看 PTRACE_ATTACH: 


[sys ptrace( )] 


167 if (request == PTRACE ATTACH) | 

168 if (child == current) 

169 goto out tsk; 

170 if ((!child->dumpable || 

171 (current-^uid != child-»euid) |! 

172 (current-uid !- child suid) || 

173 (current-^uid != child->uid) || 

174 (current->gid != child-»egid) || 

175 (current->gid !- child->sgid) || 

176 (!cap issubset(child-^»cap permitted, current->cap_permitted)) |! 
177 (current-^gid != child—>gid)) && !capable(CAP SYS PTRACE)) 
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178 goto out tsk; 

179 /* the same process cannot be attached many times */ 
180 if (child->ptrace & PT PTRACED) 
181 goto out tsk; 

182 child-^ptrace |= PT PTRACED; 

183 

184 write lock irg(&tasklist lock); 
185 if (child—>p_pptr != current) { 
186 REMOVE LINKS (child); 

187 child->p pptr = current; 

188 SET LINKS (child); 

189 ] 

190 write unlock irq(&tasklist lock); 
191 

192 send sig(SIGSTOP, child, 1); 

193 ret = 0; 

194 goto out tsk; 

195 ) 


跟踪 不 是 无 条 件 的 。 谁 可 以 跟踪 谁 ， 需 要 满足 一 些 条 件 。 首 先 ， 自 己 不 允许 《〈 也 不必 要) 跟踪 自 
己 。 除 此 之 外 ，170 行 开 始 的 站 语 句 给 出 了 这 些 条件 。 一 般 来 说 ， 两 个 进程 要 属 十 同一 -用 户 或 同一 组 。 
读者 可 以 参看 “文件 系统 ”一 章 中 的 有 关内 容 ， 搞 清 这 些 条件 的 含意 。 注 意 这 里 的 capable( ) 定 义 为 
suser( )， 也 就 是 说 如 果 两 个 进程 不 属于 同一 组 ， 就 要 将 当前 进程 提升 为 特权 用 户 进程 才 行 ， 而 这 当然 
也 是 有 条 件 的 。 此 外 ， 被 跟踪 的 进程 必须 是 尚未 受 其 他 进程 跟踪 的 。 所 谓 attach， 或 者 说 建立 起 跟踪 关 
系 ， 就 是 做 三 件 事 ，- 是 将 被 跟踪 进程 的 PF TRACED 标志 设 成 1 (182 行 )。 还 有 ， 就 是 如 果 被 跟踪 
进程 不 是 跟踪 者 的 子 进程 就 将 其 “收养 ”为 跟踪 者 的 子 进程 (185 一 189 行 )。 最 后 ， 还 要 向 被 跟踪 进程 
发 送 一 个 SIGSTOP 信号 〈192 行 )， 这 样 被 跟踪 进程 被 调度 运行 时 就 会 对 信号 作出 反应 而 进入 暂停 状 
X 


(I o 


如 果 不 是 PTRACE_ATTACH 话 ， 那 就 必然 是 对 已 经 处 于 被 跟踪 地 位 的 进程 后 续 操作 了 。 


[sys_ptrace( )] 


196 ret = -ESRCH; 

197 if (!(child->ptrace & PT PTRACED)) 
198 goto out tsk; 

199 if (child-^state !- TASK STOPPED) { 
200 if (request !- PTRACE KILL) 

201 goto out tsk; 

202 } 

203 if (child->p pptr != current) 

204 goto out tsk; 


就 是 说 ， 先 要 加 以 核实 。 目 标 进程 的 PF TRACED REME 1, HERENI E ATER 
子 进程 ， 并 且 处 于 TASK_STOPPED 状态 。 这 也 说 明 ， 如 果 有 目标 进程 是 通过 PTRACE_TRACEME 操作 
主动 接受 跟踪 的 话 ， 只 有 其 父 进程 才能 对 其 实行 跟踪 ， 并 且 先 要 向 其 发 送 一 个 SIGSTOP 信和 号。 所以， 
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跟踪 只 能 对 子 进程 进行 ， 哪 怕 是 临时 “收养 ”的 子 进程。 
通过 了 对 条 件 的 检验 以 后 ， 就 进入 一 个 switch 语句 ， 针 对 不 同 的 操作 码 来 执行 了 ; 


[sys. ptrace( )] 


205 switch (request) { 

206 /* when I and D space are separate, these will need to be fixed. */ 
207 case PTRACE PEEKTEXT: /* read word at location addr. */ 

208 case PTRACE PEEKDATA: { 

209 unsigned long tmp; 

210 int copied; 

211 

212 copied = access process vm(child, addr, &tmp, sizeof(tmp), 0); 
213 ret - -EIO; 

214 if (copied != sizeof(tmp)) 

215 break; 

216 ret - put user(tmp, (unsigned long *) data); 

217 break; 

218 } 

219 


PTRACE PEEKTEXT 操作 从 了 进程 的 指令 室 间 ， 或 称 代码 段 中 地 址 为 addr 处 读 取 一 个 长 字 ， 而 
PTRACE_PEEKDATA 则 从 子 进程 的 数据 空间 读 一 个 长 字 。 读者 可 以 回顾 一 下 第 2 章 中 有 关 的 内 容 , 在 
Linux 内 核 中 代码 空间 和 数据 宁 间 实际 上 是 一 臻 的， 所 以 三 者 可 以 合并 在 一 起 人 处理。 函数 
access_process_vm( ) 的 代码 存 kernel/ptrace.c 中 ， 我 们 把 它 作为 对 第 2 章 的 复习 ， 留 给 读者 自己 阅读 。 
access process vm( ) 是 个 对 给 定 进 程 的 存储 空间 进行 读 或 写 的 通用 函数 。 它 先 通 过 find_extend_vma( ) 
找到 该 进程 包含 着 给 定 地 址 的 虚 存 区 间 ， 然 后 根据 需要 读 / 写 的 长 度 在 access_mm( ) 中 通过 
access_one_page( ) 访 问 所 涉及 的 各 个 页 面 。 而 access one page( ) 则 是 对 给 定 进程 的 某 一 页 面 进行 读 写 
的 通用 函数 ， 它 从 进程 的 某 一 虚 存 区 间 ， 也 就 是 vm area struct 结构 开始 ， 先 找到 给 定 页 面 所 在 的 页 面 
目录 项 ， 然 后 往 下 找到 相应 的 页 面 项 。 找 到 页 面 项 以 后 ， 就 可 以 将 其 所 映射 的 物理 页 面临 时 映射 到 当 
前 进程 的 虚 存 空间 中 ， 并 对 其 进行 读 / 写 。 完 成 以 后 ， 就 道 过 put_user( ) 将 读 取 的 长 字 写 上 加 当前 进程 的 
用 户 空间 。 也 许 有 读 考 会 间 ， 当 父 进 程 正在 读 子 进程 的 物理 空间 时 ， 会 不 会 子 进程 也 正好 在 同一 地 址 
上 写 ， 从 而 使 读 出 的 数据 不 正确 昵 ? 不 会 的 。 首 先 ， 前 面 的 检验 已 经 确保 了 子 进程 正 处 于 “暂停 ” 状 
态 TASK_STOPPED (这 已 经 是 考虑 到 了 多 处 理 器 的 情况 ， 合 寺 在 单 处 理 器 系统 中 ， 则 既然 当前 进程 正 
在 运行 ， 其 子 进程 显然 不 在 运行 )。 另 外 ， 对 PTRACE_PEEKTEXT 和 PTRACE PEEKDATA Wi, Pi 
读 取 的 只 是 一 个 长 字 ， 在 32 位 的 CPU 中 只 要 一 条 指令 就 完成 了 ， 是 个 “原子 ”操作 。 

Igi -下 第 2 章 和 第 3 章 ， 读 者 就 可 以 明白 ， 进 程 的 用 户 空间 堆栈 也 在 其 数据 空间 中 ， 所 以 也 可 
以 通过 PTRACE PEEKDATA 操作 来 恋 子 进程 用 户 空间 的 堆栈 。 当 然 ， 先 要 通过 其 他 操作 得 到 其 用 户 
空间 的 堆栈 指针 。 

最 后 ， 还 柴 指 出 ，PTRACE_PEEKDATA 和 PTRACE_PEEKTEXT 只 能 用 来 读 子 进程 的 用 户 空间 ， 
而 不 能 用 来 读 系统 内核 空间， 这 是 由 函数 find extend vma( ) 所 保证 的 。 但 是 ， 子 进程 的 《与 跟踪 
有 关 的 ) 有 些 信息 却 在 系统 空间 中 。 例 如 ， 当 子 进 程 处 于 睡眠 或 暂停 状态 时 ， 其 进入 系统 空间 前 夕 的 
寄存 器 内 容 者 保存 在 它 的 系统 空间 堆栈 中 《〈pt_regs 结构 )， 还 有 些 信息 则 在 它 的 task_struct 结构 内 部 的 
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一 个 thread_struct 结构 中 。 人 怎样 读 取 这 些 信息 呢 ? 沿 着 ptrace.c 的 代码 继续 往 下 看 ; 


[sys_ptrace( )] 


220 /* read the word at location addr in the USER area. */ 
221 case PTRACE PEEKUSR: { 

222 unsigned long tmp; 

223 

224 ret - -EIO; 

225 if ((addr & 3) || addr « 0 || 

226 addr ? sizeof(struct user) - 3) 

227 break; 

228 

229 tmp = 0; /* Default return condition */ 
230 if (addr < 17*sizeof (long)) 

231 tmp = getreg (child, addr); 

232 if (addr >= (long) &dummy-^u debugreg[0] && 
233 addr <= (long) &dummy->u debugreg[7]) { 
234 addr -= (long) &dummy->u debugreg[0]; 
235 addr = addr >> 2; 

236 tmp = child-^thread. debugreg[addr]; 
237 } 

238 ret = put user(tmp, (unsigned long *) data); 
239 break; 

240 } 

241 


CP TER AEH, 286—300 T ERCEUERUE TI EZT GHA RRA) 的 某 个 寄 
存 器 的 内 容 〈 注 意 此 时 子 进程 必定 在 系统 空间 中 ， 因 为 调度 和 切换 上 只 发 生 于 系统 空间 )。 我 们 先 来 看 这 
一 部 分 。 要 读 取 一 个 寄存 器 的 内 容 时 ， 参 数 addr 必须 是 寄存 器 号 乘 以 4。 对 i386 处 理 器 而 言 共有 17 
个 这 样 的 寄存 器 ， 定 义 于 ptrace.h 中 。 不 过 ,所 谓 “ 寄 存 器 ”其 实 并 不 完全 是 字面 意义 上 的 ， 例 如 EAX 
和 ORIG_EAX 就 算 作 两 项 , 因为 在 系统 空间 堆栈 的 pt_regs 结构 中 它们 是 有 区 别 的 (系统 调用 使 用 EAX 
来 返回 出 错 代 码 )。 当 addr 指明 这 17 个 “寄存 器 ”之 一 时 ， 就 通过 getreg( ) 来 读 取 其 内 容 (代码 在 同 
一 文件 ptrace.c F); 


[sys ptrace( ) > getreg( )] 


110 static unsigned long getreg(struct task struct *child, 


lil unsigned long regno) 

112 { 

113 unsigned long retval = “OUL; 

114 

115 switch (regno >> 2) ( 

116 case FS: 

117 retval = child->thread. fs; 
118 break; 
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119 case GS: 

120 retval = child->thread. gs; 

121 break; 

122 case DS: 

123 case ES: 

124 case SS: 

125 case CS: 

126 retval = Oxffff; 

127 /* fall through */ 

128 default: 

129 if (regno > GS*4) 

130 regno -= 2*4; 

131 regno = regno - sizeof(struct pt regs); 
132 retval &- get stack long(child, regno): 
133 } 

134 return retval; 

185-. 4 


也 就 是 说 ， 除 FS 和 GS [ff XE thread. struct 结构 中 外 ， 其 余 的 都 在 系统 空间 堆栈 的 pt_regs 结构 
rh. 注意 ， 第 127 行 处 并 无 break HA). MAL get. stack. long ) 的 代码 也 在 同 -- 文 件 中 : 


[sys. ptrace( ) > getreg( ) > get. stack. long( )] 


41 /* 

42 * this routine will get a word off of the processes privileged stack. 
43 * the offset is how far from the base addr as stored in the TSS. 

44 * this routine assumes that all the privileged stacks are in our 

45 * data space. 

46 */ 


4T static inline int get_stack_long (struct task_struct *task, int offset) 
48 { 


49 unsigned char *stack; 

50 

51 stack = (unsigned char **)task-^thread. esp0; 
52 stack += offset; 

53 return (*((int *)stack)); 

54 ] 


读者 也 许 还 记得 ， 一 个 进程 的 thread. struct 结构 中 的 的 esp0 RBH ARS HERE. UL 
穿 过 中 断 门 、 陷 孟 门 或 调用 门 进入 系统 空间 时 ， 处 理 器 会 从 这 里 恢复 其 系统 空间 堆栈 。 

再 来 看 PTRACE_PEEKUSR 的 第 二 种 作用 ,这 就 要 先 介绍 一 些 背 景 知识 了 。Intel 在 1386 系统 结构 
中 首创 性 地 引入 了 “调试 寄存 器 ”(debug registers)， 为 软件 的 开发 与 维护 提供 了 功能 很 强 而 且 效 率 
很 高 的 调试 手段 。 用 户 进程 可 以 通过 设置 一 些 调试 寄存 器 来 使 处 理 器 在 … 定 的 条 件 下 沙 入 “陷阱 ” 从 
而 进入 一 个 “ 断 点 ”， 即 一 段 调试 程序 。 这 些 条 件 包括 : QD 当 处 理 器 执行 到 某 一 指令 时 ; 名 当 处 理 器 读 
某 一 内 存 地 址 时 ， 图 从 处 理 器 写 某 …- 内 存 地 址 时 。 而 “陷阱 ” 则 是 指 专门 用 于 虚 地 址 模式 程序 调试 的 1 
号 陷阱 debug ( 另 有 一 个 用 于 实地 址 模式 的 3 号 陷阱 int3， 在 Linux 中 仅 用 于 vm86 模式 )。 内 核 中 对 这 
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个 陷阱 的 处 理 程序 为 do_debug( )， 其 代码 在 traps.c 中 。 有 关 调 斌 寄存 器 的 详情 则 请 参阅 Intel 的 手册 或 
其 他 技术 资料 : 


488 /* 

489 * Our handling of the processor debug registers is non-trivial. _- 
490 * We do not clear them on entry and exit from the kernel. Therefore 
491 * it is possible to get a watchpoint trap here from inside the kernel. 
492 * However, the code in ./ptrace.c has ensured that the user can 

493 * only set watchpoints on userspace addresses. Therefore the in-kernel 
494 * watchpoint trap can only occur in code which is reading/writing : 
495 * from user space. Such code must not hold kernel locks (since it 
496 * can equally take a page fault), therefore it is safe to call 

497 * force sig info even though that claims and releases locks. 

498 « * y M 

499 * Code in ./signal.c ensures that thé debug control register 

500 * 1s restored before we deliver-Any signal, and therefore that 

501 * user code runs with the correct debug control register even though 
502 * we clear it here. 

503 * 

504 * Being careful here means that we don't have to be as careful in a 
505 * lot of more complipated places (task switching can be a bit lazy 
506 * about restoring dli the debug state, and ptrace doesn't have to 
507 * find every occurrence of the TF bit that could be saved away even 
508 * by user code) 

509 */ 


510 asmlinkage hið do debug(struct pt regs * regs, long error code) 
511 f is 


512 uns#™ied int condition; 

513 strudK task struct *tsk = current; 

514 siginfo t info; 

515 

516 ..asm volatile | (^movl %%db6, %0” : “=r” (condition)); 
517 

518, /* Mask out spurious debug traps due to lazy DR7 setting */ 
516 if (condition & (DR TRAPO|DR TRAPI|DR TRAP2|DR TRAP3)) | 
520 if (!tsk-^thread. debugreg[7]) 
524 goto clear dr7; 

522 } 

523 

524 if (regs-^»eflags & VM MASK) 

525 goto debug vm86; 

526 

527 /* Save debug status register where ptrace can see it */ 
528 tsk-^thread. debugreg[6] = condition; 

529 

530 /* Mask out spurious TF errors due to lazy TF clearing */ 
531 if (condition & DR STEP) { 


- 763 . 


532 
533 
534 
535 
536 
537 
538 
539 
540 
541 
542 
543 
544 
545 
546 
547 
548 
549 
550 
551 
552 
553 
554 
555 
556 
557 
558 
559 
560 
561 
562 
563 
564 
565 
566 
567 
568 
569 
570 
571 
572 
573 
574 
575 


一 个 
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* The TF error should be masked out only if the current 
* process is not traced and if the TRAP flag has been set 
* previously by a tracing process (condition detected by 
* the PT DTRACE flag); remember that the i386 TRAP flag 
* can be modified by the process itself in user mode, 
* allowing programs to debug themselves without the ptrace( ) 
* interface. 
*/ 
if ((tsk->ptrace & (PT DTRACE|PT PTRACED)) == PT DTRACE) 
goto clear TF; 


) 


/* Ok, finally something we can handle */ 
tsk-^thread. trap no = 1; 
tsk->thread. error code = error code; 
info.si signo = SIGTRAP; 

info.si errno = 0; 

info.si code = TRAP BRKPT; 


/* If this is a kernel mode trap, save the user PC on entry to 

* the kernel, that's what the debugger can make sense of. 

*/ 

info.si addr = ((regs->xcs & 3) == 0) ? (void *)tsk-^thread. eip : 
(void *)regs-^eip; 

force sig info(SIGTRAP, &info, tsk); 


/* Disable additional traps. They'll be re-enabled when 
* the signal is delivered. 
*/ 
clear drT: 
asm  ("movl %0, %%db7” 
; /* no output */ 
: “r” (0)); 
return; 


debug vm86: 
handle vm86 trap((struct kernel vm86 regs *) regs, error code, 1); 
return; 


clear TF: 
regs—>eflags &- “TF MASK; 
return; 


} 


我 们 不 详细 讲解 这 些 程序 了 ， 但 是 读者 可 以 看 到 它 对 当前 进程 ， 也 就 是 引起 此 次 陷阱 的 进程 发 出 
SIGTRAP 信和 号 ( 见 557 行 ), 并 且 通 过 siginfo_t 数据 结构 载 送 断 点 所 在 的 地 址 CH. 555 行 )。 当 然 ， 
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引起 这 次 陷阱 的 进程 要 事先 为 处 理 这 个 信号 作 好 准备 《否则 进程 就 会 “流产 ”)。 这 也 是 为 什么 在 编译 
供 调试 的 程序 时 要 使 用 “-g” 选 择 项 的 原因 之 一 。 
回 到 PTRACE_PEEKUSR 的 代码 中 。 这 时 的 局 部 量 dummy 起 个 user 结构 指针 ， 其 值 在 开头 时 初 
始 化 成 NULL。 第 232 和 233 行 是 对 addr 的 范围 进行 检查 。 也 就 是 ， 假 定 一 个 user 结构 是 从 地 址 0 F 
始 的 ,看 addr 的 值 是 否 对 应 于 该 结构 路 udebugreg[ ] 数 组 的 偏 移 量 。 数 据 结 构 struct user 是 在 进程 “ 流 
PE” Cabor) 时 转 储 《〈dump) 内 存 映 象 时 使 用 的 ， 定 义 于 include/asm-i386/user.h F: 


88 /* When the kernel dumps core, it starts by dumping the user struct — 


89 this will be used by gdb to figure out where the data and stack segments 
90 are within the file, and what virtual addresses to use. */ 

91 struct user { 

92 /* We start with the registers, to mimic the way that “memory” is returned 
93 from the ptrace(3,...) function. */ 

94 struct user regs struct regs; /* Where the registers are actually stored */ 
95 /* ptrace does not yet supply these. Someday.... */ 

96 int u fpvalid; /* True if math co-processor being used. */ 
97 /* for this mess. Not yet used. */ 

98 struct user 1387 struct i387; /* Math Co-processor registers. */ 

99 /* The rest of this junk is to help gdb figure out what goes where */ 

100 unsigned long int u tsize; /* Text segment size (pages). */ 

101 unsigned long int u dsize; /* Data segment size (pages). */ 

102 unsigned long int u ssize; /* Stack segment size (pages). */ 

103 unsigned long start code; /* Starting virtual address of text. x*/ 

104 unsigned long start stack; /* Starting virtual address of stack area. 
105 This is actually the bottom of the Stack, 
106 the top of the stack is always found in the 
[07 esp register. */ 

108 long int signal: /* Signal that caused the core dump. */ 

109 int reserved: /* No longer used */ 

110 struct user pt regs * u_ar0; /* Used by gdb to help find the values for */ 
111 /* the registers. */ 

112 struct user_i387_struct* u fpslate; /* Math Co-processor pointer. */ 
113 unsigned long magic; /* To uniquely identify a core file */ 

114 char u comm[32]; /* User command that was responsible */ 

115 int u debugreg!8]; 

H6. }; 


不 过 ， 这 个 数据 结构 在 这 里 只 是 用 来 检查 参数 addr 的 范围 ， 而 具体 调试 寄存 器 的 映 象 则 在 : 子 进 程 
的 thread struct 结构 中 ( 见 236 行 )。 
PTRACE POKETEXT 和 PTRACE POKEDATA 是 前 而 两 个 操作 的 逆向 操作 ， 代 码 很 简单 
(ptrace.c). 


[sys_ptrace( )] 


242 /* when I and D space are separate, this will have to be fixed. */ 
243 case PTRACE POKETEXT: /* write the word at location addr. */ 


- 765 . 


Linux 内 核 源 代码 情景 分 析 ‘上册 ) 


244 case PTRACE POKEDATA: 

245 ret = 0; 

246 if (access process vm(child, addr, &data, sizeof (data), 1) ==sizeof (data) ) 
247 break; 

248 ret = -EIO; 

249 break; 

250 


PTRACE, POKEUSR 则 稍微 要 复杂 -点 : 


[sys ptrace( )] 


251 case PTRACE POKEUSR: /* write the word at location addr in the USER area */ 
252 ret = -RIO; 

253 if ((addr & 3) || addr < 0 || 

254 addr > sizeof(struct user) - 3) 

255 break; 

256 

257 if (addr < 17*sizeof(long)) | 

258 ret = putreg(child, addr, data); 

259 break; 

260 ) 

261 /* We need to be very careful here. We implicitly 

262 want to modify a portion of the task struct, and we 
263 have to be selective about what, portions we allow someone 
264 to modify. */ 

265 

266 ret = -EIO; 

267 if (addr >= (long) &dummy-^u debugreg[0] && 

268 addr <= (long) &dummy-^u, debugreg[7]) { 

269 

210 if(addr == (long) &dummy-^u debugreg[4]) break; 

271 if (addr == (long) &dummy—>u_debugreg[5]) break; 

272 if(addr < (long) &dummy->u_debugreg[4] && 

273 ((unsigned long) data) >= TASK SIZE-3) break; 
214 

215 if(addr == (long) &dummy-^u debugreg[7]) { 

276 data &- "DR CONTROL RESERVED; 

277 for (i=0; i<4; i++) 

278 if ((Ox5f54 >> ((data >> (16 + 4*i)) & Oxf)) & 1) 
279 goto out_tsk; 
280 

281 

282 addr -= (long) &dummy-^u debugreg: 

283 addr = addr >> 2; 

284 child->thread. debugreg[addr] = data; 

285 ret = 0; 
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286 } 
287 break; 
288 


这 里 的 特别 之 处 仅 在 于 对 参数 addr 和 data 的 检查 。 首 先 ， 调 试 寄存 器 0 至 3 这 四 个 寄存 器 是 允许 
没 置 的 ， 但 是 要 检查 所 设置 的 值 data (实际 上 是 个 内 存 地 址 ) 是 否 越 出 了 用 户 空 间 的 范围 。 除 此 之 外 ， 
只 有 调度 寄存 器 7 是 允许 设置 的 ， 但 是 对 其 数值 有 些 特殊 的 要 求 。 

操作 PTRACE SYSCALL 和 PTRACE CONT 为 一 组 ， 分 别 用 来 使 被 跟踪 的 子 进程 在 下 -次 系统 
调用 时 暂停 或 继续 : 


[sys_ptrace( )] 


289 case PTRACE SYSCALL: /* continue and stop at next (return from) syscall */ 
290 case PTRACE CONT: { /* restart after signal. */ 

291 long tmp; 

292 

293 ret = -RIO; 

294 if ((unsigned long) data > NSIG) 

295 break; 

296 if (request == PTRACE SYSCALL) 

297 child->ptrace |= PT TRACESYS; 

298 else 

299 child->ptrace &- "PT TRACESYS; 

300 child-^exit code = data; 

301 /* make sure the single step bit is not set. */ 

302 tmp = get stack long(child, EFL OFFSET) & “TRAP FLAG; 
303 put stack long(child, EFL OFFSET, tmp); 

304 wake up process(child); 

305 ret = 0; 

306 break; 

307 } 

308 


使 子 进程 在 下 一 次 进入 系统 调用 时 暂停 与 使 子 进程 在 执行 下 一 条 指令 后 暂停 
(PTRACE_SINGLESTEP) 是 互 扩 的。 所以， 要 将 子 进 程 的 标志 寄存 器 映 象 中 的 TRAP. FLAG 标志 清 
0 (302—303 行 )。 读 者 在 前 面 已 看 到 过 get_stack_long( ) 的 代码 ， 而 put. stack. long ) 即 为 其 逆向 操作 。 
使 被 跟踪 进程 在 下 一 次 进入 系统 调用 时 暂停 是 道 过 其 task, struct 结构 中 的 PF_TRACESYS 标志 位 起 作 
用 的 。 $ 
在 第 3 章 讲述 系统 调用 过 程 时 我 们 有 意 忽略 了 标 V 志 位 PF_TRACESYS 的 作用 ， 现 在 把 它 补 上 。 让 
我 们 来 看 看 文件 arch/i386/kernle/entry.S 中 的 几 个 片断 : 


195 ENTRY (system call) 


196 pushl %eax # save orig eax 
197 SAVE_ALL 
198 GET_CURRENT (%ebx) 
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“200 
201 
202 
203 


244 
245 
246 
247 
248 
249 
250 
251 
202 
253 
254 


中 : 


Linux 内 核 源 代码 情景 分 析 《“ 上 灿 》 


cmpl $ (NR _ syscalls), %eax 

jae badsys 

testb $0x02, tsk ptrace (%ebx) # PT TRACESYS 
jne tracesys 

call *SYMBOL NAME(sys call table) (, %eax, 4) 


tracesys: 


movl $-ENOSYS, EAX (%esp) 

call SYMBOL NAME (syscall trace) 

movl ORIG EAX (9 esp), %eax 

cmpl $(NR syscalls), *eax 

jae tracesys exit 

call *SYMBOL NAME (sys call table) (, %eax, 4) 

mov! %eax, EAX (esp) # save the return value 


tracesys exit: 


call SYMBOL NAME(syscall trace) 
jmp ret from sys call 


在 跳 转 到 各 个 系统 调用 的 处 理 程序 之 前 ， 先 要 检查 当前 进程 的 PF_TRACESYS 标志 ， 如 果 为 1 就 
转移 到 tracesys。 转 到 tracesys 以 后 , 首先 就 是 调用 syscall_trace( ), 其 代码 又 回 到 arch/i386/kernel/ptrace.c 


[system call ( ) > syscall trace( )] 


465 
466 
467 
468 
469 
470 
471 
472 
473 
474 
475 
476 
477 
478 
479 
480 
481 
482 
483 


asmlinkage void syscall_trace (void) 


| 


} 


if ((current->ptrace & (PT_PTRACED|PT_TRACESYS)) != 
(PT PTRACED|PT TRACESYS)) 
return; 
current-^exit code = SIGTRAP; 
current-^state = TASK STOPPED; 
notify parent (current, SIGCHLD) ; 
schedule( ); 
/* 
* this isn’t the same as continuing with a signal, but it will do 
* for normal use. strace only continues with a signal if the 
* stopping signal is not SIGTRAP. -brl 
*/ 
if (current-»exit code) { 
send sig(current-?exit code, current, 1); 
current-»exit code = 0; 


在 这 里 ， 通 过 notify parent( )， 向 父 进程 发 送 一 个 SIGCHLD 信和 号， 读者 已 经 在 第 4 章 中 见 到 过 
notify_parent( ) 的 代码 。 然 后 就 调用 schedule( ) 进 入 暂停 状态 TASK_STOPPED。 当 然 ， 其 父 进程 必定 已 
经 设置 好 对 SIGCHLD 信号 的 反应 。 当 父 进 程 设置 了 子 进程 的 PF TRACESS 标志 位 ， 然 后 又 接收 到 了 了 
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进程 发 送 过 来 的 SIGCHLD 信和 号 时 ， 就 知道 子 进程 已 经 在 系统 调用 的 入 口 处 陷入 了 暂停 状态 。 这 让 
父 进程 就 可 以 通过 PTRACE_PEEKUSR 等 操作 来 收集 或 改变 有 关 的 数据 (如 调用 参数 )。 然 后 ， 可 以 
通过 向 子 进程 发 送 一 个 SIGCONT 信号 让 它 继 续 运行 ， 也 就 是 让 它 从 sysycall_trace( ) 中 的 schedule( ) 返 
站， 而 加 到 entry.S 中 的 tracesys 处 通过 跳 转 表 进 入 具体 系统 调 咱 的 代码 ( 见 250 行 )。 父 进程 还 可 以 通 
过 PTRACE_POKEUSR 等 操作 将 子 进程 的 ORIG_EAX 设置 成 - .个 大 于 NT_syscalls 的 什 ， 使 子 进程 跳 
过 对 系统 调用 本 身 的 执行 ( 见 249 行 )。 最 后 ， 子 进程 在 执行 完 系 统 调用 本 身 以 后 ， 在 tracesys exit 处 
还 要 再 调用 “次 syscall_trace( )， 让 父 进程 有 个 机 会 来 收集 子 进程 在 执行 完 系 统 调用 后 的 结果 (如 返回 
值 或 出 错 代码 )。 这 样 ， 父 进程 就 可 以 监视 子 进程 的 所 有 系统 调用 ， 甚 至 还 能 向 子 进程 “伪造 ” 对 系统 
调用 的 执行 ， 把 子 进程 的 系统 调用 “恒定 向 ” 到 父 进程 的 用 户 空 间 程序 中 。 

回 到 ptrace.c 中 国 数 sys_ptrace( ) 的 代码 继续 往 下 看 ， 下 面 比较 简单 -E 





[sys_ptrace( )] 


309 /* 

310 * make the child exit. Best I can do is send it a sigkill. 
311 * perhaps it should be put in the status that it wants Lo 
312 * exit. 

313 */ 

314 case PTRACE KILL: ( 

315 long tmp; 

316 

317 ret = 0; 

318 if (child->state == TASK_ZOMBITE) /* already dead */ 
319 break; 

320 child-^exit code = SIGKILL; 

321 /* make sure the single step bit is not set. */ 

322 tmp = get stack long(child, EFL OFFSET) & "TRAP FLAG; 
323 put stack long(child, EFL OFFSET, tmp); 

324 wake up process (child); 

325 break; 

326 } 


PTRACE_KILL 操作 使 子 进程 退出 运行 。 除 PTRACE ATTACH 以 外 ， 其 他 的 操作 一 般 部 要 求 目标 
进程 处 于 暂停 状态 (只 有 这 样 ， 月 标 进程 的 内 存 和 寄存 器 映 象 才 是 静态 的 )， 只 有 PTRACE_KILL 是 个 
例外 ( 见 前 面 的 200—201 行 所 作 的 检查 )。 函 数 wake_up_process( ) 将 月 标 进程 的 状态 改 成 
TASK_RUNING， 而 不 问 其 原来 是 什么 状态 。 如 果子 进程 处 十 PF_TRACESYS 状态 ， 则 当 了 进程 下 一 
次 进行 系统 调用 而 在 内 核 中 进入 syscall_trace( ) 以 后 ， 会 向 其 自身 发 送 一 个 SIGKILL 信号 OX EEK 
479—481 行 )。 继 续 往 下 看 ; 


[sys ptrace( )] 


328 case PTRACE SINGLESTEP: { /* set the trap flag. */ 
329 long tmp; 
330 
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331 ret = -EIO; 

332 if ((unsigned long) data > _NSIG) 

333 break; 

334 child->ptrace &- "PT TRACESYS; 

335 if ((child->ptrace & PT DTRACE) == 0) { 

336 /* Spurious delayed TF traps may occur */ 
337 child->ptrace |= PT DTRACE; 

338 ) 

339 tmp = get stack long(child, EFL OFFSET) | TRAP FLAG; 
340 put stack long(child, EFL OFFSET, tmp) ; 

341 child—exit code = data; 

342 /* give it a chance to run. */ 

343 wake up process(child); 

344 ret = 0; 

345 break; 

346 } 

347 


除 道 过 前 述 的 调试 寄存 器 可 以 让 寄存 器 在 特定 的 条 件 下 进入 1 号 陷阱 debug Sb, 1386 CPU 还 提供 
了 单 步 执行 的 手段 。 只 要 在 处 理 器 的 标志 寄存 器 中 将 TRAP. FLAG 标志 位 设 成 1， 处 理 器 就 会 在 每 执 
行 完 -- 条 机 器 指令 以 后 就 进入 debug 陷阱 而 到 达 一 个 断 点 。 这 样 ， 跟 踪 进程 就 可 以 像 对 待 子 进程 的 系 
统 调用 一 样 ， 在 子 进程 每 执行 完 一 条 指令 后 就 来 观察 执行 的 结果 。 不 过 ， 对 指令 的 跟踪 与 对 系统 调用 
的 跟踪 是 五 斥 的 ， 所 以 要 将 子 进程 的 PF_TRACESYS 标志 清 0。 注 意 PF TRACESYS 标志 与 
TRAP FLAG 是 两 码 事 。 前 者 是 … 个 软件 标志 ， 是 进程 的 task_struct 结构 内 部 flags 中 的 … 位 ， 这 完全 
是 供 软件 使 用 的 ， 而 与 处 理 器 的 硬件 没有 直接 的 联系 。 相 比 之 下 ，TRAP_FLAGS 是 个 硬件 标志 ， 它 是 
处 理 器 中 的 “标志 寄存 器 ”EFL 的 一 位 ， 直 接 影响 着 处 理 器 的 行为 。 每 当 调 度 一 个 进程 进入 运行 时 ， 
就 会 在 返回 用 户 空间 前 夕 将 其 标志 寄存 器 映 象 装 入 CPU 的 标志 寄存 器 EFL， 所 以 可 以 实现 对 该 进程 的 
单 步 跟 踪 ， 而 并 不 影响 其 他 进程 或 者 在 系统 空间 的 运行 。 但 是 ， 直 接 用 TRAP FLAG 标志 位 来 代表 
ptrace ) 机 制 的 单 步 跟 踪 状 态 是 不 可 靠 的 。 这 是 因为 应 用 软件 也 可 以 改变 处 理 器 的 标志 寄存 器 ， 从 而 千 
成 混淆 。 所 以 ，ptrace( ) 同 时 还 定义 了 一 个 用 于 单 步 执行 的 软件 标志 PT_DTRACE， 在 通过 ptrace( ) 的 
PTRACE. SINGLESTEP 来 开始 单 步 跟 踪 叶 就 将 这 个 软件 标志 也 设 成 1。 其 余 的 抬 作 就 比较 简单 了 。 结 
合 前 面 一 些 操作 的 代码 ， 读 者 自行 阅读 应 该 不 会 有 困难 〈ptrace.c)。 


[sys ptrace( )] 


348 case PTRACE DETACH: { /* detach a process that was attached. */ 
349 long tmp; 

350 

351 ret ~ -EIO; 

352 if ((unsigned long) data > _NSTG) 

353 break; 

354 child->ptrace 及 = ~ (PT PTRACED|PT. TRACESYS) : 

355 child-^»exit code = data; 

356 write lock irq(&tasklist, lock); 

357 REMOVE LINKS (child); 
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358 child->p_pptr = child->p opptr; 

359 SET LINKS(child); 

360 write unlock irq(&tasklist lock); 

361 /* make sure the single step bit is not set. */ 

362 tmp - get stack long(child, EFL OFFSET) & "TRAP. FLAG; 
363 put stack long(child, EFL OFFSET, tmp); 

364 wake up process (child); 

365 ret = 0; 

366 break; 

367 } 

368 

369 case PTRACE GETREGS: { /* Get all gp regs from the child. */ 
370 if (laccess ok(VERIFY WRITE, (unsigned *) data, 17*sizeof(long))) { 
371 ret = -EIO; 

372 break; 

373 } 

374 for (i = 0; i € 17*sizeof (long): i += sizeof (long) ) ( 
375 —.put user(getreg(child, i), (unsigned long *) data); 
376 data += sizeof (long); 

377 } 

378 ret = 0; 

379 break; 

380 } 

381 

382 case PTRACE SETREGS: { /* Set all gp regs in the child. */ 
383 unsigned long tmp; 

384 if (!access_ok(VERIFY_READ, (unsigned *) data, I7*sizeof(long))) { 
385 ret = -EIO; 

386 break; 

387 } 

388 for (i = 0; i < 17*sizeof (long); i += sizeof (long) ) { 
389 __get_user (tmp, (unsigned long *) data); 

390 putreg(child, i, tmp); 

391 data += sizeof (long) ; 

392 } 

393 ret = 0; 

394 break; 

395 } 

396 

397 case PTRACE_GETFPREGS: | /* Get the child FPU state. */ 

398 if (laccess ok(VERIFY WRITE, (unsigned *)data, 

399  sizeof(struct user i387 struct))) { 

400 ret = —EIO; 

401 break; 

402 ] 

403 ret = 0; 

404 if ( !child-puge@ math ) { 

405 /* SimulatéÜAn empty FPU. */ 
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set fpu cwd(child, 0x037f) ; 
set fpu swd(child, 0x0000) ; 
set fpu twd(child, Oxffff); 


) 


get fpregs((struct user i387 struct *)data, child); 


break; 
} 


case PTRACE SETFPREGS: { /* Set the child FPU state. */ 
if (laccess ok(VERIFY READ, (unsigned *)data, 
sizeof (struct user i387 struct))) | 


ret - —EIO; 
break; 

} 

child->used math = 1; 


set fpregs(child, (struct user i387 struct *) data) ; 


ret = 0; 
break; 


} 


case PTRACE_GETFPXREGS: { /* Get the child extended FPU state 


if (access ok (VERIFY WRITE, (unsigned *) data, 
sizeof (struct user fxsr struct))) { 


ret = -EIO; 
break; 


} 


if ( !child->used_math ) { 
/* Simulate an empty FPU. */ 
set fpu cwd(child, 0x037f); 
set fpu swd(child, 0x0000) ; 
set fpu_twd(child, Oxffff): 
set fpu mxcsr (child, 0x1f80) ; 


} 


ret = get fpxregs((struct user fxsr struct *)data, child); 


break; 
) 


case PTRACE SETFPXREGS: { /* Set the child extended FPU state 


if (laccess ok(VERIFY READ, (unsigned *)data, 
sizeof (struct user fxsr struct))) { 


ret = -EIO; 

break; 
) 
child-^used math = 1; 
ret - set fpxregs(child, 
break; 


(struct user fxsr struct *)data); 


*/ 


*/ 
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454 default: 

455 ret = -EIO; 

456 break; 

457 } 

458 out_tsk: 

459 free_task struct (child); 
460 out: 

461 unlock kernel ( ); 

462 return ret; 

463 ] 


如 前 所 述 , ptrace( ) 在 实际 运用 中 并 不 是 用 作 进 程 间 通讯 的 手段 ， 和 而 是 作为 程序 调试 和 维护 的 手段 。 
作为 调试 手段 ， 其 各 方面 的 作用 在 早期 的 Unix 系统 中 是 无 可 替代 的 。 不 过 ， 随 着 Unix (以 及 Linux) 
的 发 展 ， 出 现 了 /proc 上 月 录 下 的 特殊 文件 〔 见 “文件 系统 ” 一 章 中 的 有 关内 容 )， 使 用 户 可 以 通过 这 些 
特殊 文件 来 读 / 写 一 个 进程 的 内 存 空间 和 其 他 信息 ， 而 卫 往 往 更 为 方便 ， 形 式 上 也 更 为 划一 。 所 以 ， 近 
ERR gdb 一 类 的 调试 工具 已 经 贷 向 于 更 多 地 使 用 这 些 特 殊 文件 《严格 说 来 这 些 特殊 文件 当然 也 可 用 
于 进程 问 通讯 ， 只 不 过 人 们 已 经 有 了 更 好 的 进程 间 通 讯 手 段 ， 因 而 不 会 这 样 去 用 而 已 )。 但 是 ， 尽 管 如 
Bis Iproc 特殊 文件 还 是 不 能 完全 取代 ptrace( ) 的 作用 。 例 如 ，ptrace( EACH ARNOT, SRE ay 
以 通过 跟踪 应 用 程序 所 作 的 系统 调用 来 监视 其 运行 。 我 们 知道 ，Linux 内 核 的 源 代 码 是 公开 的 ， 可 是 应 
用 程序 的 源 代码 却 “ 般 都 不 公开 。 拿 到 - -个 应 用 程序 以 后 ， 如 果 想 事 知 道 它 究 竟 在 十 些 什 么 ， 最 好 的 
办 法 就 是 监视 它 都 作 了 些 什么 系统 调用 ， 调 用 时 的 参数 都 是 些 什么 ， 返 回 值 又 是 什么 。 这 时 就 要 用 到 
ptrace( ) 了 。 为 了 这 个 日 的 ，Linux 专门 提供 了 一 个 二 上 共 ， 即 shell 实用 程序 strace。 读 者 不 妨 先 体 验 - - 
下 strace 的 使 用 ， 然 后 ， 想 想 它 是 怎样 实现 的 ? 


% strace echo hello 
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从 本 节 开 始 , 我 们 用 三 节 的 篇 幅 集中 介绍 Linux 内 核对 Unix 系统 V 进程 闻 通 信 机 制 的 继承 和 实现 。 
TR Unix 系统 的 进程 间 通 信 (IPC) 机 制 主要 有 两 种 ， 就 是 管道 和 信号。 后 来 ， 针对 普通 管道 只 
能 在 “近亲 ”进程 之 间 建 立 的 缺点 ， 又 有 了 命名 管道 。 但 是 ， 对 于 一 个 现代 的 操作 系统 以 及 日 益 发 展 
的 各 种 应 用 来 说 ， 这 些 机 制 虽然 很 重要 ， 但 也 确实 存在 明显 的 不 足 。 首 先 ， 信 号 所 能 载 送 的 信息 量 很 
小 ， 单 独 使 用 时 不 适合 信息 晤 要 求 比较 大 的 场合 。 而 管道 ， 即 使 是 命名 管道 ， 虽 然 可 用 于 信息 量 校 大 
的 场合 ， 但 是 对 于 不 同 的 应 用 而 言 还 是 有 许多 缺点 ， 主 要 有 ; 
© 所 载 送 的 信息 是 无 格式 的 字 节 流 。 设 想 如 果 一 个 进程 要 发 送 两 段 文字 给 另 一 个 进程 ， 每 段 文 
字 部 是 一 个 小 小 的 字符 文件 ， 那 么 对 接收 方 进程 而 育 ， 这 两 段 文字 连 成 了 一 片 ， 怎 样 知道 这 
两 段 文字 的 分 界 在 哪儿 呢 ? 一 个 管道 (命名 的 或 者 无 名 的 ) 就 好 像 是 一 条 通信 线路 ， 在 这 条 
通信 线路 上 要 有 一 些 起 码 的 、 低 层 的 “通信 规程 ”， 例 如 报 文 的 划分 ， 才 能 满足 较 高 层 规程 的 
要 求 。 从 这 个 角度 来 说 ， 无 格式 字 节 流 只 是 一 种 最 原始 的 通信 手段 。 
e 由 十 所 载 送 的 是 无 格式 字 节 流 ， 就 缺乏 一 些 控制 手段 ， 如 报 文 的 优先 级 别 等 。 
e. 管道 机 制 的 缓冲 区 大 小 是 有 限 的 、 静 态 的 。 当 发 送 者 写 满 了 缓冲 区 而 接收 者 没有 来 得 及 从 组 
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冲 区 读 走 ， 发 送 者 就 只 好 停 下 来 睡眠 ， 这 就 强化 了 管道 机 制 的 同步 性 要 求 。 虽 然 这 种 同步 性 
往往 本 来 就 是 应 用 程序 所 需要 的 ， 但 在 某 些 应 用 中 、 某 些 场合 下 却 成 为 一 个 缺陷 。 固 然 ， 可 
以 通过 使 用 O. NONBLOCK 标志 让 发 送 者 在 缓冲 区 一 满 就 返回 〈 而 不 至 于 进入 睡眠 ) 但 那样 
会 增加 应 用 程序 的 复杂 性 ， 还 会 进一步 降低 效率 。 再 说 ， 在 管道 机 制 中 也 大 法 让 发 送 者 预先 
知道 缓冲 区 中 还 有 多 少 可 写 空间 。 

e 从 运行 效率 看 ， 管 道 机 制 的 开销 也 不 小 ， 尤 其 是 当 发 送 的 信息 量 比较 小 时 ， 平 均 每 个 字 节 所 

耗费 的 代价 就 相当 高 了 。 

e 每 个 管道 都 要 占用 一 个 打开 文件 号 ， 一 般 的 应 用 中 这 还 不 至 于 成 为 问题 ， 但 在 某 些 特殊 的 应 

用 中 是 有 可 能 会 成 为 问题 的 。 

上 列 的 多 数 缺 陷 都 可 以 在 应 用 软件 中 采取 一 些 措施 加 以 克服 或 减轻 ， 但 是 闭 样 只 会 使 应 用 软件 更 
复杂 、 效 率 更 低 。 而 操作 系统 的 作用 和 日 的 本 来 就 在 于 使 应 用 软件 更 简单 、 更 安全 、 更 高 效 。 这 样 ， 
针对 各 种 应 用 的 要 求 ， 就 提出 了 改进 早期 Unix IPC 机 制 的 任务 。 另 方面， 当时 在 操作 系统 以 及 一 学 
有 关 领 域 的 理论 研究 也 有 了 较 大 的 发 展 而 且 日 趋 成 熟 , 概括 出 了 对 IPC 的 儿 种 抽象 ,包括 报 文 (message) 
传递 、 共 享 内 存 以 及 进程 同步 。 其 中 进程 同步 又 包括 了 信号 量 semaphore), HFE (mutex) 以 及 “ 约 
&” (rendezvous) 等 形式 。 在 这 样 的 历史 条 件 下 ，AT&T 在 其 Unix RA V ERAN TRA. J 
享 内 存 以 及 信号 量 三 种 IPC 机 制 。 这 三 种 机 制 合 在 一 起 统称 为 “系统 V 进程 间 通 信 机 制 ”。 与 此 同时 ， 
BSD 也 在 早期 Unix IPC 机 制 的 基础 上 作 了 扩充 , 形成 了 基于 socket 的 IPC 机 制 , 使 得 IPC 成 为 系统 V 
与 BSD 版 本 之 间 的 主要 区 别 之 一 。 而 Linux 则 兼容 并 包 ， 把 两 者 都 继承 了 下 来 。 我 们 将 在 下 一 章 再 介 
绍 BSD 所 扩充 的 IPC 机 制 ， 而 本 节 以 及 后 面 两 节 则 集中 于 ATAT 的 系统 V IPC 机 制 在 Linux 内 核 中 
的 具体 实现 。 

Linux 内 核 为 系统 V IPC 提供 了 - -个 统一 的 系统 调用 ipc( )， 世 许 应 称 为 sysv_ipc( )。 其 应 用 程序 
设计 界面 CAPD 为: 


int ipc(unsigned int call, int first, int second, int third, void *ptr, int firth); 


其 中 第 一 个 参数 call 为 具体 的 操作 码 ， 定 义 于 include/asm-i386/ipc.h H: 


14 define SEMOP 1 
15 #define SEMGET 2 
16 #define SEMCTL 3 
17 Hdefine MSGSND 11 
18 define MSGRCV 12 
19 Hdefine MSGGET 13 
20 define MSGCTL 14 
21 define SHMAT 21 
22 #define SHMDT 22 
23 Hdefine SHMGET 23 
24 Hdefine SHMCTL 24 


操作 码 中 凡 由 “SEM” 开 头 的 都 是 为 信号 量 而 设 ， 由 “MSG 开头 的 都 是 为 报 文 传递 而 设 ， 而 由 
“SHM” 开 头 的 则 都 是 为 共享 内 存 区 而 设 。 其 余 参 数 的 使 用 则 因 具 体操 作 的 不 司 而 异 。 不 过 ， 为 便于 
使 用 ， 在 C 语言 函数 库 中 分 别提 供 了 如 semget( ). msgget( ). msgsnd( ) 等 等 库 函 数 ， 这 些 库 函数 把 用 
户 程序 对 它们 的 调用 转换 成 统一 的 系统 调用 ipc( )， 却 使 用 户 感到 好 像 内 核 提供 了 这 么 一 些 不 同 的 系统 
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调用 一 样 。 
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内 核 中 的 入 口 为 sys_ipc( )， 其 代码 在 arch/i386/kernel/sys_i386.c 中 : 


/* 

* sys ipc( ) is the de-multiplexer for the SysV IPC calls.. 

* 

* This is really horribly ugly. 

*/ 

asmlinkage int sys ipc (uint call, int first, int second, 
int third, void *ptr, long fifth) 

{ 


int version, ret; 


version = call >> 16; /* hack for backward compatibility */ 
call &- Oxffff; 


switch (call) ( 
case SEMOP: 
return sys semop (first, (struct sembuf *)ptr, second): 
case SEMGET: 
return sys semget (first, second, third); 
case SEMCTL: { 
union semun fourth; 
if (!ptr) 
return -EINVAL; 
if (get user(fourth. pad, (void **) ptr)) 
return -EFAULT; 
return sys semctl (first, second, third, fourth): 


case MSGSND: 
return sys msgsnd (first, (struct msgbuf *) ptr, 
second, third); 
case MSGRCV: 
switch (version) { 
case 0: { 
struct ipc kludge tmp; 
if (!ptr) 
return —EINVAL; 


if (copy from user (&tmp, 
(struct ipc kludge *) ptr, 
sizeof (tmp))) 
return -EFAULT; 
return sys msgrcv (first, tmp.msgp, second, 
tmp.msgtyp, third); 
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171 default: 

172 return sys msgrcv (first, 

173 (struct msgbuf *) ptr, 

174 second, fifth, third); 

175 } 

176 case MSGGET: 

177 return sys msgget ((key t) first, second); 
178 case MSGCTL: 

179 return sys msgctl (first, second, (struct msgid ds *) ptr); 
180 

181 case SHMAT: 

182 switch (version) { 

183 default: { 

184 ulong raddr; 

185 ret - sys shmat (first, (char *) ptr, second, &raddr); 
186 if (ret) 

187 return ret; 

188 return put user (raddr, (ulong *) third); 
189 ) 

190 case l: /* iBCS2 emulator entry point */ 

191 if (Isegment eq(get fs( ), get ds( ))) 
192 return -EINVAL; 

192 return sys shmat (first, (char *) ptr, second, (ulong *) third); 
194 } 

195 case SHMDT: 

196 return sys shmdt ((char *) ptr); 

197 case SHMGET: 

198 return sys shmget (first, second, third); 

199 case SHMCTL: 

200 return sys shmctl (first, second, 

201 (struct shmid ds *) ptr); 

202 default: 

203 return —EINVAL; 

204 } 

205 } 


函数 sys ipc B&B RIG: HEISE PEGA ANIA, Ar ah Se aa a fe LEY 11 项 
不 同 的 操作 。 我 们 分 三 节 介绍 相关 的 源 代码 ， 本 节 先 介绍 报 文 传递 。 

每 一 个 进程 都 可 以 通过 库 函 数 调用 msgget( ) ( 即 通过 操作 码 为 MSGGET 的 iO RAAH, FED 
建立 报 文 队 列 。 有 的 系统 中 把 这 样 的 队列 称 为 “信箱 ”(mail box)。 报 文 队列 不 是 通过 文件 名 ， 而 是 通 
过 一 个 “ 键 值 ” (key) 加 以 标识 的 。 一 旦 建立 以 后 ， 其 他 进程 就 可 以 使 用 相同 的 键 值 道 过 msgget ) 取 
得 对 已 建立 报 文 队列 的 访问 途径 。 然 后 ， 发 送 报 文 的 进程 就 可 以 通过 msgsnd( ) 发 送 报 文 到 指定 的 队列 
中 ， 而 接收 进程 则 可 以 通过 msgrev( ) 从 指定 的 队列 中 接收 报 文 。 从 概念 上 说 ， 这 类 似 于 命名 管道 ， 但 
报 文 队列 所 传递 的 不 再 是 完全 无 结构 的 字 节 流 了 ， 每 个 报 文 都 有 一 定 的 低层 结构 而 互相 区 分 。 此 外 ， 
还 可 以 通过 msgctl( ) 调 几 对 指定 的 报 文 队 列 进行 一 些 控制 (包括 撤消 该 队列 )。 由 于 报 文 队列 并 不 纳入 
文件 系统 的 范畴 , 所 以 并 不 占用 打开 文件 号 。 内 核 中 实现 报 文 传递 机 制 的 代码 基本 上 都 在 文件 ipc/msg' 
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中 。 


6.6.1 FERAL msgget( ) 一 一 创建 报 文 队列 


先 来 看 报 文 队列 的 建立 和 取得 (msg.c): 
[sys. ipc( ) > sys msgget( )] 


303 asmlinkage long sys msgget (key t key, int msgflg) 


304 Í 
305 int id, ret = -FPERM; 

306 struct msg queue *msq; 

307 

308 down (&msg_ids. sem) ; 

309 if (key == IPC PRIVATE) 

310 rei = newque (key, msgflg): 

311 else if ((id = ipc findkey(&msg ids, key)) == -1) { /* key not used */ 
312 if (L(msgflg & IPC CREAT)) 

313 ret = -ENOENT; 

314 else 

315 ret - newque(key, msgflg); 

316 } else if (msgflg & IPC_CREAT && msgflg & IPC EXCL) { 
317 ret = -EEXIST; 

318 ) else { 

319 msq = msg lock(id); 

320 if (msq==NULL) 

321 BUG ( ) ; 

322 if (ipcperms(&msq-^q perm, msgflg)) 

323 ret = -EACCES; 

324 else 

325 ret = msg buildid(id, msq-?q perm. seq); 
326 msg_unlock (id) ; 

327 } 

328 up(&msg ids. sem) ; 

329 return ret; 

3300 } 


RIER MSGGET， 从 而 是 sys_msgget( ) 可 用 于 两 个 不 同 的 目的 ， 一 是 用 一 个 给 定 的 键 值 创建 一 个 
报 文 队列 ， 二 是 给 定 - -个 键 值 ， 找 到 已 经 建立 的 报 文 队列 。 当 调 用 参数 msgflg 中 的 IPC. CREATE 标志 
为 1 时 表示 创建 ,为 0 时 则 为 寻找 ,二 者 均 返 回报 文 队列 的 标识 号 。 内 核 中 有 个 全 局 的 数据 结构 msg ids, 
专门 用 来 管理 报 文 队列 (msg.c )。 


92 static struct ipc ids msg ids; 
其 中 类 型 ipc_ids 在 ipc/util.h 中 定义 ; 
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15 struct ipc ids { 


16 int size; 

17 int in use; 

18 int max id; 

19 unsigned short seq; 

20 unsigned short seq max; 
2] struct semaphore sem; 
22 spinlock_t ary; 

23 struct ipc_id* entries; 
24 1; 


结构 中 的 指针 entries 指向 一 个 结构 数组 ， 其 类 型 定义 为 《util.h): 


26 struct ipc id { 
27 struct kern ipc perm* p; 
28 COS; 


数组 中 的 元 素 都 是 指向 kem ipe perm 数据 结构 的 指针 ， 而 kern ipe perm 数据 结构 则 是 在 
include/linux/ipc.h 中 定义 的 : 


56 /* used by in-kernel data structures */ 
57 struct kern ipc perm 


58 { 

59 key_t key; 

60 uid_t uid; 

61 gid t gid; 

62 uid_t cuid; 

63 gid t cgid; 

64 mode t mode ; 

65 unsigned long seq; 
66 kh 


数据 结构 msg ids 是 全 局 的 ， 显 然 必须 置 于 内 核 中 “信号 量 ” 机 制 ( 见 第 4 章 ) 的 保护 之 下 。 

键 的 类 型 为 key_t， 实 际 上 是 个 整数 。 前 面 讲 过 ， 报 文 队 列 以 键 值 而 不 是 文件 名 来 标识 ， 所 以 每 个 
报 文 队列 的 键 值 必须 是 惟一 的 。 不 过 ， 键 值 0， 也 就 是 IPC_PRIVATE， 是 一 种 特殊 情况 。 每 个 进程 都 
可 以 用 键 值 0 建立 一 个 专 供 其 私 用 【自己 发 送 自己 接收 ) 的 报 文 队列 。 所 以 这 个 特殊 键 值 并 不 是 惟一 
的 。 但 是 ， 正 由 于 这 种 队列 是 私 用 的 ， 所 以 不 存在 要 通过 键 值 找到 一 个 队列 的 问题 。 

正 因为 这 样 ， 当 键 值 为 IPC_PRIVATE 时 (309 行 )， 就 无 条 件 地 调用 newque( ) 建 立 一 个 报 文 队列 
(310 行 )， 和 否则 就 要 先 通过 ipc_findkey( ) 找 一 下 相应 的 报 文 队列 是 否 已 经 存在 。 

函数 newque( ) 的 代码 在 同一 文件 msg.c H: 


[sys ipc( ) > sys msgget( ) > newque( )] 


117 static int newque (key t key, int msgflg) 
118 { 
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int id; 
struct msg queue *msq; 


msq = (struct msg queue *) kmalloc (sizeof (*msg), 


if (!msq) 
return -ENOMEM; 


id = ipc addid(&msg ids, &msq->q perm, msg ctlmni); 


if (id == -1) { 
kfree (msq) ; 
return -ENOSPC; 
} 


msq->q_perm. mode = (msgflg & S IRWXUGO); 


msq-?q perm.key = key; 


msq->q stime = msq->q_rtime = 0; 
msq->q_ctime = CURRENT TIME; 
msq->q_cbytes = msq->q_qnum = 
msq->q_qbytes = msg ctlmnb; 
msg~>q_lspid = msq-?q lrpid = 0; 
INIT. LIST HEAD (&msq-^q messages); 
INIT LIST HEAD(&msq-^q receivers); 
INIT LIST HEAD(&msq-^q senders); 
msg unlock (id) ; 


! 
e 


return msg buildid(id, msq-5q perm. seq); 


} 


GFP_KERNEL) ; 


每 个 报 文 队 你 都 有 个 队列 头 ， 那 就 是 msg queue 数据 结构 ， 定 义 于 ipc/msg.ck F: 


/* one msq queue structure for each present queue on the system */ 


struct msg queue { 
Struct kern ipc perm q perm; 
time t q stime; /* last msgsnd time */ 
time t g_rtime; /* last msgrcv time */ 
time t q ctime; /* last change time */ 


unsigned long q cbytes; /* current number of bytes on queue */ 


unsigned long q qnum; /* number of messages in queue */ 
unsigned long q gbytes; /* max number of bytes on queue */ 
pid t q lspid; /* pid of last msgsnd */ 

pid t q lrpid; /* last receive pid */ 


struct list head q messages; 
Struct list head q receivers; 
struci list head q senders; 


i 
反之 ， 每 个 msg queue 数据 结构 也 惟一 地 对 应 着 


个 报 文 队列 。 这 些 数据 结 


者 构 以 及 结构 之 问 的 关 
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系 可 以 总 结 如 下 : 
e 全 局 量 ipc_ids 数据 结构 msg ids 是 系统 中 所 有 报 文 队列 的 “总 根 ”。 


e ”数据 结构 msg_ids 中 的 指针 entries 指向 一 个 ipc_id 结构 数组 ， 数 纽 中 的 符 个 元 素 都 是 ipc id 


数据 结构 ， 结 构 中 有 个 指针 p， 指 向 一 个 kern_ipc_perm 数据 结构 。 


€ = A+ kem ipo perm 数据 结构 是 报 文 队列 头 msg. queue 数据 结构 内 部 的 第 一 个 成 分 , 上 述 数 组 
元 素 中 的 指针 p 实际 上 指向 一 个 报 文 队列 ， 数 组 的 大 小 决定 了 已 经 或 可 以 建立 的 报 文 队列 数 


于. 
Fo 


每 个 已 建立 的 报 文 队列 由 一 个 标识 号 来 代表 ， 与 打开 文件 号 相似 。 但 是 ， 打 并 文件 写 只 局 限于 每 
个 进程 局 部 ， 而 报 文 队 刻 的 标识 号 却 是 全 局 的 ， 所 以 必须 保证 在 全 局 范围 中 的 惟 . 性 。 标 识 号 由 


ipe addid( ) 分 配 ， 基 代码 在 ipc/util.c H: 


[sys ipc( ) > sys msgget( ) > newque( ) > ipc_addid( )] 
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/[*x* 


* 0X X X X X X X X 


X 
™ 


int 


ipc_addid add an IPC identifier 

@ids: IPC identifier set 

@new: new TPC permission set 

@size: new size limit for the id array 

Add an entry 'new' to the IPC arrays. The permissions object is 
initialised and the first free entry is set up and the id assigned 
is returned. The list is returned in a locked state on success. 

On failure the list is not locked and -1 is returned 


ipc addid(struct ipc ids* ids, struct kern ipc perm* new, int sizo) 
int id; 


size = grow ary(ids, size); 
for (id = 0; id < size; id++) { 
if (ids—entries[id]. p == NULL) 
goto found; 


} 


return -1; 


found: 
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ids-^in uset*; 
if (id > ids->max id) 
ids->max id = id; 


new-»cuid ~ new->uid = current-^euid; 
new->gid = new->cgid = current->egid; 


new->seq = ids~>seqt+; 
if (ids—>seq > ids-^seq max) 
ids->seq = 0; 
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167 

168 spin lock (&ids-^ary); 

169 ids-^entries[idl.p = new; 
170 return id; 

171 } 


如 果 分 配 标 识 号 成 功 ， 就 此 将 代表 报 文 队列 的 报 文 队列 头 与 ipe ids 结构 msg. ids HE #4. üngi Pr 
述 ， 该 结构 中 的 指针 entries 指向 以 标识 号 为 下 标的 ipc_id 结构 数组 ， 侧 ipe, id 结构 的 内 容 只 是 一 个 指 
针 ， 指 向 一 个 kern_ipc_perm 结构 。 同 时 , 每 个 报 文 队列 头 结构 中 的 第 -~ 个 成 分 就 是 “个 kern_ipc_perm 
数据 结构 ， 其 起 始 地址 与 整个 msg. queue 结构 的 起 始 地址 相间 。 所 谓 将 某 个 报 文 队 列 头 与 msg, ids ff 
Ei, 就 是 把 特定 msg. queue 结构 中 kern_ipc_perm 数据 结构 的 起 始 地 址 根据 标识 号 填 入 相应 ipe. id £i 
MA C 169 行 )， 并 返回 该 标识 号 。 

然而 ， 既 然 是 数组 ， 就 有 个 人 小 ，ipc_ids 结构 中 的 字段 size 就 记录 着 它 的 大 小 。 可 是 这 个 大 小 怎 
样 确 定 呢 ? 再 说 ， 再 大 的 数组 也 有 可 能 会 用 完 ， 那 时 候 又 怎么 办 ? 显然 ， 最 好 二 能 根据 实际 的 需要 加 
以 调整 ， 这 就 是 ipc_addid( ) 的 代 合 中 调用 grow. ary OS ELI]. Cipe/util.c): 


[sys_ipe( ) > sys msgget( ) > newque( ) > ipc_addid( ) > grow. ary( )] 


105 static int grow ary(struct ipc ids* ids, int newsize) 


106 {í 

107 struct ipc id* new; 

108 struct ipc id* old; 

109 int i; 

110 

111 if (nowsize > IPCMNI) 

112 newsize = IPCMNI; 

113 if(newsize <= ids->size) 

114 return newsize; 

115 

116 new - ipc alloc(sizeof(struct ipc id)*newsize); 
117 if(new == NULL) 

118 return ids~>size; 

119 memcpy (new, ids-^entries, sizeof(struct ipc id)*ids-^sizo); 
120 for (i=ids—>size;i<newsize;itt+) { 

121 new[i].p = NULL; 

122 } 

123 spin_lock (&ids->ary) ; 

124 

125 old - ids-^entries; 

126 ids~>entries = new; 

127 i - ids size; 

128 ids->size = newsize; 

129 spin unlock(&ids >ary) ; 

130 ipc free(old, sizeof(struct ipc_id)*i) ; 
131 return ids—>size; 

132} 
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参数 newsize 表示 新 的 数组 大 小 , 如 果 其 数值 大 于 数组 当前 的 大 小 就 另外 分 配 一 块 空间 来 取代 原 有 
的 数组 。 不 过 , 数组 的 大 小 只 会 扩展 而 不 会 缩小 ( 见 113 行 )。 另 一 方面 , 数 纽 的 扩展 也 有 个 上 限 IPCMNI, 
该 常数 在 include/linux/ipc.h 中 定义 为 32768 。 

在 newque( ) 中 调用 ipc_addid( ) 时 将 一 个 全 局 量 msg_ctlmni 作为 参数 传 了 下 来 ， 就 是 这 里 的 
newsize。 这 个 全 局 量 的 初 值 为 MSGMNI， 而 MSGMNI 在 msg.h 中 定义 为 16。 

最 后 ，newque( ) 还 要 将 这 个 标识 号 转换 成 一 个 一 体 化 的 标识 号 。 代 码 中 的 msg_buildid( ) 是 个 宏 定 
义 (msg.c): 


99 #define msg buildid(id, seq) ^ 
100 ipc buildid(&msg ids, id, seq) 


而 ipc_buildid( ) 的 定义 则 在 ipc/util.h FP: 


87 extern inline int ipc buildid(struct ipc ids* ids, int id, int seq) 
88 { 

89 return SEQ MULTIPLIER*seq + id; 

90 } 


为 什么 要 作 这 样 的 转换 呢 ? 从 ipc_addid( ) 的 代码 中 可 以 看 出 , 出 它 分 配 的 标识 号 实际 上 是 msg. ids 
结构 数组 中 的 数组 下 标 。 这 个 下 标 是 重复 使 用 的 。 如 果 一 个 进程 建立 了 一 个 报 文 队列 ， 然 后 又 撤消 了 ， 
而 后 来 又 有 另 一 个 进程 要 建立 一 个 报 文 队 列 ， 就 有 可 能 又 将 同一 个 下 标 分 配给 这 个 新 的 队列 。 这 样 ， 
虽然 这 种 标识 号 的 使 用 在 任何 一 个 特定 的 时 间 点 上 是 惟 … 的 ， 但 是 如 果 观 察 一 个 合理 长 的 时 间 跨 度 就 
不 一 定 是 惟 -- 的 了 。 为 了 克服 这 个 问题 ， 在 msg ids 中 设立 了 一 个 序号 seq; 每 分 配 使 用 … 个 标识 号 时 
就 递增 这 个 序号 ( 见 ipc_addid( ) 中 的 第 164 行 )， 并 且 将 这 个 序号 与 下 标 编码 在 一 起 形成 “个 一 体 化 的 
标识 号 。 这 么 一 来 ， 册 使 在 一 段 时 间 以 后 下 标 又 重复 了 ， 但 由 寺 序 号 在 递增 ， 所 以 “ 体 化 的 标识 号 在 
相当 长 的 一段 时 期 里 都 能 保证 惟一 性 。 

还 要 注意 ， 键 值 与 标识 号 是 两 码 事 。 用 文件 系统 打 个 比方 ， 则 键 值 类 似 于 文件 名 ， 而 标识 号 类 似 
于 打开 文件 号 。 

回 到 sys msgget( ) 中 。 如 果 健 值 不 是 IPC_PRIVATE， 那 就 先 寻 找 已 给 定 键 值 建 立 的 报 文 队列 是 否 
CATE. AX ipe findkey 的 代码 在 util.c 中 : 


[sys_msgget( ) > ipc. findkey( )] 


82 /** 

83 * ipc findkey - find a key in an ipe identifier set 
84 * @ids: Identifier set 

85 * @key: The key to find 

86 * 

87 * Returns the identifier if found or -1 if not. 
88 */ 

89 

90 int ipc findkey (struct ipc ids* ids, key t key) 
91 { 

92 int id; 
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93 struct kern ipo perm* p; 

94 

95 for (id = 0; id <= ids—max id; id++) ( 
96 p = ids-^entries[id]. p; 

97 if (p==NULL) 

98 continue; 

99 if (key == p-^key) 

100 return id; 

101 ] 


寻找 的 结果 对 于 调用 sys msgget( ) 的 不 同 目的 〈 创 建 或 寻找 ) 有 着 不 同 的 意义 ， 因 此 要 分 不 同 的 
情形 来 处 理 : 中 如 果 找 不 到 ， 那 么 对 于 寻找 的 目的 来 说 是 一 次 失败 ， 而 对 于 创建 的 月 的 来 说 ， 却 是 好 
事 ， 可 以 进而 调用 newque( ) 了 。 人 名 如 果 找 到 了 ， 那 么 对 于 独占 性 的 创建 (IPC_EXCL 标志 为 1)， 这 是 
一 次 失败 ， 而 对 于 寻找 或 可 共享 的 创建 来 说 却 是 好 事 。 不 过 ， 一 个 已 经 建立 的 报 文 队列 并 不 是 谁 都 可 
以 来 使 用 或 共享 的 。 一 般 情况 下 ， 只 有 与 创建 者 属于 同一 用 户 并 且 同 -一 组 或 者 属于 超级 用 户 的 进程 才 
有 资格 来 使 用 或 共享 。 所 以 在 sys_msgget( ) 中 , 要 调用 ipcperms( ) 先 检查 一 下 访问 权限 是 否 相 符 。 最 后 ， 
同样 还 要 通过 msg buildid( ) 将 实际 上 是 数组 下 标的 标识 号 转换 成 一 体 化 的 标识 号 。 

函数 ipcperms( ) 的 代码 在 utilc H: 


[sys_msgget( ) > ipcperms( )] 


242 /wX 

243 * ipcperms - check IPC permissions 

244 * @ipcp: IPC permission set 

245 * @flag: desired permission set 

246 * 

247 * Check user, group, other permissions for access 
248 * to ipc resources. return 0 if allowed 

249 */ 

250 


251 int ipeperms (struct kern ipc perm *ipcp, short flag) 
252 { /* flag will most probably be 0 or S....UGO from <linux/stat.h> */ 


253 int requested mode, granted mode; 

254 

255 requested mode = (flag >> 6) | (flag >> 3) | flag; 

256 granted mode = ipcp->mode;: 

257 if (current->euid == ipcp->cuid || current->euid == ipcp->uid) 
258 granted_mode >>= 6; 

259 else if (in_group_p(ipep~>cgid) || in _group_p(ipcp—gid)) 

260 granted mode >>= 3; 

261 /* is there some bit set in requested mode but not in granted mode? */ 
262 if ((requested mode & "granted mode & 0007) && 

263 ! capable (CAP_TPC_OWNER) ) 

264 return -1; 

265 

266 return 0; 
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267 } 


可 见 ， 报 文 队列 访问 权限 的 管理 与 文件 系统 访问 权限 的 管理 相似 ， 读 者 可 参考 第 5 章 中 有 关 的 内 


6.6.2 ERA msgsnd( ) 一 一 报 文 发 送 


参与 通信 的 双方 在 通过 msgget( ) 创 建 了 一 个 报 文 队列 或 取得 了 该 队列 的 标识 号 以 后 ， 就 可 以 问 该 
队列 发 送 或 接收 报 文 了 。 先 来 看 报 文 的 发 送 ， 这 个 函数 比较 大 ， 所 以 我 们 还 是 分 段 来 阅读 〈msg.c)。 


626 asmlinkage long sys msgsnd (int msqid, struct msgbuf *msgp, size_t msgsz, 
int msgflg) 


627 { 

628 struct msg queue *msq; 

629 struct msg msg "msg; 

630 long mtype; 

631 int err; 

632 

633 if (msgsz > msg ctlmax || (long) msgsz < 0 i| msqid < 0) 
634 return -EINVAL; 

635 if (get user(mtype, &msgp~>mtype) ) 
636 return —EFAULT; 

637 if (miype < 1) 

638 rcturn -EINVAL; 

639 

640 msg = load msg(msgp-^mtext, msgsz); 
641 if (LS_ERR (msg) ) 

642 return PTR ERR (msg): 

643 

644 msg->m_type = mtype; 

645 msg->m_ts = msgsz; 

646 

647 msq = msg_lock (msqid) ; 

648 err--EINVAL ; 

649 if (msq==NULL) 

650 goto out_free; 


首先 是 对 参数 作 一 些 检查 并 将 报 文 从 用 户 空间 复制 过 来 ， 其 中 msgp 是 指向 一 个 msgbuf 结构 的 指 
针 ， 这 个 数据 结构 是 在 include/linux/msg.h 中 定义 的 : 


34 /* message buffer for msgsnd and msgrcv calls */ 
35 struct msgbuf { 


36 long mtype; /* Lype of message */ 
37 char mtext[1]; /* message text */ 
38 Ju 
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虽然 这 个 指针 已 经 作为 系统 调用 的 参数 传 了 过 米 ， 数 据 结构 本 身 却 还 在 用 户 空间 ， 所 以 分 别 通 过 
get_user( ) 和 10ad_msg( ) 从 用 户 空间 复制 到 系统 空间 。 其 中 10ad_msg( ) 还 要 在 系统 空间 为 此 分 配 缓冲 区 。 
系统 空间 中 使 用 的 msg, msg 结构 与 用 户 空间 中 使 用 的 msgbuf 结构 不 同 (msg.c): 


/* one msg msg structure for each message */ 
struct msg msg { 


hi 


struct list head m list; 

long m type; 

int m ts; /* message text size */ 
struct msg msgseg* next; 

/* the actual message follows immediately */ 


当 报 文本 身 的 大 小 加 上 这 个 数据 结构 的 大 小 仍 小 于 -个 页 而 时 ，msg_msg 结构 与 报 文本 身 在 同 - 
页 面 中 ， 而 报 文本 身 紧 跟 在 msg msg 数据 结构 后 面 。 否 则 ， 当 报 文 本 身 和 msg msg 结构 不 能 容纳 在 同 
一 页 面 中 时 ， 则 要 将 报 文 分 段 ， 然 后 将 分 布 于 不 同和 抽 窗 中 的 报 文 段 链 接 起 来 。 此 时 除 第 一 个 页 面 的 开 
头 仍 是 msg msg 结构 以 外 ， 其 他 各 个 页 面 的 开头 都 是 一 个 msg_msgseg 结构 ， 而 每 个 报 文 段 的 大 小 则 
为 页 面 大 小 减 去 msg_msgseg 结构 的 大 小 (msg.c): 


struct msg msgseg { 


J; 


struct msg msgseg* next; 
/* the next part of the message follows immediately */ 


函数 load msg( ) 的 代码 也 在 msg.c 中 ， 我 们 把 它 窗 给 读者 自己 阅读 。 


[sys_msgsnd( ) > load msg( )] 


158 
159 
160 
161 
162 
163 
164 
165 
166 
167 
168 
169 
170 
171 
172 
173 
174 
175 


static struct msg msg* load msg (voidk src, int len) 


{ 


struct msg msg* msg; 
struct msg msgseg** pseg; 
int err; 

int alen; 


alen = len; 
if(alen > DATALEN MSG) 
alen = DATALEN_MSG; 


msg = (struct msg msg *) kmalloc (sizeof (tmsg) + alen, GFP_KERNEL) ; 
if (msg==NULL) 

return ERR PTR(-ENOMEM) ; 
msg->next = NULL; 


if (copy from user(msg*l, src, alen)) | 
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176 err = -EFAULT; 

177 goto out err; 

178 ) 

179 

180 len -= alen; 

181 src = ((char*)sro)*alen; 
182 pseg = &msg->next; 

183 while(len > 0) { 

184 struct msg msgseg* seg; 
185 alen = len; 

186 if(alen > DATALEN SEC) 
187 alen = DATALEN SEG; 
188 seg-(struct msg msgseg*)kmalloc(sizeof(*seg)* alen, GFP KERNEL); 
189 if(seg--NULL) { 

190 err--ENOMEM; 

191 goto out err; 

192 } 

193 *pseg = seg; 

194 seg->next = NULL; 

195 if(copy from user (seg*l, src, alen)) { 
196 err = —EFAULT; 

197 goto out_err; 

198 } 

199 pseg = &seg->next; 

200 len -= alen; 

201 sre = ((char*) src) talen; 
202 } 

203 return msg; 

204 

205 out_err: 

206 free_msg (msg) ; 

207 return ERR_PTR(err) ; 

208  ] 


回 到 sys. msgsnd( ) 的 代码 中 。647 行 函数 msg, lock( ) 的 作用 是 根据 给 定 的 标识 号 找到 相应 的 报 文 
队列 ， 并 将 其 数据 结构 上 锁 。 
至 此 ， 所 需 的 准备 工作 基本 完成 了 ， 我 们 继续 在 msg.c 中 往 下 看 : 


[sys msgsnd( )] 


651 retry: 

652 err- -EIDRM; 

653 if (msg checkid (msq, msqid)) 

654 goto out unlock free; 

655 

656 err--EACCES; 

657 if (ipcperms(&msq-^q perm, S IWUGO)) 
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658 goto out unlock free; 

659 

660 if(msgsz + msq-?q cbytes > msq->q_qbytes | 
661 1 + msq-^q qnum > msq->q_qbytes) { 
662 struct msg_sender s; 

663 

664 if(msgflg&IPC NOWAIT) { 

665 err--EAGAIN; 

666 goto out unlock free; 

667 } 

668 ss add(msq, &s); 

669 msg unlock (msqid); 

670 schedule( ); 

671 current->state= TASK RUNNING; 
672 

673 msq = msg_lock(msqid) ; 

674 err = —EIDRM; 

675 i f (msq--NULL) 

676 goto out_free; 

677 ss del(&s); 

678 

679 if (signal pending(current)) { 
680 err--EINTR; 

681 goto out unlock free; 

682 } 

683 goto retry; 

684 } 


在 用 户 界 面 上 使 用 的 队列 标识 号 是 经 过 编码 的 … 体 化 标 总 号 ， 这 里 还 要 再 检验 一 下 。 可 是 ， 既 然 
这 个 队列 是 通过 msg_lock( ) 找 到 的 , 为 什么 还 要 再 检验 呢 ? 看 -下 msg lock( ) 和 msg_checkid( ) 的 代码 
就 清楚 了 《msg.c): 


94 #define msg_lock (id) ((struct msg_queue*) ipc_lock (&msg_ids, id) ) 


97 "define msg checkid(msq, msgid) \ 
98 ipc checkid(&msg ids, &msq-^q perm, msgid) 


FA inline 级 数 的 定义 都 在 util.h F: 
[sys_msgsnd( ) > msg lock( ) > ipc_lock( )] 


68 extern inline struct kern ipc perm* ipc lock(struct ipc ids* ids, int id) 
69 { 


70 struct kern ipc perm* out; 

71 int lid = id % SEQ MULTIPLIER; 
72 if(lid > ids~>size) 

73 return NULL; 
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74 

75 spin lock(&ids-^ary); 

76 out = ids—'entries[lid].p; 
77 if (out==NULL) 

78 spin unlock (&ids—>ary) ; 
79 return out; 

80} 


[sys_msgsnd( ) > msg_checkid ( ) > ipc. checked( )] 


92 extern inline int ipc checkid(struct ipc_ids* ids, 
struct kern ipc, perm* ipcp, int uid) 


93 { 

94 if (uid/SEQ MULTIPLIER != ipcp-^seq) 
95 return 1: 

96 return 0; 

97 ] 


By WL, ipe lock( ) 中 只 用 了 标识 号 中 的 下 标 部 分 , 而 并 没有 检查 其 序 与 部 分 , 所 以 要 由 ipe. checkid( ) 
加 以 检查 。 此 外 ， 还 要 通过 ipcperms( ) 检 查 当 前 进程 是 否 有 权 辐 这 个 队列 发 送 报 文 。 注 意 在 ipc_lock( ) 
中 调用 了 spin_lock( ) 将 ipe ids 结构 中 的 数组 锁 住 ， 但 是 在 正常 条 件 下 并 没有 解锁 《只 是 在 out 为 0， 
即 失败 的 情况 下 才 调 用 了 spin unlock( ))。 这 个 锁 要 在 与 msg lock( ) 配 对 的 msg unlock( )， 即 
ipc_unlock( ) 中 才 解 开 : 


[sys_msgsnd( ) > msg unlock( ) > ipc_unlock( )] 


82 extern inline void ipe unlock(struct ipc ids* ids, int id) 


83 { 
84 spin_unlock (&ids—>ary) ; 
85 } 


建议 读者 在 往 下 读 代 码 的 过 程 中 注意 这 个 男 数 是 在 什么 时 候 调 用 的 以 及 为 什么 调用 。 

顺利 通过 了 这 些 检查 以 后 ， 就 要 检查 报 文 队 询 的 容量 了 。660 行 的 if 语句 中 msg->q_qbytes 为 该 
报 文 队 列 的 总 容量 ， 这 个 容量 是 在 建立 报 文 队 州 时 设置 好 的 ， 但 是 可 以 通过 MSGCTL 操作 加 以 改变 。 
如 果 当 前 报 文 的 大 小 如 上 队列 中 当前 总 计 的 字 节 数 msg->q_qbytes 超出 了 这 个 容量 , 就 暂时 不 能 往 队 全 
里 送 了 。 此 外 ， 虽 然 总 计 字 节 数 并 未 超过 容量 ， 但 足 队列 中 报 文 的 个 数 msg->q_qnum 却 己 经 达到 了 
msg->q_qbytes 《这 说 明 队 全 中 所 有 报 文部 只 有 个 字 节 ， 或 有 的 报 文 长 度 为 0)， 就 也 不 能 往 里 送 了 。 
这 时 候 , 就 要 看 系统 调用 参数 中 的 IPC NOWAIT 是 否 为 1， AMER EIT], 不然 就 要 睡眠 等 行 了 。 
在 进入 睡眠 之 前 ， 还 要 将 个 msg sender 数据 结构 挂 入 报 文 队 列 中 的 q_senders 链 。 这 样 ， 顺 着 每 个 报 
文 队列 的 q_senders 链 就 可 以 找 色 每 个 正在 睡眠 中 等 待 戎 发 送 的 进程 。 最 后 ， 还 要 在 进入 睡眠 之 前 将 报 
文 队列 解锁 ， 使 其 他 进程 可 以 访问 这 个 队列 一 一 要 不 然 就 没有 进程 可 以 从 中 读 取 报 多 了 。 这 里 《〈668 
fT) 的 ss add( ) 是 个 inline 函数 (msg.c): 


[sys msgsnd( ) > ss. add( )] 
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237 static inline void ss add(struct msg qucue* msq, struct msg sender* mss) 
238 — | 

239 mss~>tsk=current; 

240 current—>state “TASK INTERRUPTIBLE; 

241 list add tail (&mss—>list, &msq->q senders) ; 

242 .] 


而 msg sender 结构 的 定义 为 (msg.c): 


45 /* one msg sender for each sleeping sender */ 
46 struct msg sender { 


47 struct list head list; 
48 struct task struct* tsk; 
49 Ke 


回 过 头 去 再 看 一 下 报 文 队列 汰 msg queue 结构 、 报 文 头 部 msg msg Zi LA RHR SC BEER 
msg msgseg 结构 的 定义 ， 并 将 这 些 数据 结构 的 定义 综合 起 来 ， 就 可 以 形成 这 样 个 图 景 ( 见 图 6.8). 


msg queue msg msg msg msg 
: $ 。。。 其 他 报 文 
msg_msgseg msg_msgseg 









q. messages 


q receivers 


9. senders 


msg sender msg sender 
图 6.8 报 文 队列 结构 连接 示意 图 


图 中 的 第 一 个 报 义 连同 其 头 部 msg msg 结构 可 以 容纳 在 同一 个 页 面 中 ;而 第 二 个 报 文 则 因为 太 大 
MIR BR. SPARS a= PS AT. PASAT q_senders 链 中 有 两 个 进程 正在 睡眠 中 等 待 着 向 这 个 队列 发 送 
报 文 。 队列 中 实际 上 还 有 - -条 q_receivers 链 ， 当 有 进程 在 睡眠 中 等 待 着 从 这 个 队列 接收 报 文 时 ， 就 将 
其 msg. receive Z& 4E AX Ae rh. ATS. Mp q_senders 链 中 有 进程 在 等 着 发 送 就 说 明 队 例 中 有 报 
文 ， 所 以 就 不 会 有 进程 在 d_receivers 链 中 等 待 接 收 ， 反 之 亦 然 。 可 见 ， 所 谓 报 文 队列 实际 上 并 不 内 是 
一 个 简单 的 队列 ， 而 是 以 报 文 的 队列 为 主 ， 包 括 了 三 个 队列 以 及 控制 信息 在 内 的 -- 整 套数 据 结构 。 

当 有 进程 从 这 个 队列 中 污 上 肥 报 文 而 腾 出 了 一 些 空 间 时 ， 止 在 等 待 着 发 送 的 进程 就 被 唤醒 ， 从 前 面 
670 行 的 schedule( ) 返 同 。 但 是 ， 腾 出 来 的 空间 对 于 某 个 特定 进程 所 欲 发 送 的 报 文 来 说 未 必 就 已 足够 ， 
而 且 正 在 等 待 发 送 的 进程 也 可能 不 小 一 个 ， 共 至， 在 发 送 进程 睡眠 的 期 间 ， 其 他 条 件 也 可 能 已 经 发 生 
了 变化 。 所 以 ， 这 时 候 还 要 再 米 一 轮 对 各 种 条 件 的 检查 ， 而 在 此 期 间 又 得 将 该 报 文 队 列 锁 住 。 

在 系统 调用 中 ， 一 个 进程 从 睡眠 中 睡 来 时 通常 都 要 检查 是 否 有 信号 在 等 待 处 理 ， 如 有 的 话 就 提前 
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结束 本 次 系统 调用 的 执行 。 也 就 是 说 ， 在 这 种 情况 下 把 对 信号 的 处 理 放 在 更 为 优先 的 地 位 。 同 时 ， 由 
于 系统 调用 “流产 ”了 ， 所 以 返回 出 错 代码 EINTR， 表 示 系 统 调用 的 执行 被 中 途 打 断 了 。 我 们 以 前 讲 
过 ， 内 核 在 完成 对 信号 的 处 理 以 后 要 检查 系统 调用 返回 的 出 错 代码 ， 如 果 遇 上 ENTR 就 会 安排 重新 执 
行 一 次 流产 的 系统 调用 。 

如 果 没 有 信号 在 等 待 处 理 ， 则 通过 683 行 的 goto 语句 转 回 标号 retry 处 重新 检查 一 饥 。 

就 这 样 ， 在 正常 条 件 下 ， 最 终 队 列 中 总 会 有 足够 的 空间 让 等 待 中 的 进程 发 送 其 报 文 ， 那 时 候 程序 
就 往 下 走 了 (msg.c): 


[sys msgsnd( )] 


686 if(!pipelined_send(msq, msg)) { 
687 /* noone is waiting for this message, enqueue it */ 
688 list add tai] (&msg—>m_ list, &msq->q_messages) ; 
689 msq->q_cbytes += msgsz; 

690 msq->q_qnumt+; 

691 atomic add(msgsz, &msg_bytes) ; 
692 atomic inc(&msg hdrs); 

693 } 

694 

695 err = 0; 

696 msg = NULL; 

697 msq-?q lspid = current-?pid; 

698 msq->q_stime = CURRENT TIME; 

699 

700 out_unlock free: 

701 msg unlock (msqid) ; 

702 out_free: 

703 if (msg!=NULL) 

704 free msg (msg) ; 

705 return err; 

706 } 


从 概念 上 讲 ， 此 时 可 以 把 待 发送 的 报 文 挂 入 报 文 队列 ， 然 后 唤醒 (可 能 〉 正在 等 待 从 此 队列 接收 
报 文 的 进程 就 完事 了 。 可 是 ， 实 际 上 这 个 过 程 是 可 以 优化 的 ， 因 为 如 果 有 进程 正在 等 待 接收 ， 就 不 必 
将 报 文 链 入 队列 再 由 接收 进程 随后 青 来 将 报 文 从 队列 中 脱 链 了 。 也 就 是 说 ， 只 有 当 没 有 进程 在 等 待 接 
收 时 才 需 要 将 报 文 挂 入 队列 。 代 码 中 的 pipelined_send( ) 正 是 为 此 而 设计 的 《msg.c)。 


[sys_msgsnd( ) > pipelined_send( )] 


600 int inline pipelined send(struci msg queue* msq, struct msg msg* msg) 
601 { 

602 struct list head* tmp; 

603 

604 tmp = msq->q_receivers. next; 

605 while (tmp != &msq->q_receivers) ( 
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606 struct msg receiver* msr; 

607 msr = list entry(imp, struct msg receiver, r list); 
608 tmp = tmp-2next; 

609 if (testmsg (msg, msr->r_msgtype, msr—>r_mode)) { 
610 list del(&msr—r list); 

611 if(msr-^r maxsize € msg-^m ts) { 

612 msr-»r msg = ERR PTR(-E2BIO); 

613 wake up process(msr—r tsk); 

614 } else { 

615 msr-?r msg = msg; 

616 msq-^q lspid = msr-^r tsk-»pid; 

617 msq->q_rtime = CURRENT. TIME; 

618 wake up process (msr—>r_tsk) ; 

619 return 1; 

620 } 

621 } 

622 } 

623 return 0; 

624 } 


报 文 队列 的 q receivers 链 中 聚集 着 正在 睡眠 等 待 从 本 队列 接收 报 文 的 进程 (如果 有 的 话 )。 数 据 结 
构 msg receiver 与 msg sender 有 所 不 同 (msg.c): 


33 /* one msg receiver structure for each sleeping receiver */ 
34 struct msg receiver { 

35 struct list head r list; 

36 struct task struct* r tsk; 

37 

38 int r mode; 

39 long r msgtype; 

40 long r maxsize; 

41 

42 struct msg msg* volatile r msg; 
43 ]; 


其 中 的 指针 r msg 就 是 在 上 述 情况 下 用 于 报 文 交接 的 。 函 数 pipelined_send( )7E q. receivers 链 中 从 
头 开始 ， 逐 个 检查 等 待 中 的 进程 里 想 要 接收 的 报 文 种 类 与 模式 是 省 与 到 来 的 报 文 相 符 。 营 相符 ， 则 进 
一 步 检查 其 缓冲 区 是 否 够 用 ， 不 够 用 就 将 该 进程 唤醒 令 其 出 错 返回 。 此 过 程 直至 碰 到 第 一 个 所 有 条 件 
全 部 相符 的 接收 进程 ， 然 后 将 到 来 的 报 文 交 给 这 个 进程 ( 见 615 行 )， 并 将 其 唤醒 。 

如 果 遍 历 了 q. receivers 链 而 没有 发 现任 何 一 个 等 待 中 的 进程 满足 条 件 , 则 pipelined. send( ) 返 回 0, 
那样 ， 在 sys msgsnd( ) 中 就 缆 将 报 文 持 入 队列 中 了 《上风 688 47). 


6.6.3 FER msgrev( ) 一 一 报 文 接 收 


和 理 来 看 报 文 的 接收 ， 我 们 还 是 逐 段 地 往 下 看 〈msg.c): 
. 791. 
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asmlinkage long sys msgrcv (int msgid, struct msgbuf *msgp, size t msgsz 


{ 


long msgtyp, int msgflg) 


struct msg_qucue *msq; 

struct msg receiver msr d; 
struct list head* tmp; 

struct msg msg* msg, *found_msg; 
int err; 

int mode; 


if (msqid < 0 || (long) msgsz < 0) 
return -EINVAL; 
mode = convert mode (&msgtyp, msgf lg) ; 


msq = msg_lock (msqid) ; 
if (msq--NULL) 
return —EINVAL; 


这 一 段 与 sys_msgsnd( ) 的 开头 相似 , 739 ITZ convert_mode() 根据 参数 msgtyp 和 msgflg, 14 
出 接收 报 文 时 所 遵循 的 准则 《msg.c): 


[sys_msgrev( ) > convert mode( )] 


708 
709 
710 
711 
712 
713 
714 
715 
716 
717 
718 
719 
720 
721 
122 
723 
724 
725 


int inline convert, mode(long* msgtyp, int msgflg) 


{ 


} 


* find message of correct Lype 
* msgtyp = 0 => get first. 
* msgtyp > 0 => get first message of matching type. 
* msgtyp < 0 => get message with least type must be < abs (msgtype) 
*/ 
if (#msgtyp==0) 
return SEARCH ANY; 
if (*msgtyp<0) | 
*msgtyp=- (#msgtyp) ; 
return SEARCH LESSEQUAL; 
) 
if(msgflg & MSG EXCEPT) 
return SEARCH, NOTEQUAL ; 
return SEARCH, EQUAL; 


程序 中 的 注解 已 经 讲 得 很 清楚 ， 程 序 也 很 简单 。 
函数 msg. Jock( ) 的 代码 已 经 在 前 面 看 到 过 了 , 它 根据 报 文 队 询 标 商号 找到 具体 的 队列 并 将 其 上 锁 。 


我 们 继续 入 下 看 。 读 者 可 以 看 到 ，sys_msgrcv( ) 在 程序 结构 上 与 sys_msgsnd( ) 是 相似 的 msg.c): 


[sys. msgrev( )] 
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744 retry: 

745 err=—EACCES; 

746 if (ipeperms (&msq—>q perm, S TRUGO)) 
TAT goto out_unlock; 

748 

749 tmp = msq->q_messages. next; 

750 found msg-NULL; 

751 while (tmp !- &msq-^q messages) { 
752 msg = list entry(tmp, struct msg_msg,m list); 
753 if (testmsg (msg, msgtyp, mode)) { 
754 found_msg = msg; 

755 if (mode == SEARCH LESSEQUAL && msg->m type != 1) { 
756 found msg=msg; 

757 msgtyp=msg->m_type-1; 

758 } else { 

759 found_msg=msg; 

760 break: 

761 } 

762 } 

763 tmp = tmp->next; 

764 } 


首先 是 检查 当前 进程 对 队列 的 访问 权限 〈746 行 )。 函 数 ipcperms( ) 的 代码 已 经 在 以 前 看 到 过 了 ， 
所 不同 的 是 这 里 的 参数 为 S_IRUGO。 因 为 从 队列 接收 相当 于 从 文件 读 ; 而 在 sys_msgsnd( ) 中 使 用 的 参 
数 则 为 S_IWUGO， 因 为 那 相当 于 向 文件 写 。 

然后 就 是 逐个 检查 已 经 在 队列 中 的 报 文 了 。 注 意 752 行 的 宏 操作 list_entry( ) 并 不 是 将 报 文 从 队列 
中 脱 链 ， 而 只 是 根据 队列 中 的 当前 项 找到 指向 其 所 在 数据 结构 的 指针 。 我 们 在 第 1 章 中 曾 介绍 过 通用 
的 队列 操作 , 读者 如 果 忘 了 可 以 回 过 头 去 看 一 下。 接着 , 753 行 中 的 函数 testmsg( ) 的 代码 如 下 (msg.c): 


[sys msgrcv( ) > testmsg( )] 


578 static int testmsg (struct msg msg* msg, long type, int mode) 


579 { 

580 switch (mode) 

581 { 

582 case SEARCH_ANY: 

583 return 1; 

584 case SEARCH _LESSEQUAL: 

585 if (msg->m_type <=type) 
586 return 1; 

587 break; 

588 case SEARCH EQUAL: 

589 if(msg-^m type =- type) 
590 return 1; 

591 break; 

592 case SEARCH NOTEQUAL: 
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593 if(msg-^m type != type) 
594 return 1; 

595 break ; 

596 } 

597 return 0; 

598 } 


当 接 收 的 准则 (mode) 为 SEARCH_LESSEQUAL 时 ,testmsg( ) 在 这 里 所 检查 的 条 件 是 msg->m_type 
<= msgtyp, 也 就 是 该 报 文 的 类 型 值 小 于 或 等 于 作为 参数 传 过 来 的 msgtyp。 然 而 ,SEARCH_LESSEQUAL 
所 要 求 的 实际 上 是 已 经 到 达 的 报 文中 类 型 值 为 最 小 者 , 而 类 型 值 最 小 是 1。 所 以 , 虽然 找到 了 个 满足 
msg-»m type <= msgtyp 这 个 条 件 的 报 文 ， 但 却 未 必 是 最 佳 选择 。 因 此 ， 只 是 将 此 报 文 作为 迄今 为 止 的 
最 佳 候 选 ， 而 将 msgtyp 的 值 减 小 到 比 这 个 报 文 的 类 型 值 更 小 〈 见 757 行 )， 看 看 还 能 不 能 找到 更 小 的 。 
不 然 的 话 ， 当 接收 的 准则 为 SEARCH. ANY 或 其 他 时 ， 则 总 是 找 队列 中 第 一 个 满足 条 件 的 报 文 ， 而 且 
一 日 发 现 了 一 个 就 不 用 再 往 下 找 了 《 见 760 行 的 break 语句 )。 这 样 ， 当 751 行 开始 的 while 循环 结束 
时 ， 只 要 有 一 个 报 文 符合 接收 准则 和 类 型 ，found_msg 就 指向 这 个 报 文 。 再 往 下 看 (msg.c): 


[sys_msgrcv( )] 


765 if (found msg) { 

166 msg=found msg; 

761 if ((msgsz < msg->m ts) && !(msgflg & MSG_NOERROR)) { 
768 err--E2BT6; 

769 goto out unlock; 

770 } 

771 list del(&msg-^m list); 

772 msq-?q qnum--; 

773 msq->q_rtime = CURRENT TIME; 

774 msq->q_lrpid = current-?pid; 

775 msq-?q cbytes -= msg->m_ ts; 

776 atomic sub(msg-^m ts,&msg bytes); 

TU atomic dec(&msg hdrs); 

778 ss_wakeup (&msq->q_senders, 0) ; 

779 msg unlock (msqid) ; 

780 out success: 

781 msgsz = (msgsz > msg->m_ts) ? msg->m_ts : msgsz; 
782 if (put user (msg->m_type, &msgp->mtype) | 
783 store msg(msgp-?mtext, msg, msgsz)) { 
784 msgsz = -EFAULT; 

785 } 

786 free msg (msg) ; 

787 return msgsz; 

788 } else 


从 队列 中 找到 了 符合 接收 准则 和 类 型 的 报 文 ， 还 不 一 定 就 能 够 接收 这 个 报 文 ， 还 得 要 看 用 户 程序 
所 提供 的 缓冲 区 空间 是 否 足 够 大 。 如 果 缓 冲 区 空间 msgsz 不 够 大 ， 而 用 户 又 不 允许 在 报 文 的 尾部 截 掉 
一 块 ， 那 就 只 好 出 错 返回 了 。 反 之 ， 就 可 以 接收 这 个 报 文 ， 也 就 是 将 其 从 队列 中 脱 链 〈 见 771 行 》 并 
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相应 调整 和 设置 - 些 用 于 控制 和 统计 的 变量 。 前 面 讲 过 ， 当 队列 中 已 经 有 报 文 存在 时 ， 如 果 有 进程 要 
向 此 队列 发 送 报 文 ， 就 有 可 能 因 队 列 的 容量 不 足 而 只 好 在 队列 的 发 送 进程 链 中 等 待 。 现 在 既然 从 队列 
中 接收 了 一 个 报 文 ， 就 腾 出 了 一 些 空间 ， 所 以 要 调用 ss_wakeup( )， 顺 着 这 个 链 将 正在 睡眠 中 的 进程 全 
部 唤醒 (msg.c): 


[sys msgrcv( ) > ss wakeup( )] 


250 static void ss wakeup(struct list head* h, int kill) 


251 { 

252 struct list head *tmp; 

253 

254 tmp = h->next; 

255 while (tmp !- h) { 

256 struct msg sender* mss; 
257 

258 mss = list_entry(tmp, struct msg sender, list): 
259 tmp = tmp->next; 

260 if (kill) 

261 mss—>list. next=NULL; 
262 wake_up_process (mss->tsk) ; 
263 } 

264 } 


注意 这 里 在 将 每 个 msg, sender 结构 脱 链 以 后 并 不 释放 其 空间 ， 因 为 这 个 数据 结构 是 作为 局 部 量 分 
配 在 相应 进程 的 系统 空间 堆栈 上 的 。 读 者 不 妨 回 过 去 看 一 下 sys_msgsnd( ) 的 代码 。 

最 后 ， 要 将 实际 接收 的 报 文 类 型 通过 put_user( ) 送 回 用 户 空 间 ， 并 通过 store_msg( ) 将 接收 到 的 报 
文 按 实 际 接收 的 长 度 〈 见 781 行 ) 复制 到 用 户 空间 ， 然 后 将 系统 空间 中 的 报 文 (缓冲 区 ) 释放 。 

那么 ， 如 果 此 时 报 文 队列 中 尚 无 报 文 可 供 接收 呢 ? 再 往 下 看 (msg.c); 


[sys_msgrev( )] 


788 } else 

789 { 

790 struct msg queue *t; 

791 /* no message waiting. Prepare for pipelined 
192 * receive. 

793 */ 

794 if (msgflg & IPC NOWAIT) { 

795 err--ENOMS6; 

196 goto out unlock; 

797 } 

798 list_add_tail (&msr_d. r_list, &msq->q_receivers) : 
799 msr_d.r tsk = current; 

800 msr d.r msgtype = msgliyp; 

801 msr d.r mode - mode; 

802 if(msgflg & MSG NOERROR) 
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803 msr d.r maxsize = INT MAX; 
804 else 

805 msr d.r maxsize = msgsz; 

806 msr d.r msg = ERR PTR(-FAGATN); 
807 current->state = TASK INTERRUPTTBI.E; 
808 msg_unlock (msqid) ; 

809 

810 schedule( ); 

8ll current-^state = TASK RUNNING; 
812 

813 msg - (struct msg msg*) msr d.r msg; 
814 if(!1S ERR(msg)) 

815 goto out success; 

816 

817 t = msg lock (msqid) ; 

818 if (t==NULL) 

819 msqid--1; 

820 msg = (struct msg msg*)msr d.r msg; 
821 if (IS ERR(msg)) { 

822 /* our message arived while we waited for 
823 * the spinlock. Process it 
824 */ 

825 if (nsqid!--1) 

826 msg unlock (msqid) ; 

827 goto out success; 

828 } 

829 err = PTR ERR (msg) ; 

830 if(err == -EAGAIN) { 

831 if (msqid== 1) 

832 BUG( ) ; 

833 list del(&msr d.r list); 

834 if (signal pending(current)) 
835 err--EINTR; 

836 else 

837 goto retry; 

838 } 

839 } 

840 out_unlock: 

841 if(nsqid!--1) 

842 msg unlock (msqid) ; 

843 return err; 

844 |] 


如 果 调 用 参数 中 的 IPC. NOWAIT 标志 为 1， 那 就 立即 返回 了 ， 出 错 代 但 为 ENOMSG. Bill, wide 
睡眠 等 竺 了。 当然， 入 睡 前 旧 将 报 文 队列 解锁 。 
就 像 在 唾 眠 时 等 待 发 送 时 一 样 ， 在 睡眠 等 待 接收 时 也 要 将 一 个 代表 当前 进程 的 msg, receiver 数据 
结构 链 入 报 文 队列 中 的 q receiver 队列 。 我 们 已 经 在 前 面 看 到 过 这 种 数据 结构 的 定义 。 与 msg sender 
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不 同 的 是 ， 在 msg. receiver 结构 中 还 记录 着 所 欲 接 收 的 报 文 类 型 、 缓 冲 区 大 小 以 及 接收 的 准则 。 此 外 ， 
这 个 结构 中 还 有 一 个 月 来 交接 报 文 的 指 外 r_msg。 所 有 这 些 结构 成 分 的 设置 都 是 为 了 — EB iE FEE hy tt 
报 文 队列 发 送 报 文 时 可 以 抄 近 路 《〈 见 pipelined_send( ) 的 代码 )。 

一 般 来 说 ， 当 前 进程 一 旦 睡 下 ， 就 要 等 到 有 进程 通过 pipelined. send( ) 向 这 个 队列 发 送 报 文 ， 并 旧 
选择 这 个 进程 作为 接收 进程 时 才 会 被 唤醒 ， 央 此 要 到 那 时 候 才 能 从 810 行 的 schedule( ik |], 444 
pipelined_send( ) 的 代码 ， 可 以 看 到 当前 进程 在 被 唤醒 的 时 候 有 两 种 可 能 的 情况 。- -种 是 已 经 接收 到 了 
符合 要 求 的 报 文 ， 此 时 msr_d.r_msg 为 指向 该 报 文 的 指针 。 另 - -种 是 报 文 的 类 型 相符 ， 但 是 接收 进程 的 
缓冲 区 太 小 调 不 能 接收 , 此 时 msr d.r. msg 持 有 出 错 的 代码 一 E2BIG (H. pipelined send( ) 中 的 612 行 )。 
然而 ， 在 另外 一 种 情况 下 也 会 响 卓 睡 申 中 的 进程 ， 那 就 是 如 果 这 个 进程 接收 到 了 一 个 信号 。 由 于 
msr d.r msg 仁 进 入 睡眠 前 ， 已 被 预 设 为 一 EAGAIN (H, 806 行 )， 所 以 在 这 种 情况 下 msr d.r msg 中 也 
是 一 个 出 错 代码 。 因 此 ， 当 进程 从 schedule( WIN, 3 msr. d.c msg 中 不 是 出 错 代码 就 表示 接收 成 功 
T (WL 827 fT). 

OR AE SUE? 这 里 此 仔细 往 下 看 了 。 原 作者 在 这 里 加 了 注释 ， 但 可 能 未 是 很 容易 看 懂 。 首 
先 龙 对 报 文 队 列 加 锁 。 对 于 这 一 点 应 该 是 好 理解 的 ， 只 要 看 到 837 行 的 goto 语句 就 能 明白 ， 当前 进程 
XXE ELI 744 行 的 标号 retry 处 开始 新 轮 的 接收 操作 ， 所 以 要 将 报 文 队 列 锁 住 。 但 是 ， msg lock( ) 中 
调用 的 spin_lock( ) 可 能 隐藏 着 等 待 ， 因 为 有 可 能 另 一 个 进程 〈 在 另 : .个 CPU 上 运行 ) 已 经 抢先 一 步 把 
队列 锁 住 了 。 另 一 方面 ， 还 要 看 到 ， 如 果 当 豚 进 程 是 因为 接收 到 信和 号 而 被 唤醒 ， 则 其 msg receiver 结 
构 msr. d 仍 留 在 报 文 队列 的 q. receivers 链 中 。 这 样 ， 在 进程 被 唤醒 以 后 ， 直 到 在 817 行 的 msg. lock( ) 
中 成 功 地 将 报 文 队列 锁 住 之 前 ， 仍 有 可 能 接收 到 其 他 进程 通过 pipelined_send( ) 发 来 的 报 文 。 正 央 为 这 
FF, 4E msg lock( )Z Jed E Pide & — F msr_dr_msg。 如 果 它 变 成 了 一 个 报 文 指针 ， 那么 也 是 接收 成 功 
三。 盟 然 此 时 有 信号 在 等 待 着 处 理 ， 代 由 十 本 次 系统 调用 的 主体 已 经 完成 ， 所 以 还 是 转向 out success 
先 将 接收 到 的 报 文 复制 到 用 户 空 间 中 。 反 正 那 以 后 很 快 就 要 从 系统 调用 返回 ， 到 那 时 候 再 米 处 理 信 号 
也 个 迟 。 但 是 ， 如 果 msr_d.r_msg 仍 是 出 错 代 码 ， 那 就 又 要 分 析 了 。 在 806 行 ， 忆 经 将 msr dr msg fil 
设 成 一 EAGAIN， 欠 有 pipelined send( )， 才 会 在 唤醒 -个 正在 等 待 接收 的 进程 前 改变 其 msr d.r msg 
的 内 容 。 所 以 ， 如 果 出 错 代 码 为 一 E2BIG， 就 说 明 当 前 进程 肯定 是 由 某 个 发 送 进程 在 pipelined_send( ) 
中 唤醒 的 。 只 要 出 错 代 码 赴 一 E2BIG (只 要 不 是 一 EAGIN 就 必然 是 一 E2BIG)， 就 出 错 返回 了 。 当 然 ， 
在 返 同 前 莫 将 报 文 队列 解锁 CA 842 行 )。 至 于 有 可 能 正在 等 待 处 理 的 信号 ， 则 在 从 系统 调用 返回 之 前 
还 会 有 愉 查 并 处 埋 。 反之， 如 打出 错 代 码 为 一 EAGIN， 则 说 明 当 前 进程 不 是 由 pipelined_scnd( ) 唤 醒 的 ， 
所 以 要 将 本 进程 的 msg receiver 结构 脱 链 。 然 后 再 看 到 底 是 否 有 信和 号 在 等 着 要 处 理 。 如 果 有 信和 号 等 待 
处 理 ， 束 将 返 同 但 设 成 一 EINTR 并 且 提 前 返回 ， 否 则 ， 如 果 没 有 信号 在 等 待 处 理 的 话 ， 就 跳 特 回 retry 
开始 新 “ 轮 的 报 文 接收 。 注 意 ， 由 于 msg receiver 结构 msr d 起 作为 局 部 量 分 瑟 在 堆栈 上 的 ， 所 以 不 
用 《而 用 不 可 》 释放 其 空间 。 


6.6.4 PERZ msgctl( ) 一 一 报 文 机 制 的 控制 与 设置 


前 面 讲 过 , 命名 管道 和 无 名 管道 的 缺点 之 一 是 缺乏 对 管道 的 控制 手段 , 也 缺乏 获取 其 状态 信息 ( 例 
如 ， 有 多 少 个 字 闻 已 经 在 管道 中 等 待 着 读 取 ) 的 手段 。MSGCTL 操作 正 是 为 报 文 队列 提供 了 这 样 的 手 
段 。 内 核 中 的 函数 sys msgctl ) 的 界面 为 《msg.c); 
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69 asmlinkage long sys msgctl (int msqid, int cmd, struct msqid ds *buf); 


其 中 参数 cmd 为 具体 的 命令 码 ， 定 义 于 include/linux/ipe.h 中 : 


34 /* 
35 * Control commands used with semctl, msgctl and shmctl 
36 * see also specific commands in sem.h, msg.h and shm. h 
37 */ 


38 Hdefine IPC RMID 0 /* remove resource */ 

39 Hdefine IPC SET 1 /* set ipc perm options */ 
40 Hdefine IPC STAT 2 /* get ipc perm options */ 
41 define IPC INFO 3 /* see ipcs */ 


这 些 命令 码 并 不 是 专 为 报 文 队列 而 设置 的 ， 也 适用 十 SysV IPC 的 其 他 两 种 机 制 。 对 于 具体 的 机 
制 则 可 能 还 要 再 补充 者 干 专用 的 命令 。 就 报 文 队列 而 言 ， 在 include/linux/msg.h PE LS We A> 
码 : 


6 /* ipes ctl commands */ 
T tdefine MSG STAT 11 
8 Hdefine MSG INFO 12 


在 为 Sys V IPC 设置 的 这 些 命令 中 ，IPC_RMID 用 来 撤消 一 个 标识 号 ， 对 报 文 队列 而 言 也 就 是 撤 
消 一 个 报 文 队 列 ， 其 作用 相当 于 文件 系统 中 的 “关闭 文件 ”IPC_SET 用 来 改变 相应 IPC 设施 的 各 种 状 
态 和 属性 。 而 IPC. STAT 和 IPC, INFO 则 分 别 用 来 获取 关于 相关 设施 的 状态 或 统计 信息 。 

调用 参数 buf 为 一 个 msgid. ds 结构 指针 。 这 个 结构 使 用 于 IPC. STAT 和 IPC_SET， 是 在 msg.h 中 
定义 的 : 


14 /* Obsolete, used only for backwards compatibility and libcb compiles */ 
15 struct msqid ds | 


16 struct ipc perm msg perm; 

17 struct msg *msg first; /* first message on queue, unused */ 
18 struct msg *msg last; /* last message in queue, unused */ 
19 | kernel time t msg stime; /* last msgsnd time */ 

20 | kernel time t msg rtime; /* last msgrcv time */ 

21 . kernel time t msg ctime; /* last change time */ 

22 unsigned long msg lcbytes; /* Reuse junk fields for 32 bit */ 
23 unsigned long msg lqbytes; /* ditto */ 

24 unsigned short msg cbytes; /* current number of bytes on queue */ 
25 unsigned short msg qnum; /* number of messages in queue */ 

26 unsigned short msg qbytes; /* max number of bytes on queue */ 
27 __kernel_ipc_pid_t msg lspid; /* pid of last msgsnd */ 

28 J kernel ipc pid t msg lrpid;  /* last receive pid */ 

20 }; 


代码 作者 在 注释 中 说 这 个 数据 结构 已 经 过 时 ， 只 是 为 了 兼容 才 保 留 着 。 新 的 数据 结构 是 
msqid64_ds， 定 义 于 include\asm-i386\msgbuf.h 中 ， 显 然 是 64 位 系统 结构 准备 的 。 
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/* 
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* The msqid64 ds structure for i386 architecture. 
* Note extra padding because this structure is passed back and forth 


* between kernel and user space 

* 

* Pad space is left for: 

* — 64-bit time t to solve y2038 problem 
* - 2 miscellaneous 32-bit values 


*/ 


struct msqid64_ds { 


ke 





struct ipc64 perm msg perm; 
__kernel_time_t msg stime; /* 
unsigned long _  unusedl; 
kernel time t msg rtime; /* 
unsigned long . unused2; 
.. kernel time t msg ctime; /* 
unsigned long | unused3; 
unsigned long msg cbytes; /* 
unsigned long msg qnum; /* 


unsigned long msg qbytes; /* 
. kernel pid t msg lspid;  /* 


. kernel pid t msg lrpid;  /* 
unsigned long .  unused4; 
unsigned long __unused5: 


last msgsnd time */ 
last msgrcv time */ 
last change time */ 


current number of bytes on queue */ 
number of messages in queue */ 

max number of bytes on queue */ 
pid of last msgsnd */ 

last receive pid */ 


不 过 , 我 们 从 前 面 sys. msgctl ) 的 调用 参数 表 中 可 以 看 到 在 系统 调用 界面 上 还 在 用 着 msqid ds. £i 
构 中 msg cbytes 和 msg_lcbytes， 以 及 msg qbytes 和 msg Iqbytes 在 逻辑 上 是 相同 的 ， 只 不 过 - -为 无 符 
号 短 整数 ， 一 为 无 符号 长 整数 。 
当 命 令 码 为 IPC_INFO 时 ， 则 buf 指向 一 个 msginfo 结构 (msg.h): 


/* buffer for msgctl calls IPC INFO, MSG INFO x*/ 
struct msginfo | 


13 


int msgpool; 
int msgmap; 
int msgmax; 
int msgmnb; 
int msgmni; 
int msgssz; 
int msgtql; 
unsigned short  msgseg; 


建议 读者 结合 sys msgsnd( ) 和 sys msgrev( ) 的 代码 以 及 msg. msg 结构 的 定义 ， 看 看 这 两 个 数据 结 
构 中 诸 成 分 的 用 途 ，。 
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函数 sys_msgetl( ) 的 代码 不 短 ， 俱 是 很 简单 。 所 以 我 们 把 它 留 给 读者 自己 阅读 ， 也 个 在 这 里 询 出 其 
代码 了 。 但 这 里 只 看 其 中 的 一 个 片段 Gmsg.c): 


[sys msgctl( )] 


539 
540 
541 
542 
543 
544 
545 
546 
547 
548 
549 
550 
551 
552 
553 
554 
555 
556 
557 
558 
559 
560 
561 
562 
563 
564 
565 
566 


switch (cmd) | 
case IPC SET: 


{ 


} 


if (setbuf.qbytes > msg ctlmnb && 'capable(CAP SYS RESOURCE) ) 
goto out unlock up; 
msq->g_qbytes = setbuf. qbytes; 


ipcp->uid = setbuf. uid; 

ipep->gid = setbuf. gid; 

ipcp-?mode = (ipcp->mode & ^S IRWXUGO) | 

(S IRWXUGO & setbuf. mode): 

msq->q_ctime = CURRENT TIME; 

/* sleeping receivers might be excluded by 
* stricter permissions. 

*/ 

expunge all(msq, -EAGAIN) ; 

/* sleeping senders might be able to send 
* due to a larger queue size. 

x/ 

ss wakeup(&msq-^q senders, 0) ; 

msg unlock (msqid) ; 

break; 


case IPC RMID: 


j 


freeque (msqid) ; 
break; 


err = 0; 


这 里 的 setbuf 是 从 用 户 空间 复制 过 来 的 msqid_ds 数据 结构 。 每 当 通 过 IPC_SET 改变 MRICS 
的 有 关 参 数 时 ， 由 于 参数 的 改变 而 需要 做 商 件 事 。- - 件 事 是 使 正在 等 待 此 队列 接收 报 文 的 进程 《如 案 
有 的 话 》 都 出 错 返回 ， 出 错 代码 为 EAGAIN。 这 是 道 过 expunge_all( ) 完 成 的 。 第 一 件 事 是 将 正在 等 待 
向 此 队列 发 送 报 文 的 进程 《如 果 有 的 话 ) 全 部 唤醒 ， 让 它们 开始 新 - 轮 党 试 。 这 是 通过 ss_wakeup( ) 
完成 的 ， 其 代码 前 面 已 经 看 到 过 。 此 处 给 出 函数 expunge_all( ) 的 代码 Cmsg.c): 


[sys_msgctl( ) > expunge. all( )] 


266 
267 
268 
269 


static void expunge all(struct msg queuc* msq, int res) 


{ 
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270 tmp = msq->q_receivers. next; 

271 while (tmp != &msq-^q receivers) { 

212 struct msg receiver* msr; 

213 

274 msr = list_entry(tmp, struct msg receiver,r list): 
275 tmp = tmp-?next; 

276 msr->r_msg = ERR PTR(res); 

277 wake_up_process (msr—>r_tsk) ; 

278 } . 

279} 


命令 RMID 则 是 通过 freeqeue( ) 完 成 的 ， 现 在 其 代码 对 于 读者 应 该 书 经 很 简单 了 (msg.c); 
[sys msgctl( ) > freeque( )] 


281 static void freeque (int id) 


282 { 

283 struct msg queue *msq; 

284 struct list head *tmp; 

285 

286 msq = msg rmid(id); 

287 

288 expunge all(msq, -EIDRM); 

289 ss wakeup(&msq-^q senders, 1) ; 

290 msg unlock(id); 

291 

292 tmp = msq-?q messages. next; 

293 while(tmp !- &msq-^q messages) { 

294 struct msg msg* msg = list entry(tmp,struct msg msg,m list); 
295 imp = tmp-»next; 

296 atomic dec(&msg hdrs); 

297 free msg(msg); 

298 ) 

299 atomic sub(msq-^q cbytes, &msg bytes); 
300 kfree (msq) ; 

301 } 


同样 ，freeque( ) 将 所 有 正在 等 待 接收 报 文 的 进程 都 从 接收 队列 里 脱 链 并 唤醒 ， 让 它们 出 错 返 辐 。 
并 通过 ss_wakeup( ), 将 所 有 正在 等 待 发 送 报 文 的 进程 都 从 发 送 队 列 里 脱 链 并 唤醒 , 也 让 它们 出 错 返回 。 
然后 将 队列 中 所 有 报 文 都 脱 链 并 释放 其 空间 。 最 后 连 报 文 队列 头 也 予以 释放 。 

代码 中 的 msg_rmid( ) 是 个 宏 定义 (msg.c): 


96 #define msg rmid(id) ((struct msg queue*)ipc rmid(&msg ids, id)) 
函数 ipe rmid( ) 的 代码 在 ipc/util.c 中 ， 也 很 简单 : 


[sys_msgctl( ) > freeque( ) > msg rmid( ) > ipc_rmid( )] 
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173 /** 

174 *  ipc rmid - remove an IPC identifier 

175 * @ids: identifier set 

176 * @id: Identifier to remove 

177 * 

178 * The identifier must be valid, and in use. The kernel will panic if 
179 * fed an invalid identifier. The entry is removed and internal 
180 * variables recomputed. The object associated with the identifier 
181 * is returned. 

182 */ 

183 


184 struct kern ipc perm* ipc rmid(struct ipc ids* ids, int id) 
185 { l 


186 struct kern ipc perm* p; 

187 int lid = id % SEQ MULTIPLIER; 
188 if(lid > ids— size) 

189 BUG ( ) ; 

190 p = ids-»entries[lid]. p; 

191 ids-^entries[lid].p = NULL; 
192 if (p==NULL) 

193 BUG( ); 

194 ids-^in use--; 

195 

196 if (lid == ids->max id) { 

197 do ( 

198 lid—; 

199 if(lid -- -1) 

200 break; 

201 ) while (ids-»entries[lid].p == NULL); 
202 ids-^max id = lid; 

203 } 

204 return p; 

205 } 


这 里 有 个 问题 ， 被 唤醒 的 进程 会 做 些 什 么 昵 ? 读者 不 妨 癌 过 头 去 看 看 sys msgsnd( ) 和 
sys_mshrev( ) 中 的 代码 (msg.c 中 的 673 行 和 817 行 )， 睡 眠 中 的 进程 被 唤醒 ， 并 且 被 调度 运行 而 从 
schedule( ) 返 回 后 ， 还 要 再 调用 msg lock( )， 但 是 那 时 候 就 会 返回 NULL， 从 而 从 sys_msgsnd( ) 或 
sys mshrcv( ) 失 败 返 | 器 了 。 


6.7 ”共享 内 存 


共享 内 存 ， 顾 名 思 义 就 是 两 个 或 更 多 个 进程 可 以 访问 同一 块 内 在 区间， 使 得 一 个 进程 对 这 块 空 间 
中 某 个 单元 内 容 的 改变 可 以 为 其 他 进程 所 “和 看” 到。 共享 内 存 是 针对 【命名 或 无 名 ) 管道 以 及 其 他 机 
制 运行 效率 比较 低 的 缺陷 而 设计 的 。 虽然 报 文 队 列 比 之 管道 有 了 很 大 的 改进 ， 但 是 从 运行 效 闫 的 角度 
来 说 却 并 无 什么 明显 的 不 同 。 而 共享 内 存 ， 则 由 于 参加 共 训 的 各 个 进程 就 像 普通 访问 内 存 一 样 地 访问 
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所 共享 的 内 存 区 间 ， 其 这 行 时 的 效率 可 以 很 高 。 对 于 某 些 运行 效率 显得 很 关键 的 应 用 来 说 ， 可 能 会 觉 
得 管道 或 报 文 队列 的 速度 太 提 ， 所 以 宁愿 放弃 一 些 由 这 些 机 制 所 提供 的 好 处 ， 而 采用 共享 内 存 作为 进 
程 间 通信 的 手段 。 不 过 ， 应 该 指出 ， 共 享 内 存 是 一 种 很 低级 (与 物理 层 很 贴近 〉 的 通信 机 制 ， 所 提供 
的 功能 是 很 有 限 的 ， 所 以 使 用 时 要 特别 小 心 。 

一 般 来 说 ， 一 种 进程 间 通 信 机 制 常常 附加 地 提供 一 些 进程 间 同 步 和 互 斥 的 功能 ， 传 递 的 内 容 也 得 
到 一 定 程度 的 缓冲 。 以 管道 为 例 ， 从 管道 读 的 进程 在 管道 中 无 内 容 可 读 时 就 会 进入 睡眠 等 待 。 同 样 地 ， 
向 管道 写 的 进程 在 管道 被 气 满 时 也 会 睡眠 等 待 。 虽 然 这 两 个 过 程 从 宏观 上 说 是 并 发 的 ， 但 是 从 微观 上 ， 
也 就 是 从 系统 调用 的 内 部 实现 层次 上 说 ， 却 是 独占 的 、 互 斥 的， 因而 是 “原子 的 ” 所 以 读 和 写 的 过 程 
通过 内 核 加 以 “ 串 行 化 ”人 而 不 会 互相 干扰 ， 同 时， 写 入 管道 的 内 容 也 得 到 了 缓冲 。 可 是 共享 内 存 就 不 
间 了 。 不 同 进程 读 / 写 一 块 内 存 空间 的 操作 本 身 就 是 微观 的 、 直 接 的 ， 并 不 通过 系统 调用 来 进行 。 这 样 ， 
就 失去 了 由 内 核 保 证 互 斥 性 的 可 能 ， 进 程 间 也 不 会 因此 而 自动 地 得 到 同步 ， 并 且 所 写 的 内 容 在 全 部 完 
成 前 就 立即 可 以 部 分 地 为 其 他 进程 所 “和 看” 到。 举例 来 说 ， 如 果 进 程 A 向 一 块 共享 内 存 空间 写 一 字符 
P, 在 写 了 一 半 时 就 凡 中 斯 而 引起 调度 , 于 是 当 进 程 B 在 进程 A 尚未 完成 整个 字符 串 的 写 入 前 就 来 读 ， 
那 就 会 读 出 这 样 一 个 字符 串 : 其 前 半 部 是 进程 A 新 写 入 的 ， 可 是 后 半 部 却 是 以 前 某 个 时 候 由 其 他 进程 
写 入 的 。 所 以 ， 共 享 内 存 通常 要 与 SysV IPC 中 的 另 一 个 机 制 “ 信 号 量 ” 结 合 使 用 ， 这 样 才能 达到 进 
程 间 的 同步 与 互 斥 。 

在 内 核 中 ， 共 享 内 存 机 制 的 如 种 操作 SHMGET、SHMAT、SHMDT 和 SHMCTL， 即 应 用 程序 设 
计 和 界面 上 的 库 消 数 shmget( )、shmat( )、shmdt( ) 和 shmctl( )， 分 别 是 由 sys_shmget( )、sys_shmat( )、 
sys shmdt( ) 和 sys shmctl( ) 实 现 的 。 与 报 义 队列 相似 , 参加 共享 内 存 的 进程 之 一 首先 要 创建 一 个 共享 内 
存 区 ， 然 后 其 他 进程 通过 一 个 共同 的 键 值 取得 它 的 标识 号 。 得 到 了 一 个 共享 内 存 区 的 标识 号 以 后 ， 每 
个 进程 就 可 以 将 此 共享 内 存 区 “挂靠 ”(attach) 到 《实际 上 是 映射 到 ) 它 的 虚 存 空间 ， 然 后 就 可 以 像 
Wi - 般 内 存 一 样 地 访问 这 块 共 享 内 存 区 了 。 要 退出 对 此 共享 区 间 的 共享 时 ， 则 可 以 将 其 “脱钩 ” 
(dettach)， 也 就 是 解除 映射 。 有关 的 代码 基本 上 都 在 文件 ipc/shm.c 中 。 


6.7.1 库 函 数 shmget() 一 一 共享 内 存 区 的 创建 与 寻找 


库 函 数 shmget( )， 即 ipc( ) 系 统 调 用 的 SHMGET 操作 是 由 sys_shmget( ) 完 成 的 〈shm.c): 


224 asmlinkage long sys shmget (key t key, size t size, int shmflg) 
225 { 


226 struct shmid kernél *shp; 

227 int err, id = Q; 

228 

229 down (&shm_ids. sem) ; 

230 if (key == IPC PRIVATE) | 

231 err = newseg(key, shmflg, size); 

232 } else if ((id = ipc findkey(&shm ids, key)) == -1) { 
233 if (!(shmflg & IPC CREAT)) 

234 err = -ENOENT; 

235 else 

236 err = newseg(key, shmflg, size); 

237 } else if ((shuflg & IPC CREAT) && (shmflg & IPC EXCL)) { 
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err = —EEXIST; 
} else | 
shp = shm lock(id); 
if (shp--NULL) 
BUG ( ) ; 
if (shp->shm segsz < size) 
err = -EINVAL; 
else if (ipeperms(&shp—>shm perm, shmflg)) 
err = -EACCES; 
else 
err = shm buildid(id, shp-^shm perm. seq); 
shm unlock (id); 
} 
up(&shm ids. sem) ; 
return err; 


与 前 : 节 中 的 sys msgge( ME— LES, RA RHO AAAI. PNA Je dx UR PT LH D A 
newseg( ), 因为 是 创建 新 的 共享 内 存 区 , i EAR SCBA. ARICA SUPE, 内 核 中 也 有 个 全 局 的 ipe: ids 
数据 结构 shm_ids: 


static struct ipc ids shm ids; 


如 前 所 述 ，ipc_ids 数据 结构 中 有 个 指针 entries， 指 向 一 个 ipe id 结构 数组 ， 而 每 个 ipc_id 结构 中 
则 有 个 指针 p， 指 向 一 个 kern ipe perm 数据 结构 。 所 不 同 的 是 ， 在 报 文 队列 机 制 中 ，kerm_ipce_perm 数 
据 结构 的 “宿主 > 是 msg. queue 数据 结构 , 代表 着 ARXAR: 而 在 共享 内 存 机 制 中 则 是 shmid_kernel 
数据 结构 ， 代 表 着 一 个 共享 内 存 区 。 等 :下 读者 就 会 看 到 它 的 定义 。 

同样 键 值 IPC_PRIVATE， 即 0， 是 特殊 的 ， 它 表示 旧 分 陀 一 个 共享 内 存 区 供 本 进程 志 用 。 其 他 键 
值 则 表示 要 创建 或 寻找 的 是 “ 具 训 ”内 存 区 。 而 标志 位 IPC CREAT 则 表示 日 的 在 于 创建 。 

函数 newseg( ) 创 建 一 块 共 序 内 存 区 《shm.e): 


[sys shmget( ) > newseg( )] 
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static int newseg (key_t key, int shmflg, size t size) 


{ 
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int error; 

struct shmid kernel *shp; 

int numpages - (size + PAGE SIZE -1) >> PAGE SIIIFT; 
struct file * file: 

char name[13]; 

int id; 


if (size < SHMMIN |: size > shm ctlmax) 
return -EINVAL; 


if (shm tot + numpages >= shm ctlall) 
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return -ENOSPC; 


shp = (struct shmid kernel *) kmalloc (sizeof Ckshp), GFP USER); 
if (!shp) 
return -ENOMEM; 
sprintf (name, “SYSV%08x”, key); 
file - shmem fiie setup(name, size): 
error = PTR ERR(file): 
if (IS_ERR(file)) 
goto no file; 


error = —ENOSPC; 
id = shm addid(shp) : 
if (id == -1) 
goto no_id; 
shp->shm_perm. key = key; 
shp->shm_flags = (shmflg & S IRWXUGO); 
shp-^shm cprid = current->pid; 
shp-^shm lprid = 0; 
shp-^shm atim = shp->shm dtim = 0; 
shp-^shm ctim = CURRENT TIME; 
shp->shm_segsz = size; 
shp->shm_nattch = 0; 
shp-^id = shm buildid(id, shp-^shm perm. seq) ; 
shp-^shm file = file; 
file-^f dentry-^d inode-^i ino = shp~>id; 
file-^f op = &shm file operations; 
shm tot *- numpages; 
shm unlock (id); 
return shp->id: 


no id: 


fput (file); 


no file: 


kfree(shp); 
return error; 


首先 根据 共享 区 的 大 小 计算 出 所 需 的 存储 页 面 数量 numpages， 接 着 是 对 资源 数量 的 一 些 检查 。 代 


但 中 的 shm tot 和 shm_ctlall 才 是 全 局 量 ,分别 用 来 记录 当前 已 经 用 十 共享 内 存 机 制 的 页 面 数 及 其 上限。 
51 “个 企 局 量 shm_ctlmax 给 出 了 对 每 个 共享 内 存 区 大 小 的 限制 。 每 个 共享 内 存 区 都 有 个 区 名 ， 由 前 组 
SYSV 和 键 值 的 8 位 16 进 制 数 表示 构成 。 


29 
30 
3l 


在 内 核 中 ， 每 个 共享 内 存 区 都 由 个 控制 结构 ， 即 shmid_kernel 数据 结构 代表 ， 定 义 于 ipc/shme: 


struct. shmid kernel /* private to the kernel */ 


struct kern ipc perm shm perm; 
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32 struct file * shm file; 
33 int id; 

34 unsigned long shm nattch; 
35 unsigned long shm segsz; 
36 time t shm atim; 

37 time t shm dtim; 

38 time t shm ctim; 

39 pid t shm cprid; 
40 pid t shm lprid; 
4l }; 


显然 ,这 个 数据 结构 与 用 于 报 文 队列 的 msq_queue 相似 , 它 的 第 一 个 结构 成 分 也 是 个 kern. ipe perm 
结构 。 可 是 ， 这 里 有 个 file 结构 指针 shm_file。 为 什么 在 代表 共享 内 存 区 的 数据 结构 中 有 指向 file 结构 
的 指针 呢 ? 

共享 内 存 区 中 的 页 面 也 和 普通 的 页 面 一 样 ， 受 到 内 存 页 面 管理 机 制 的 调度 ， 根 据 实际 的 需要 而 换 
出 / 换 入 。 不 同 的 是 ， 普 通 的 页 面 都 换 出 到 通用 的 页 面 交换 设备 〈 或 文件 ) 上 ， 而 共享 内 存 区 则 各 自 设 
立 专 用 的 映射 文件 ， 以 共享 内 存 区 的 区 名 作为 文件 名 。 这 样 ， 就 把 共享 内 存 区 与 第 2 章 中 的 文件 映射 
联系 在 起 了 。 文件 映射 机 制 成 了 实现 共享 内 存 区 的 基础 ， 而 共享 内 存 区 则 成 了 文件 映射 的 一 项 应 用 。 
因此 , 对 于 每 个 进程 , 参与 共享 的 内 存 区 就 好 像 已 经 建立 的 文件 映射 一 样 , 可 以 通过 特殊 文件 系统 /proc 
中 的 路 径 /proc/<pid>/maps 观察 其 状态 这 里 <pid> 表 示 具 体 的 进程 号 )。 

为 此 , 内 核 中 专门 设置 了 一 种 特殊 文件 系统 “shm”, 其 类 型 为 shmem fs type. 定义 于 mm/shmem.c: 





702 static DECLARE FSTYPE(shmem fs type, “shm”, shmem read super, FS_LITTER) ; 


dux Sede Ft DECLARE_FSTYPE RIU F CAD] “CRA” EPA KAA): 


struct file system type shmem fs type = | 


name: ^shm^, 
read super: shmem read super, 

fs flags: FS LITTER, 

owner: THIS MODULE, 
kern mnt: NULL 


} 


系统 在 初始 化 时 会 通过 kem. mount ) 安 装 这 个 特殊 文件 系统 , 并 在 devfs 特殊 文件 系统 中 创建 起 一 
个 子 日 录 shm。 这 是 在 init_shmem_fs( ) 中 完成 的 ， 代 码 见 mm/shmem.c: 


704 static int | init init shmem fs (void) 


705 { 

706 int error; 

707 struct vfsmount * res; 

708 

709 if ((error = register filesystem(&shmem fs type))) { 
710 printk (KERN ERR “Could not register shmem fsWn^); 
Ti return error; 
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712 } 

713 

714 res = kern mount (&shmem fs type); 

715 if (IS ERR (res)) { 

716 printk (KERN ERR “could not kern mount shmem fsWn^); 
717 unregister filesystem(&shmem fs type); 
718 return PTR ERR(res); 

719 } 

720 

721 devfs mk dir (NULL, “shm”, NULL): 

122 return 0; 

723.) 


先 通过 kern. mount( ) 安 装 特殊 文件 系统 shm。 然后 , TIL TER PEL ERIS ERE T 3c HE devfs, 就 在 /dev 
HR OXE devfs 的 安装 点 ) 下 建立 一 个 了 目录 shm， 作 为 所 有 共享 内 存 区 文件 的 目录 。 我 们 在 特殊 文 
件 /proc 一 节 中 讲 过 ，kern_mount( ) 只 是 为 … 个 特殊 文件 系统 建立 起 作为 一 个 已 安装 文件 系统 所 需 的 所 
有 数据 结构 ， 包 括 超级 块 以 及 dentry K, inode 结构 、 还 有 vfsmount 结构 ， 并 使 file system type 结 
构 《 在 这 里 是 shmem fs type? 中 的 指针 ker mnt 指向 其 vfsmount £5]. HEDRE EU c 
件 系统 “安装 ”在 某 个 安装 点 上 。 换 言 之 ， 并 没有 使 这 个 特殊 文件 系统 落实 到 哪 一 个 有 形 的 文化 系统 ， 
即 外 部 设备 上 。 对 于 像 管 道 一 类 无 形 又 无 名 的 文件 系统 这 是 没有 问题 的 ， 因 为 管道 文件 实际 上 只 存在 
于 内 存 中 ， 本 来 就 不 需要 落实 到 外 部 设备 上 。 了 可是， 对 于 /proc 文件 系统 就 得 要 在 kern. mount ) 以 后 再 
具体 安装 一 次 ， 将 其 安装 在 /proc 节点 |.， 这 样 才 能 使 其 变 成 有 名 而 可 以 通过 路 径 名 寻访 。 所 以 像 /proc 
那样 的 特殊 文件 系统 的 FS_SINGLE 标志 位 为 1。 用 十 共享 内 存 区 的 文件 系统 shm 则 又 不 同 了 ， 这 种 文 
件 是 有 形 的 ， 需 要 在 文件 中 实际 地 存储 数据 ， 所 以 更 是 必须 落实 到 某 个 物理 的 外 设 上 才 行 。 另 一 方面 ， 
共享 内 存 区 文件 只 对 系统 的 当前 运行 有 意义 ，“ 有 旦 关机 就 失去 了 意义 而 不 应 继续 存在 ， 下 一 次 安装 时 
应 该 从 空白 开始 ， 所 以 不 适合 放 在 普通 的 文件 系统 中 。 考 虑 到 这 个 特点 ， 显 然 最 合适 的 是 把 shm 落实 
到 页 面 交 换 益 区 中 。 下 面 读者 就 会 看 到 ， 这 一 点 已 经 实现 在 shm 的 驱动 程序 中 。 所 以 ，shm 文件 系统 
在 kern mount( ) 以 后 ,不 需要 像 /proc 文件 系统 邦 样 再 来 安装 一 次 , 它 的 FS_SINGLE 标志 位 为 0。 至 于 
ERY FS LITTER 标志 位 为 1 OA 702 行 )， 则 正 是 表示 把 这 种 文件 系统 拆卸 下 来 时 要 技 弃 其 所 有 的 次 
源 〈 包 括 在 /dev/.devfsd 目录 下 的 文件 节点 )。 

这 样 ， 建 立 共享 内 存 区 的 问题 就 转变 成 了 在 特殊 文件 系统 “shm” 中 建立 喘 射 文件 的 问题 。 这 是 由 
shmem file setup( ) 完 成 的 ， 其 代码 在 mm/shmem.c "f: 


[sys_shmget( ) > newseg( ) > shmem file setup( )] 


800 /* 

801 * shmem file setup - get an unlinked file living in shmem fs 
802 * 

803 * Gname: name for dentry (to be scen in /proc/<pid>/maps 

804 * @size: size to be set for the file 

805 * 

806 */ 

807 struct file *shmem file setup(char * name, loff t size) 

808 d 
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809 int error; 

810 struct file *file; 

811 struct inode * inode; 

812 struct dentry *dentry, *root; 

813 struct qstr this; 

814 int vm enough memory (long pages); 

815 

816 error = -ENOMEM; 

817 if (lvm enough memory((size) >> PAGE SIIIFT)) 
818 goto out; 

819 

820 this.name - name; 

821 this. len = strlen(name) ; 

822 this. hash = 0: /* will go */ 

823 root = shmem fs type.kern mnt-^mnt root; 
824 dentry = d alloc(root, &this); 

825 if (!dentry) 

826 goto out; 

827 

828 error = —ENFILE; 

829 file = get empty filp( ); 

830 if (!file) 

831 goto put dentry; 

832 

833 error = -ENOSPC; 

834 inode = shmem get inode(root-^d sb, S IFREG | S IRWXUGO, 0); 
835 if (!inode) 

836 goto close file; 

837 

838 d instantiate(dentry, inode); 

839 dentry-^d inode-^i size = size; 

840 file f vfsmnt = mntget(shmem fs type.kern mnt); 
841 file-^f dentry = dentry; 

842 file->f op = &shmem file operations; 

843 file->f mode = FMODE WRITE | FMODE READ; 
844 inode-^i nlink = 0; /* It is unlinked */ 
845 return(file); 

846 

847 close file: 

848 put filp(file); 

849 pul. dentry: 

850 dput (dentry); 

851 out: 

852 return ERR PTR(error); 

853 | 


前 面 讲 过 ， 每 个 共享 内 存 区 都 有 个 区 名 ， 区 名 中 包含 着 它 的 键 值 ， 这 个 区 名 就 被 用 作文 件 名 。 我 们 
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把 这 段 程序 留 给 读者 阅读 。 旧 说 时 的 起 ,shmem_fs_type.kern_mnt->mnt_root 指向 sam 文件 系统 的 dentry 
结构 本 身 ， 所 以 文件 建立 在 shm 的 根 节点 下 。 虽 然 这 里 在 内 存 中 建立 起 了 文件 的 dentry 结构 和 inode 
结构 ， 这 些 数 据 结构 的 内 容 却 不 需要 写 到 磁盘 上 去 ， 内 为 “` 且 关机 ， 这 些 数据 结构 的 内 容 就 失去 意义 
To MAY 842 行将 指针 file->f_op 设置 成 指向 file_operations 结构 shmem_file_operations, 而 在 返 同 到 
newseg( ) 中 以 后 义 在 212 行将 其 设置 成 指向 shm_file_operations， 这 上 遇 个 数据 结构 都 弟 只 支持 mmap 操 
作 的 ， 但 一 个 是 shmem mmap( )， 而 另 :个 是 shm_mmap( )。 两 个 数据 结构 分 别 定 义 在 mm/shmem.c 
和 ipc/shm.c F: 


662 static struct file operations shmem file operations - | 


663 mmap: shmem mmap 

664  ]; 

163 static struct file operations shm file operations = { 
164 mmap: shm_mmap 

165 }; 


函数 shmem_file_setup( )IF-AIGALTE newseg( ): -处 受到 调用 ， 还 得 照顾 到 从 其 他 路 径 调用 时 的 需 
要 ， 所 以 才 会 在 shmem file setup( ) 中 把 file->f_op 设置 成 指向 shmem_file_operations， 而 在 返回 到 
newseg( ) 中 以 后 又 改 成 指向 shm file operations. FR X shm_mmap( ) 和 shmem_mmap( ) 的 区 别 在 于 ， 前 
者 所 实现 的 是 有 形 的 shim 文件 ， 所 以 支持 open 和 close 操作 ;而 后 消 所 实现 的 是 无 形 的 shm 文件 ， 不 
能 通过 路 径 名 来 打开 ， 所 以 不 文 持 open 和 close 操作 。 

此 外 ,对 shm 节点 的 inode 结构 也 有 些 特殊 的 设置 ,所 以 通过 一 个 特殊 的 销 数 shmem_get_inode ( ) 
米 分 配 和 设置 inode 数据 结构 。 其 代码 在 mm/shmem.c F: 


[sys_shmget( ) > newseg( ) > shmem get. inode ( )] 


341 struct inode *shmem_get_inode (struct super block *sb, int mode, int dev) 
342 { l 

343 struct inode * inode; 

344 

345 spin lock (&sb->u. shmem sb. stat lock); 

346 if (!sb-»u. shmem sb. free inodes) { 

347 spin unlock (&sb->u. shmem sb.stat lock); 
348 return NULL; 

349 } 

350 sb->u. shmem sb. free inodes--; 

351 spin unlock (&sb-^u. shmem sb. stat lock); 

352 

353 inode = new inode (sb): 

354 if (inode) | 

355 inode-?i mode = mode; 

356 inode-»i uid = current ->fsuid; 

357 inode—>i gid = current >fsgid; 

358 inode->i blksize = PAGE CACHE SIZE; 
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359 inode-^i blocks = 0; 

360 inode-^i rdev = to kdev t (dev); 

361 inode-^i mapping-^a ops = &shmem aops; 

362 inode->i atime = inode-^i mtime = inode->i_ctime = CURRENT TIME; 
363 spin lock init (&inode—u. shmem i. lock) ; 

364 switch (mode & S I1FMT) { 

365 default: 

366 init special inode(inode, mode, dev): 

367 break; 

368 case S IFREG: 

369 inodc-^i op = &shmem inode operations; 

370 inode->i_fop = &shmem file operations; 

371 break; 

372 case S IFDIR: 

373 inode-^i op = &shmem dir inode operations; 
374 inode-^i fop = &shmem dir operations; 

375 break; 

376 case S IFLNK: 

377 inode->i_op = &page symlink inode operations; 
378 break; 

379 } 

380 spin lock (&shmem ilock); 

381 list add (&inode->u. shmem_i. list, &shmem inodes); 
382 spin unlock (&shmem_ilock) ; 

383 } 

384 return inode; 

385 } 


这 里 有 几 点 特殊 之 处 。 首 先是 参数 dev 为 0， 因 而 inode 结构 中 的 i rdev 也 是 0， 因 为 这 个 inode 
结构 并 没有 相应 的 磁 舟 上 索引 节点 。 其 次 ， 这 个 inode 结构 的 i_mapping->a_ops 指向 
address space, operations 数据 结构 的 shmem_aops， 定 义 于 mm/shmem.c "P: 


658 static struct address space operations shmem aops = | 
659 writepage: shmem writepage 
660 he 


这 个 数据 结构 提供 的 共享 内 存 区 的 页 面 换 出 操作 。 此外, 根据 节点 的 性 质 , inode 结构 中 的 指针 i op 
m p qc ac 结构 。 最后， 内 核 中 为 shm X. 
件 系统 提供 了 一 个 专用 的 inode 结构 队列 shmem_inodes， 所 有 用 于 shm 文件 系统 的 inode 结构 都 通过 
一 个 专用 的 队列 头 挂 在 这 个 队列 中 。 记 以 不 管 在 什么 时 候 都 能 找到 属于 shm 文件 系统 的 所 有 inode Zi 
构 。 

回 到 newseg() 的 代码 中 ， 用 于 共享 内 存 区 页 面 换 出 / 换 入 的 文件 已 经 创建 并 打开 。 这 个 已 打开 文件 
有 个 file 结构 ， 但 是 却 不 像 - 般 已 打开 文件 的 file 结构 那样 属于 某 个 特定 的 进程 ， 也 不 像 - 般 fille 结构 
那样 代表 一 个 基体 文件 的 污 / 写 上 上 下文， 因为 对 共享 内 存 区 的 访问 完全 是 随机 的 ， 没 有 上 下文 的 概念 。 
同时 ， 对 于 这 个 file 结构 也 不 能 像 对 一 般 己 打开 文件 那样 通过 一 个 已 打开 文件 号 来 访问 ， 因 为 所 谓 己 
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打开 文件 号 是 个 局 部 进程 的 概念 ， 而 不 是 全 局 的 概念 。 从 代码 中 可 以 看 到 ， 指 向 这 个 file 的 指针 就 保 
存在 具体 共享 内 存 区 的 shmid_kemel 数据 结构 中 ，shmid_kernel 结构 既然 代表 着 一 个 共享 内 存 区 ， 当 然 
也 就 代表 着 它 所 映射 的 文件 。 
为 一 个 共享 内 存 区 分 配 了 shmid, kernel 数据 结构 以 后 ,还 要 使 它 与 全 局 的 ipe ids 数据 结构 shm_ids 
HEH, ARCA ZLIB newseg( ) 中 以 后 要 通过 shm_addid( ) 来 建立 起 这 种 联系 (ipc/shm.c): 


[sys shmget( ) > newseg( ) > shm addid ( )] 


89 static inline int shm addid(struct shmid kernel *shp) 


90 1 
91 return ipc addid(&shm ids, &shp-^shm perm, shm ctlmni*l); 
92 } 


至 于 ipe_addid( ) 的 代码 ， 读 者 已 经 在 前 一 节 《〈 报 文 队 列 ) 中 读 过 。 用 于 共享 内 存 区 的 shm_ids 与 
用 才 报 文 队列 的 msg. ids 类 型 相同 ， 而 共享 内 存 区 的 shmid_kernel 结构 中 的 第 一 个 成 分 shm_perm 也 是 
个 kern_ipc_perm 结构 ， 它 的 起 始 地 址 就 是 整个 shmid kernel 结构 的 起 始 地 址 。 此 外 ，shm_ctlmni 也 与 
msg ctlmni 一 样 ， 是 个 对 shm ids 中 数组 大 小 的 控制 量 。 

至 此 ， 共 享 内 存 区 的 创建 就 基本 完成 了 。 函 数 newseg( ) 和 sys, shmget( ) 中 其 余 的 代码 比较 简单 ， 
我 们 把 它 留 给 读者 。 

最 后 ，sys_shmget( ) 也 和 sys msgget( ) 一 样 ， 返 回 所 创建 共享 内 存 区 的 一 体 化 标识 号 。 那 是 由 
shm_buildid( ) 计 算 的 。 


55 #define shm buildid(id, seq) V 
56 ipc buildid(&shm ids, id, seq) 


读者 已 经 在 前 一 节 《 报 文 队 列 ) 中 读 过 ipe buildid( ) 的 代码 。 
在 一 个 共享 内 存 区 创建 以 后 ， 参 加 进来 共享 的 进程 则 使 用 其 键 值 通过 findkey( ) 找 到 作为 ipc_ id 结 
构 数 组 下 标的 标识 号 ， 然 后 将 其 换算 成 一 个 一 体 化 的 标识 号 ， 那 就 与 sys msgget( ) 的 处 理 过 程 一 样 了 。 


6.7.2” 库 函数 shmat( ) 一 一 建立 共享 内 存 区 的 映射 


通过 shmget( ) 以 给 定 键 值 创 建 了 一 个 共享 内 存 区 ， 或 者 取得 了 已 创建 共享 内 存 区 的 标识 号 以 后 ， 
还 要 通过 shmat( ) 将 这 个 内 存 区 映射 到 本 进程 的 虚 存 空间 ， 此 外 ,一 个 已 经 映射 的 共享 内 存 区 间 也 可 以 
通过 shmat( ) 改 变 其 映射 。 这 都 是 由 sys_shmat( ) 完 成 的 ， 其 代码 在 ipc/shm.c 中 。 我 们 分 段 阅 读 ; 


553 /* 

554 * Fix shmaddr, allocate descriptor, map shm, add attach descriptor to lists. 
555 */ 

556 asmlinkage long sys shmat (int shmid, char *shmaddr, int shmflg, ulong *raddr) 
557 { 

558 struct shmid kernel *shp; 

559 unsigned long addr; 

560 struct file * file; 
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561 int err; 

562 unsigned long flags; 

563 unsigned long prot; 

564 unsigned long o flags; 

565 int acc mode; 

566 void *user addr; 

567 

568 if (shmid < 0) 

569 return -ETNVAL; 

570 

571 if ((addr = (ulong)shmaddr)) { 
572 if (addr & (SHMLBA-1)) | 

573 if (shmflg & SHM RND) 

574 addr &= ^(SHMLBA-1) ; /* round down */ 
575 else 

576 return -EINVAL; 

577 } 

578 flags = MAP SHARED | MAP FIXED; 
579 ) else 

580 flags = MAP SHARED; 

581 

582 if (shmflg & SHM RDONLY) | 

583 prot - PROT READ; 

584 o flags = 0 RDONLY; 

585 acc mode - S IRUGO; 

586 } else { 

587 prot = PROT READ | PROT_WRITE; 
588 o flags = O_RDWR; 

589 acc mode = S TRUGO | S IWUGO; 
590 } 

591 


参数 shmaddr 为 当前 进程 所 要 求 映射 的 目标 地 址 ， 也 就 是 映射 后 该 共享 内 存 区 .在 这 个 进程 的 用 户 
空间 中 的 起 始 地 址 。 这 个 地 址 一 般 应 该 能 被 一 个 常数 SHMLBA BK. X5 XDE 
include/asm-i386/shmparam.h 中 定义 为 PAGE. SIZE, 所 以 实际 上 这 意味 着 与 页 面 的 边界 对 齐 。 如 采 调 用 
参数 shmaddr 不 能 被 SHMLBA ER, BLEEK shmflg 中 的 SHM_RND 标志 设 成 1， 这 样 sys_shmat( ) 就 
会 自动 将 此 地 址 加 以 调整 C, 573—574 行 )。 参 数 shmaddr 也 可 以 是 0， 内 核 会 根据 当前 进程 的 虚 存 空 
间 使 用 情况 为 其 分 配 一 个 。 从 代码 中 可 以 看 出 ， 在 这 两 种 情况 下 ， 将 flags 中 的 MAP. FIXED 标志 位 分 
别 设置 成 1 和 0, 以 后 将 根据 这 个 标志 位 作 相应 的 处 理 。 此 外 , 还 要 将 参数 shmflg 中 的 SHM_RDONLY 
标志 位 转换 成 若干 用 于 内 存 映 射 和 文件 访问 的 标志 ， 因 为 对 共享 内 存 区 的 管理 涉及 这 两 个 方面 。 我 们 
继续 往 下 看 : 


[sys_shmat( )] 


592 /* 
593 * We cannot rely on the fs check since SYSV IPC does have an 
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594 * aditional creator id... 
595 */ 

596 shp = shm lock(shmid); 
597 if(shp == NULL) 

598 return -EINVAL; 

599 if (ipcperms(&shp ^shm perm, acc mode)) { 
600 shm unlock (shmid) ; 

601 return -EACCES; 

602 } 

603 file = shp->shm file; 

604 shp->shm_nattcht +: 

605 shm_unlock (shmid) ; 

606 


参数 shmid 为 共享 内 存 区 的 一 体 化 标识 号 ， 通 过 shm_lock( ) 就 可 以 找到 代表 这 个 共享 内 存 区 的 
shmid kernel 数据 结构 ， 并 且 加 锁 。 可 想 而 知 ，shm_lock( ) 与 前 - - 节 中 的 msg lock ) 应 该 很 和 相似。 事实 
十 ， 两 者 确实 是 一 样 的 : 


50 #define shm lock(id) ((struct shmid kernel*)ipc lock(&shm ids, id)) 
找到 了 目标 共享 区 并 将 其 锁 住 以 后 ， 就 来 检查 访问 权限 ， 函 数 ipcperms( ) 的 代码 见 前 cs. FERS 
内 存 区 访问 权限 的 管理 与 文件 系统 访问 权限 的 答 理 相似 ， 读 者 可 参阅 第 s 章 中 有 关 的 内 容 。 通 过 了 对 
访问 权限 的 检验 ， 就 进入 实质 性 的 阶段 了 ; 


[sys shmat( )] 


607 down (&current-^mm-^mmap sem); 

608 user addr = (void *) do mmap (file, addr, file->f_dentry->d_inode i size 
prot, flags, 0); 

609 up (&current—>mm->mmap_ sem); 

610 

611 down (&shm ids. sem) ; 

612 if(! (shp = shm lock(shmid))) 

613 BUG( ) ; 

614 shp-^5shm nattch--; 

615 if(shp-^shm nattch -= 0 && 

616 shp-^shm flags & SHM DEST) 

617 shm destroy (shp); 

618 shm unlock (shmid) ; 

619 up (&shm ids. sem) ; 

620 

621 *raddr = (unsigned long) user addr; 

622 err = 0; 

623 if (IS ERR(user addr)) 

624 err - PTR ERR(user addr); 

625 return err; 
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626 
627 } 


从 代码 中 可 见 ， 实 质 性 的 操作 就 是 通过 do_mmap( ) #57 #00 ( 5 MEAP A8 TR] HRT. A R AR 
码 已 经 在 第 2 章 中 阅读 过 了 ， 读 者 不 妨 回 过 去 复习 F. K, E do mmap ) 的 执行 过 程 中 有 一 些 根 
据 具 体 条 件 执行 的 操作 ， 有 必要 结合 建立 共享 内 存 区 这 人 么 一 个 具体 的 情景 冉 把 这 个 过 程 走 一 遍 ， 并 作 
些 补 充 的 说 明 。 

在 do mmap( ) 中 ， 先 对 文件 和 [区间 两 方面 都 作 一 些 检查 ， 包 括 起 始 地 址 与 长 度 、 已 经 映射 的 次 数 
等 等 ， 然 后 进一步 调用 do, mmap. pgoff( ) 建 立 映射 。 


[sys_shmat( ) > do mmap( ) > do_mmap_pgoff( )] 


188 unsigned long do mmap pgoff(struct file * file, unsigned long addr, 
unsigned long len, 

189 unsigned long prot, unsigned long flags, unsigned long pgoff) 

190 { 


250 /* Obtain the address to map to. we verify (or select) it and ensure 
251 * that it represents a valid section of the address space. 
252 */ 

253 if (flags & MAP_FIXED) { 

254 if (addr & "PAGE MASK) 

255 return —EINVAL; 

256 } else { 

257 addr = get_unmapped_area(addr, len); 

258 if (laddr) 

259 return —ENOMEM; 

260 } 


前 面 讲 过 ， 如 果 在 调用 shmat( ) 时 的 参数 shmaddr 为 0， 则 在 sys shmat( ) 中 将 flags 中 的 标志 位 
MAP FIXED 设 成 0， 表示 应 由 内 核 给 分 配 一 个 。 现 在 就 通过 get unmapped area( RIFT. m 
数 get unmapped area( ) 的 代码 在 mm/mmap.c 中 : 


[sys_shmat( ) > do_mmap( ) > do. mmap. pgoff( ) > get unmapped area( )] 


374 /* Get an address range which is currently unmapped. 

375 * For mmap( ) without MAP FIXED and shmat( ) with addr=0. 

376 * Return value 0 means ENOMEM. 

377 */ 

378 #ifndef HAVE ARCH UNMAPPED AREA 

379 unsigned long get_unmapped_area (unsigned long addr, unsigned long len) 
380 { 

381 struct vm area struct * vmm; 

382 
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383 if (len > TASK SIZE) 

384 return 0; 

385 if (!addr) 

386 addr = TASK UNMAPPED BASE; 

387 addr = PAGE ALIGN (addr) ; 

388 

389 for (vmm = find vma(current-^mm, addr); ; vmm = vmm-»vm next) { 
390 /* At this point: (!vmm || addr < vmmvm end). */ 
391 if (TASK SIZE - len < addr) 

392 return 0; 

393 if (!vmm || addr + len <= vmm vm start) 

394 return addr; 

395 addr = vmm-5vm end; 

396 } 

397 } 

398 #endif 


读者 自行 阅读 这 段 程序 应 该 不 会 有 困难 。 这 里 的 常数 TASK UNMAPPED BASE 是 在 
include.asm-i386/processor.h 中 定义 的 : 


263 /* This decides where the kernel will search for a free chunk of vm 
264 * space during mmap s 

265 */ 

266 #define TASK UNMAPPED BASE (TASK SIZE / 3) 


也 就 是 说 ， 当 给 定 的 目标 地 址 为 0 时， 内 核 从 “TASK_SIZE/3) 即 1GB 处 开始 向 上 在 当前 进程 的 
虚 存 空间 中 寻找 一 块 足以 容纳 给 定 长 度 的 区 间 。 而 当 给 定 的 目标 地 址 不 为 0 时 ， 则 从 给 定 的 地 址 开始 
向 上 寻找 。 函数 find. vma( ) 在 当前 进程 已 经 映射 的 虚 存 空间 中 找到 第 .个 满足 vma -> vm_end， 即 大 于 
给 定 地 址 的 区 间 。 如 果 找 不 到 这 么 一 个 区 间 。 那 就 说 明 给 定 的 地 址 尚未 映射 ， 因 而 可 以 使 用 或者， 
如 果 所 找到 区 间 的 起 始 地 址 高 于 给 定 地 址 加 给 定 区 间 长 度 ， 那 就 说 明 在 所 找到 区 闻 之 下 有 个 足够 大 的 
空洞 ， 因 此 也 可 以 使 用 给 定 的 地 址 。 

至 此 ， 只 要 返回 的 地 址 非 0，addr 就 已 经 是 一 个 符合 各 种 要 求 的 虚 存 地 址 了 。 我 们 回 到 
do_mmap_pgoff( ) 中 继续 往 下 看 (mm/mmap.c?: 


[sys. shmat( ) > do mmap( ) > do mmap. pgoff( )] 


262 /* Determine the object being mapped and call the appropriate 
263 * specific mapper. the address has already been validated, but 
264 * not unmapped, but the maps are removed from the list 

265 */ 

266 vma = kmem cache alloc (vm area, cachep, SLAB KERNEL); 

267 if (!vma) 

268 return —ENOMEM; 

269 

270 vma-»vm mm = mm; 

271 vma->vm start = addr; 
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每 个 虚 存 区 间 都 要 有 个 vm. area, struct 数据 结构 , 所 以 通过 kmem | cache, alloc( ) 为 待 映 射 的 区 间 分 
配 ， :个 ,并 加 以 设置 。 如果 调用 do_mmap_pgoff( ) 时 的 file 结构 指针 为 0, 则 目的 仅 存 于 创建 虚 存 区 间 ， 
或 者 说 仅 在 十 建立 从 物理 空间 到 虚 存 区 间 的 映射 。 侧 如 果 昌 的 在 于 建立 从 文件 到 虑 存 区 闻 的 映射 ， 那 
就 归 把 为 文件 设置 的 访问 权限 考察 进去 。 全 此， 代表 着 我 们 所 带 虚 他 区 间 的 数据 结构 已 经 创建 了 (不 
过 尚未 插入 代表 着 当前 进程 虚 存 空间 的 mm_struct 结构 中 )。 可 是 , 在 基 些 条 件 下 却 还 不 得 不 将 它 撤销 。 
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vma-^vm end = addr + len; 
vma-^vm flags = vm flags(prot, flags) | mm-^def flags; 


if (file) { 
VM ClearReadHint (vma) ; 
vma-?vm raend - 0; 


if (file->f mode & FMODE READ) 

vma-»vm flags |= VM MAYREAD | VM MAYWRITE | VM MAYEXEC; 
if (flags & MAP SHARED) { 

vma->vm_ flags |= VM SHARED | VM MAYSHARE; 


/* This looks strange, but when we don't have the file open 

* for writing, we can demote the shared mapping to a simpler 
private mapping. That also takes care of a security hole 
with ptrace( ) writing to a shared mapping without write 
permissions. 


* 
* 
* 
* 
* We leave the VM MAYSHARE bit on, just to get correct output 
* from /proc/xxx/maps. . 
*/ 
if (!(file >f mode & FMODE WRITE)) 
vma:»vm flags &- "(VM MAYWRITE | VM SHARED); 
} 
} else { 
yma->vm_flags |= VM MAYREAD | VM MAYWRITE | VM MAYEXEC; 
if (flags & MAP. SIIARED) 
vma-^vm flags |= VM SHARED | VM MAYSHARE; 
) 
vma-^vm page prot = proteciion map[vma->vm flags & Ox0f]; 
vma-?vm ops = NULL; 
vma-?vm pgoff ~ pgoff; 
vma-»vm file = NULL; 
vma~>vm_ private data = NULL; 


为 什么 呢 ? 我 们 继续 往 下 看 : 


[sys_shmat( ) > do mmap( ) > do_mmap_pgoff( )] 


307 
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308 error = —ENOMEM; 

309 if (do munmap(mm, addr, len)) 

310 goto free vma; 

311 

312 /* Check against address space limit. */ 

313 if ((mm-^total vm << PAGE SHIFT) + len 

314 > current-^rlim[RLIMIT AS]. rl im cur) 

315 goto free vma; 

316 

317 /* Private writable mapping? Check memory availability.. */ 
318 if ((vma-^vm flags & (VM SHARED | VM WRITE)) == VM WRITE && 
319 ! (flags & MAP NORESERVE) && 

320 !vm enough memory(len >> PAGE SHIFT)) 

321 goto free vma; 

322 


在 付 么 条 件 下 要 把 已 经 创建 〈 但 是 尚未 生效 ) 的 vm, area, struct 数据 结构 撤销 呢 ? 首先 ， 这 里 调用 
了 一 个 函数 do_munmap( )。 它 检查 目标 地 址 在 当前 进程 的 虚 存 空间 是 否 已 经 在 使 用 , 如 果 已 经 在 使 用 ， 
就 要 将 老 的 映射 去 除 ， 将 老 的 区 间 释 放 。 要 是 这 个 操作 失败 ， 堵 当然 不 能 重复 映射 同 -- 个 月 标 地 址 ， 
所 以 就 得 转移 到 free_vma， 把 已 经 分 配 的 vm. area. struct 数据 结构 撤销 。 函 数 do_munmap( ) 的 代码 在 
mm/mmap.c 中 ， 读 者 已 经 在 第 2 章 中 读 过 它 的 代码 。 也 许 读者 会 感到 奇怪 ， 这 个 区 间 不 是 在 前 面 调用 
get_unmapped_area( ) 找 到 的 吗 ? 怎么 可 能 会 原来 就 已 有 映射 了 呢 ?” 回 过 头 去 注意 看 -下 就 可 知道 ， 邦 
只 是 当 调 用 参数 shmaddr 为 0 时 的 情况 ， 调 当 shmaddr 不 为 0 时 则 尚未 对 此 加 以 检查 。 

除 此 之 外 , 还 有 两 个 情况 也 会 导致 撤销 已 经 分 配 的 vm. area, struct 数据 结构 。 一 个 是 如 果 当 前 进程 
对 虚 存 空间 的 使 用 超出 了 为 其 设置 的 上 限 (313—315 行 )。 另 .个 是 在 要 求 建立 由 当前 进程 专用 的 可 写 
区 间 ， 而 物理 页 面 的 数量 已 经 (暂时) PA (318 一 321 行 )。 

读者 也 许 还 要 问 : 为 什么 不 把 对 所 有 条 件 的 检验 放 在 分 配 vm, area. struct 数据 结构 之 前 呢 ? 问题 在 
于 ,在 通过 kmem cache, alloc( ) 分 配 vm. area, struct 数据 结构 的 过 程 中 ， 有 可 能 会 发 生 供 这 种 数据 结构 
专用 的 slab 已 经 用 完 ， 而 不 得 不 补 人 充分 配 更 多 物理 页 面 的 情况 。 而 分 配 物理 页 面 的 过 程 ， 则 义 有 可 能 
因 一 时 不 能 满足 此 求 而 只好 先 调度 别 的 进程 运行 。 这 样 ， 当 前 进程 从 kmem_cache_alloc( ) 返 回 时 ， 可 
能 已 经 有 别 的 进程 或 线程 ， 特 别 是 由 本 进程 cone ) 出 来 的 线程 运行 过 了 ， 所 以 就 不 能 排除 这 些 条 件 已 
经 改变 的 可 能 。 所 以 ， 读 者 在 内 核 中 常常 能 看 到 先 分 配 某 项 资源 ， 然 后 检测 条 件 ， 如 果 条 件 不 符 再 将 
资源 释放 【而 不 是 先 检测 条 件 ， 后 分 配 资 源 ) 的 情景 。 关 键 就 在 于 分 配 资源 的 过 程 中 症 否 有 可 能 发 生 
调度 ， 以 及 其 他 进程 或 线程 的 运行 有 否 可 能 改变 这 些 条 件 。 以 这 里 的 第 三 个 条 件 为 例 ， 如 果 发 洼 过 调 
度 ， 那 就 显然 是 可 能 改变 的 。 

继续 往 下 看 do mmap. pgoff( ) 的 代码 (mm/mmap.c): 


[sys. shmat( ) > do_mmap( ) > do mmap pgoff( )] 


323 if (file) ( 

324 if (vma-^vm flags & VM DENYWRITE) { 
325 error = deny write access(filo); 
326 if (error) 

327 goto free vma; 
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328 correct wcount = 1; 

329 } 

330 vma->vm file = file; 

331 get file(file); 

332 error = file—^f op-^mmap(file, vma); 
333 if (error) 

334 goto unmap and free vma; 
335 } else if (flags & MAP SHARED) { 
336 error - shmem zero setup(vma); 
337 if (error) 

338 goto free vma; 

339 } 

340 


如 果 要 建立 的 是 从 文件 到 虚 存 区 闻 的 映射 ， 而 在 调用 do mmap( ) 时 的 参数 flags 中 的 
MAP DENYWRITE 标志 位 为 1〈 这 个 标志 位 在 前 面 273 行 引用 的 宏 操 作 vm_flags( ) 中 转换 成 
VM_PENYWRITE )， 那 就 表示 不 允许 通过 常规 的 文件 操作 对 此 文件 进行 号 访问 ， 所 以 要 调用 
deny_write_access( ) 排 斥 常 规 的 文件 操作 ， 详 见 “ 文 件 系统 ”一 章 中 的 有 关内 容 。 对 于 shm 文件 ， 读 者 
可 以 在 sys_shmat( ) 的 代码 中 看 出 这 个 标志 位 一 定 是 0， 所 以 不 存在 这 个 问题 。 这 是 因为 对 shm 文件 本 
来 就 不 允许 按 常规 的 可 写 文件 打开 。 

函数 get_file( ) 的 作用 只 是 递增 file 结构 中 的 共享 计数 。 

每 种 文件 系统 都 有 个 file operations 数据 结构 ， 其 中 的 函数 指针 mmap 提供 了 建立 从 该 类 文件 到 虚 
存 区 间 的 映射 的 操作 。 我 们 在 前 面 已 经 看 到 过 shm 文件 系统 的 file operations 数据 结构 ， 它 只 提供 一 种 
文件 操作 ， 那 就 是 mmap， 有 具体 的 函数 是 shm_mmap( )。 其 代码 在 ipc/shm.c P: 


[sys shmat( ) > do_mmap( ) > do mmap pgoff( ) > shm_mmap( )] 


155 static int shm mmap(struct file * file, struct vm area struct * vma) 
156 { 

157 UPDATE ATIME(file-^f dentry-^d inode); 

158 vma-?vm ops = &shm vm ops; 

159 shm inc(file-^f dentry-?d inode->i ino); 

160 return 0; 

161  )J 


这 个 函数 非常 简单 ， 实 质 性 的 操作 其 实 只 有 一 行 ， 那 就 是 158 行将 虚 存 区 间 控 制 结构 中 的 指针 
vm ops 设置 成 指向 数据 结构 shm_vm_ops。 这 个 结构 的 定义 为 ; 


167 static struct vm operations struct shm vm ops = { 

168 open: shm open, /* callback for a new vm-area open */ 

169 close: shm close, /* callback for when the vm-area is released */ 
170 nopage: shmem nopage, 

171 s 


读者 也 许 感到 困惑 ， 在 文件 与 虚 存 区 间 之 间 建 立 映 射 难道 就 这 么 简单 ? 其 实 ， 具 体 的 映射 是 非常 
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动态 、 经 常 在 变 的 。 所 谓 文件 与 虚 存 区 间 之 问 的 映射 包含 着 两 个 环节 ， 一 是 物理 页 面 与 文件 映 象 之 间 
的 换 入 / 换 出 ， 二 是 物理 页 面 与 虚 存 页 面 之 间 的 映射 。 这 二 者 都 是 很 动态 的 ， 所 以 ， 重 要 的 并 不 是 建立 
起 一 个 特定 的 映射 ， 而 是 建立 起 一 套 机 人 制 ， 使 得 一 旦 需 娶 时 就 可 以 根据 当时 的 具体 情况 建立 起 新 的 映 
射 。 另 一 方面 ， 在 计算 机 技术 中 有 一 个 称 为 "lazy computation ”的 概念 ， 就 是 说 有 些 为 将 来 作 某 种 准 
备 而 进行 的 操作 (计算 ) 应 该 推迟 到 真正 需要 时 才 进 行 。 这 是 因为 实际 运行 中 的 情况 千 变 方 化 ， 有 时 
候 伦 了 老大 的 劲 才 完成 了 准备 ， 实 际 上 却 根本 没有 用 到 ， 或 者 只 用 到 了 很 小 -部 分 ， 从 而 造成 了 浪费 。 
就 以 这 里 共享 内 存 区 的 映射 来 说 ， 也 许 上 共享 区 的 大 小 是 100 个 页 面 ， 而 实际 上 在 相当 长 的 时 间 里 只 用 
到 了 其 中 的 一 个 页 面 ， 而 映射 99 个 页 面 的 开销 都 不 是 可 以 忽略 不 计 的 。 何况， 长 期 不 用 的 页 面 还 得 费 
劲 把 它们 换 出 哩 。 考 虑 到 这 些 因素 ， 还 不 如 到 真正 需要 用 到 一 个 页 面 时 再 来 建立 其 映射 ， 用 到 几 个 页 
面 就 映射 几 个 页 面 。 当 然 ， 邦 样 很 可 能 会 因为 分 散 处 理 而 使 具体 上 映射 每 -个 页 面 的 开销 增加 ， 所 以 这 
里 有 个 权衡 利 次 的 问题 ， 其 体 的 决定 往往 要 建立 在 统计 的 基础 上 。 这 里 ， 对 十 共享 内 存 区 的 映射 正 是 
运用 了 这 个 概念 ， 把 具体 页 面 的 映射 推迟 到 了 真正 需要 的 时 候 才 进 行 。 具体 地 ， 就 是 为 物理 页 面 的 换 
入 〔 以 及 为 映射 的 建立 而 准备 的 下 一 个 函数 ， 这 就 是 shm_nopage( ))。 等 一 下 我 们 还 会 回 到 这 个 话题 上 
来 。 

EIF] do_mmap_pgoff( ) 的 代码 中 ， 把 共享 内 存 区 的 vm area, struct 结构 插入 当前 进程 的 虚 存 空间 ， 
就 完成 了 共享 内 存 区 映射 机 制 的 建立 ， 虽然 具体 页 面 的 映射 都 尚未 建立 。 

回 到 sys shmat( ) 的 代码 。 最 后 通过 参数 raddr 返回 实际 的 映射 地 址 。 Jb. sys shmat( ) 的 操作 就 
基本 完成 了 ， 给 定 的 共享 内 存 区 已 经 纳入 了 当前 进程 的 存储 空间 。 

如 前 所 述 ， 在 sys_shmat( ) 中 实际 上 并 没有 建立 页 面 的 映射 ， 而 是 把 它 推 迟到 了 实际 需要 的 时 候 。 
所 以 ， 在 将 一 块 共享 内 存 区 纳入 一 个 进程 的 存储 空间 以 后 ， 当 其 中 的 任何 一 个 页 面 首次 受到 访问 时 就 
会 因为 “ 缺 页 ”而 产生 一 次 页 面 异常 。 读音 不 妨 问 到 第 2 章 中 ， 从 do page fault( ) 开 始 ， 顺 着 
handie_mm_fault( )、handle_pte_fault( )， 一 直到 do_no_page( )。 在 do_no_page( ) 中 ， 如 果 产 牛 异常 的 地 
址 所 属 区 间 的 指针 vm_ops 指向 一 个 vm operations struct 数据 结构 ， 并 且 该 结构 中 的 函数 指针 nopage 
非 零 ， 就 会 调用 这 个 也 数 来 建立 所 在 页 面 的 映射 表 项 。 下 面 是 do_no_page( ) 中 的 :一 个 片段 ， 


[do page fault( ) > handle mm fault( ) > handle pte fault( ) > do no. page( )] 


1097 if (!vma-^vm ops || ! vma—>vm_ops—>nopage) 

1098 return do anonymous page (mm, vma, page table, write access, address); 
1099 

1100 /* 

1101 * The third argument is ^no share”, which telis the low-level code 
1102 * to copy, not share the page even if sharing is possible. It’s 
1103 * essentially an early COW detection. 

1104 */ 

1105 new page = vma-»vm ops-?nopage(vma, address & PAGE MASK, 


(vma~>vm flags & VM SHARED)? O:write access); 
1123 entry - mk pte(new page, vma-?vm page proi); 


1129 set pte(page table, entry); 


读者 在 前 面 已 经 看 到 ， 对 十 共享 内 存 区 内 的 页 面 , 这 个 指针 指向 shmem nopage( )。 其 代码 在 shm.c 
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中 ， 我 们 又 得 分 段 来 看 : 


{do .page_fault( ) > handle_mm_fault( ) > handle_pte_fault( ) > do_no_page( ) shmem nopaget )] 


237 /* 
238 * shmem nopage - either get the page from swap or allocate a new one 
239 * 
240 * If we allocate a new one we do not mark it dirty. That's up to the 
241 * vm. Tf we swap it in we mark it dirty since we also free the swap 
242 * entry since a page cannot live in both the swap and page cache 
243 */ 
244 struct page * shmem nopage (struct vm area struct * vma, 
unsigned long address, int no_share) 
245 d 
246 unsigned long size; 
247 struct page * page; 
248 unsigned int idx; 
249 swp entry t *entry; 
250 struct inode * inode = vma~>vm_file->f_dentry->d_inode; 
251 struct address space * mapping = inode->i_mapping; 
252 struct shmem inode info *info; 
253 
254 idx = (address - vma->vm start) >> PAGE SHIFT; 
255 idx += vma—>vm_pgoff; 
256 
257 down (&inode->i sem); 
258 size = (inode->i size + PAGE CACHE SIZE - 1) >> PAGE CACHE SHIFT; 
259 page = NOPAGE SIGBUS; 
260 if ((idx >= size) && (vma-^vm mm == current—^mm)) 
261 goto out; 
262 
263 /* retry, we may have slept */ 
264 page = . find lock page(mapping, idx, page hash (mapping, idx)); 
265 if (page) 
266 goto cached page; 
267 
268 info = &inode->u. shmem i; 
269 entry = shmem swp entry (info, idx); 
270 if (tentry) 
211 goto oom; 


先 计 算出 真 面 在 所 映射 文件 ， 即 共享 内 存 区 内 的 页 面 号 idxe WRES GERRI) FFE He (DC E 
整个 共享 内 存 区 之 问 有 位 移 ， 就 要 把 位 移 也 考虑 进去 (0255 行 )。 算 出 页 面 号 以 后 ， 就 可 以 通过 
. find lock page( ) 在 杂凑 表 队 列 中 寻找 该 页 面 的 page 结构 。 如 果 找 到 了 , 那 就 说 明 这 个 页 面 已 经 在 内 
存 中 的 页 面 缓冲 队列 里 ， 只 要 重建 映射 就 可 以 了 。 否 则 ， 就 此 通过 shmem swp entry( ) 进 一 步 确定 这 个 
页 而 是 从 未 映射 ， 还 是 已 经 换 出 到 交换 栓 区 上。 这 个 函数 的 代码 在 mm/shmem.c 中 ， 这 是 了 解 共享 内 
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存 区 内 页 面 换 出 / 换 入 操作 的 关键 。 


[do page fault( ) > handle mm, fault( ) > handle pte fault() > do no page( ) > shmem_nopage( ) 
> shmem swp entry( )] 


static swp entry t * shmem swp entry (struct shmem inode info *info, 
unsigned long index) 


52 ^4 
53 if (index < SHMEM NR. DIRECT) 
54 return info->i_directtindex; 
55 
56 index -- SHMEM NR DIRECT; 
57 if (index >= ENTRIES PER PAGE*ENTRIES PER PAGE) 
58 return NULL; 
59 
60 if (linfo->i_indirect) { 
61 info->i_indirect = (swp eniry t **) get zeroed page (GFP USER); 
62 if (linfo-i indirect) 
63 return NULL; 
64 } 
65 if (! Gnfo->i_indirect [index/FNTRIES_PER_PAGE])) { 
66 info->i_indirect{index/ENTRIES PER PAGE] = 
(swp_entry_t *) get zeroed page(GFP USER); 
67 if (!info->i indirect[index/ENTRIES PER PAGE]) 
68 return NULL; 
69 } 
70 
71 return info 5i indirect[index/ENTRIES PER PAGE] + index%ENTRIES PER PAGE: 
72 1) 


读者 在“ 文件 系统 ”一 章 中 已 经 知道 ，inode 结构 中 有 个 union， 根 据 文件 系统 的 不 同 而 解释 成 不 
间 的 数据 结构 。 对 于 shm 文件 系统 ， 这 个 union 解释 成 shmem inode info 数据 结构 ， 定 义 于 
include/linux/shmem fs.h 中 


16 typedef struct ( 


17 unsigned long val; 

18 } swp entry t; 

19 

20 struct shmem inode info { 

2l spinlock t. lock; 

22 swp entry t i direct[SHMEM NR DIRECT]; /* for the first blocks */ 
23 swp eniry t — ^**i indirect; /* doubly indirect blocks */ 
24 unsigned long swapped; 

25 int locked; /* into memory */ 

26 struct list head iist; 

27 ] 
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结构 中 引用 的 类 型 swp_entry_t 实际 上 就 是 32 位 无 符号 整数 ， 若 为 非 0 就 表示 个 页 面 在 交换 


设备 上 的 页 面 号 。 数 组 i_direct[ ] 代 表 着 一 个 共享 内 存 区 的 开头 16 个 页 面 ， 即 64K FT 

(SHMEM_NR_DIRECT 定义 为 16)。 对 于 一 般 的 共享 内 存 区 ， 这 个 大 小 已 经 够 了 。 如 果 不 够 ， 就 通过 
指针 i indirect 引入 间接 映射 ， 这 个 指针 指向 一 个 用 作 指 针 数 组 的 页 面 。 页 面 中 是 1024 个 指针 ， 每 个 
指针 又 指向 另 一 个 用 作 swp_entry_t 数组 的 页 面 ， 每 个 负面 中 可 以 容纳 1024 项 swp_entry_t。 这 样 ， 总 
的 潜在 的 容量 是 1M 个 页 面 ， 即 4G 字 节 ! 显然 ， 这 种 机 制 与 Ext2 文件 系统 的 多 重 间接 映射 相似 ， 但 
要 简单 一 些 。 原 因 是 这 些 数 据 结构 和 数组 不 需 归 存储 在 磁盘 上 。 函数 shmem_swp_entry( ) 返 回 指向 目标 
swp. entry. t 项 的 指针 。 这 个 指针 不 应 为 0。 为 0 时 就 说 明 分 瑟 不 到 用 于 间接 映射 的 负面 , 所 以 转向 oom 
作 “Out-Of-Memory” 出 错 处理 。 只 要 这 个 指针 有 效 ， 根 据 swp_entry_t 的 内 容 就 可 以 判断 页 面 是 否 在 
交换 设备 上 。 我 们 继续 往 下 看 ; 


[do page fault()» handle mm fault() > handle_pte_fault( ) > do_no_page( ) > shmem_nopage( )] 


272 
273 
274 
275 
276 
277 
278 
279 
280 
281 
282 
283 
284 
285 
286 
281 
288 
289 
290 
291 
292 


293 
294 
295 
296 
297 


if (entry-^val) { 


unsigned long flags; 


/* Look it up and read it in.. */ 
page = lookup swap cache(*entry); 
if (!page) { 

lock kernel( ); 

swapin readahead(kentry); 

page = read swap cache (*entry) ; 

unlock kernel ( ); 

if (!page) 

goto oom; 


) 


/* We have to this with page locked to prevent races */ 

spin lock (&info->lock) ; 

swap. free (entry); 

lock page(page); 

delete from swap cache nolock(page): 

*eniry = (swp entry t) {0}; 

flags = page->flags & ~((1 «€ PG uptodate) | (1 << PG error) | 
(1 << PG referenced) © (1 «€ PG arch, D); 

page->flags = flags | (1 << PG dirty); 

add to page cache locked(page, mapping, idx); 

info-^swapped--; 

spin unlock (&info->lock) ; 


} else { 


WR HER swp. entry. t 项 的 值 为 非 0， 就 表示 日 标 页 面 在 灾 换 设备 上 ， 所 以 要 把 页 面 换 入 。 对 于 淮 


真 阅读 过 第 2 章 中 有 关 换 出 / 换 入 操作 的 读者 ， 余 下 的 代码 已 经 不 难 埋 解 了 。 不 过 要 注意 291 行 ， 在 把 
目标 页 面 读 入 内 存 以 后 ， 这 里 把 页 面 的 swp_entry_t 项 清 0， 就 是 说 ， 一 个 页 面 的 swp_entry_t 项 为 0， 


- 822. 


第 6 章 传统 的 Unix 进程 间 通 信 
既 可 以 表示 页 面 从 未 映射 ， 也 可 以 表示 该 页 面 在 内 存 中 。 这 样 做 并 无 不 有 要， 因为 如 果 页 面 在 内 存 中 就 
定 在 缓冲 队列 中 ， 前 面 的 __find_lock_page( ) 就 应 成 功 ， 或 者 根本 就 不 会 发 生 缺 页 异常 ， 而 不 会 到 达 
上 面 的 268 行 了 。 
我 们 继续 往 下 看 swp. entry t 的 值 为 0 时 的 情景 : 


[do page. fault( ) > handle_mm_fault( ) > handle pte fault( ) > do_no_page( ) > shmem nopage( )] 


297 } else { 

298 spin lock (&inode-^i sb-^u. shmem sb.stat lock); 
299 if (inode—i sb-^u. shmem sb. free blocks == 0) 
300 goto no space; 

301 inode->i_sb->u. shmem sb. free blocks--; 

302 spin unlock (&inode->i_sb—>u. shmem sb. stat lock); 
303 /* Ok, get a new page */ 

304 page = page cache alloc( ); 

305 if (!page) 

306 goto oom; 

307 clear user highpage(page, address); 

308 inode-^i blocks-**; 

309 add to page cache (page, mapping, idx); 

310 } 

311 /* We have the page */ 

312 SetPageUptodate (page); 

313 

314 cached page: 

315 UnlockPage (page); 

316 up(&inode-^i sem); 

317 

318 if (no share) { 

319 struct page *new page = page cache alloc( ); 
320 

321 if (new page) { 

322 copy user highpage(new page, page, address): 
323 flush page to ram(new page); 

324 } else 

325 new page = NOPAGE OOM; 

326 page cache release(page): 

327 return new_page; 

328 } 

329 

330 flush page to ram (page); 

331 return (page) : 

332 no_space: 

333 spin unlock (&inode->i_sb—>u. shmem sb. stat lock); 
334 oom: 

335 page - NOPAGE 00M; 

336 out: 
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337 up(&inode->i_sem) ; 
338 return page; 
339 } 


既然 执行 到 了 272 行 ， 而 目标 swp. entry. t 项 的 值 又 为 0， 那 就 只 有 -- 个 解释 ， 就 是 目标 页 面 从 未 
映射 过 。 所 以 , 这 里 通过 page_cache_alloc( ) 分 配 个 宁 闲 内 存 页 面 ， 并 道 过 clear_user_highpage( ) 将 该 
页 面 清 成 全 0， 再 将 其 链 入 缓冲 页 面 队列 中 。 

至 此 ， fub cached page 处 时 ， 我 们 要 么 从 缓冲 页 面 队列 里 找到 了 有 目标 页 面 ， 要 么 已 经 新 
分 配 了 一 个 空闲 页 面 并 已 将 其 链 入 缓冲 页 面 队 列 。 此 时 还 要 考虑 到 一 个 特殊 情况 ， 那 就 是 如 果 调 用 
ee ) 时 的 参数 no, share {F 0 CH do_no_page( ) 中 的 1105 行 )， 则 表示 页 面 所 在 的 虚 存 区 间 
实际 上 不 允许 共享 , 此 时 需 此 通过 copy_user_highpage( ) 为 目标 页 而 , 复制 - 份 由 当前 进程 专用 的 副本 。 
最 后 ， 将 指向 日 标 页 面 page 结构 或 其 副本 的 指针 返回 给 do_no_page( )， 由 do_no_page( ) 和 在 当前 进程 的 
页 面 映 射 表 中 建立 起 映射 。 

还 要 说 明 -点 特殊 之 处 。 读 者 在 第 2 章 中 看 到 ， 对 丁 普通 的 存储 空间 映射 ， 当 一 个 负面 的 映射 其 
开 时 ， 即 物理 页 面 不 在 内 存 时 ， 相 应 页 面 映 射 表 项 中 的 P 标 志 位 为 0， 但 是 整个 表 项 并 不 是 0， 此 时 的 
表 项 指明 了 页面 的 去 向 。 但 是 ， 对 于 通过 do mmap ) 建 立 的 文件 映射 ， 却 不 需要 由 抽 面 映射 表 中 的 表 
项 来 指明 页 面 的 去 向 ， 所 以 当 页 面 不 在 内 存 中 时 友 项 的 内 容 为 全 0〈 参 看 第 2 章 中 try_to_swap_out( ) 
的 有 关 代码 ， 特 别 是 83，125，135 以 及 101—107 行 )。 对 十 普通 文件 的 映射 ， 文 件 的 inode 结构 中 已 
经 提供 了 所 需 的 全 部 信息 ， 包 括 文件 的 内 容 存储 在 哮 一 个 设备 上 ， 目 标 页 面 义 映射 到 设备 上 的 哪 几 个 
记录 块 。 对 于 共享 内 存 区 文件 ， 其 inode 结构 同样 也 提供 了 所 需 的 全 部 信息 ， 只 不 过 文件 的 内 容 总 是 存 
储 在 交换 设备 |:， 并 且 映 射 的 方式 也 略 有 个 同 币 已 。 

建立 起 对 共享 内 存 区 页 面 的 映射 以 后 ， 有 关 的 进程 就 可 以 像 对 一 般 存储 页 血样 地 读 写 。 每 当 访 
HI AB. CPU 中 的 春 件 保证 了 将 相应 页 面 表 项 中 的 _PAGE_ACCESSED 标志 位 设 成 1， 如 琳 是 
宇 访 问 则 还 要 将 _PAGE_DIRTY 标志 位 也 设 成 1。 通 过 检查 页 面 表 项 中 的 这 些 标志 位 ， 就 叫 以 知道 参与 
共享 的 各 个 进程 是 否 沪 问 了 这 个 页 面 ， 以 及 是 否 写 访问 。 


髓 来 看 页 面 的 换 出 。 在 第 2 章 中 ， 读 者 看 到 内 核 线程 kswapd( ) 通 过 一 个 函数 page_launder( ) 扫 描 
inactive dirty list 队列 ， 将 已 经 受到 过 写 访 问 ， 但 是 已 经 不 活跃 的 页 面 与 到 区 换 设备 或 者 文件 中 去 。 除 
kswapd( ) 以 外 ， 另 一 个 内 核 线程 bdflush( ) 也 会 调用 page launder( )， 还 有 设备 驱动 层 的 block write( )， 
block read( ), bread( ) 以 及 exi2, getblk( )2& :K Atk iM getblk( ) 和 refill freelist( ), FEHR US HI 
page. launder( ), FLA, page launder( ) 受 到 调用 的 机 会 是 很 多 的 。 下 面 是 page_launder( ) 中 的 一 个 片段 : 


[kswapd( ) > do. try. to free pages( ) > page_launder( )] 


537 f* 

538 * Dirty swap-cache page? Write it out if 

539 * last copy.. 

540 */ 

541 if (PageDirty (page)) { 

542 int (*writepage) (struct page *) = page-?mapping-^a ops-?writepage; 
543 int result; 

544 
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545 if ('writepage) 

546 goto page active; 

547 

561 result = writepage (page) ; 
571 } 


对 十 共 训 内存 区 的 页 面 ， 写 入 的 日 标 是 文件 ， 但 是 这 个 文件 在 交换 设备 上 。 读 者 在 第 2 章 中 看 到 ， 
页 面 的 page 数据 结构 中 有 个 指针 mapping， 指 向 一 个 address space 数据 结构 ， 这 个 数据 结构 通常 就 在 
负面 属 文件 的 inode 结构 内 部 。 在 address space 结构 里 面 有 三 个 队列 头 ， 即 clean pages. dirty_pages 
以 及 locked. pages. 属于 同 … 文 件 的 ” 脏 ” 页 面 都 挂 在 这 个 文件 的 dirty. pages 队列 中 ,同时 ， address_space 
结构 里 面 又 有 个 指针 a_ops， 指 向 所 属 文件 系统 的 address_space_operations， 这 是 在 创建 具体 文件 的 
inode 结构 时 设置 好 了 的 。 对 于 shm 文件 系统 ， 这 个 数据 结构 是 shmem_aops， 它 提供 了 shm 文件 系统 
的 writepage 函数 shmem, writepage( )， 其 代码 在 mm/shmem.c P: 


[kswapd( ) > do try to free pages( ) > page_launder( ) > shmem writepage( )] 


194 /* 

195 * Move the page from the page cache to the swap cache 
196 */ 

197 static int shmem writepage (struct page * page) 
198 { 

199 int error; 

200 struct shmem inode info *info; 

: 201 swp entry t *entry, swap; 

202 

203 info = &page->mapping—>host~->u. shmem i; 

204 if (info— locked) 

205 return 1; 

206 Swap = __get_swap_page(2); 

207 if (!swap. val) 

208 return 1; 

209 

210 spin lock(&info-»lock); 

211 entry ~ shmem swp entry (info, page->index) ; 
212 if (lentry) /* this had been allocted on page allocation */ 
213 BUG( ) ; 

214 error - -EAGAIN; 

215 if (entry val) { 

216 __ swap free(swap, 2); 

217 goto out; 

218 ] 

219 

220 *entry = swap; 

221 error = 0; 
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222 
223 
224 
225 
226 
227 
228 
229 
230 
231 
232 
233 
234 
235 


这 里 通过 get swap page( ) 从 交换 设备 上 分 配 … 个 页 面 。 注 意 这 里 的 调用 参数 为 2， 表示 应 将 所 
分 配 的 页 面 的 使 用 计数 设置 成 2， 而 不 是 要 分 配 两 个 页 面 。 接 着 ， 根 据 物 理 页 面 号 ， 通 过 
shmem_swp_entry( ) 在 文件 的 swp_entry 上 表 中 找到 相应 的 表 项 。 如 果 表 项 的 内 容 为 非 0, 就 表示 这 个 页 
面 在 交换 设备 上 已 经 有 对 应 页 面 了 ， 所 以 此 时 要 通过 __swap_free( ) 归 还 刚才 分 配 到 的 盘 上 页 面 。 

然后 ， 把 页 面 从 LRU 队列 中 脱 链 ， 转 移 到 交换 设备 的 换 出 队列 swapper_space 中 ， 并 且 将 其 page 
结构 中 的 指针 mapping 设置 成 指向 swapper_space. IXA~ -来 ， 当 page_launder( ) 再 次 扫描 到 这 个 页 面 
时 ， 它 的 writepage 函数 就 变 成 由 swapper_space 通过 swap_aops 提供 的 swap_writepage( ) 了 。 此 后 的 操 
作 就 与 普通 页 面 的 换 出 完全 相同 了 ， 因 为 这 些 页 面 同样 是 以 交换 设备 为 目标 的 。 为 方便 读者 阅读 ， 我 


out: 


) 
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/* Remove the from the page cache */ 
iru cache del (page) ; 
remove inode page (page); 


/* Add it to the swap cache */ 
add to swap cache(page, swap); 
page cache release(page); 

set page dirty(page); 
info-^swapped-**; 


spin unlock (&info->lock) ; 
UnlockPage (page) ; 
return error; 


们 在 这 里 列 出 两 个 有 关 的 函数 : 
[kswapd( ) > do_try_to_free_pages( ) > page_launder( ) > swap. writepage( )] 
20 static int swap writepage (struct page *page) 
21 { 
22 rw swap page(WRITE, page, 0); 
23 return 0; 
24 |] 

[kswapd( ) > do. try. to. free pages( ) > page launder( ) > swap writepage( ) > rw swap page( )] 
107 void rw swap page(int rw, struct page *page, int wait) 
108 ( 

109 swp entry t entry; 

110 

111 entry. val = page-^index; 
112 

113 if (!PageLocked (page) ) 
114 PAGE BUG (page); 

115 if (!PageSwapCache (page) ) 
116 PAGE. BUG (page) ; 
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117 if (page->mapping !- &swapper space) 
118 PAGE BUG (page) ; 
119 if (!rw swap page base(rw, entry, page, wail)) 
120 UnlockPage (page) ; 
1231  ] 
再 往 下 就 是 设备 驱动 的 事 了 。 


读者 大 概 注意 到 了 ，shm_vm_ops 中 还 有 其 他 两 个 指针 open 与 closet 也 部 是 有 定义 的 。 这 是 为 什 
ANE? 我 们 在 sys shmget( ) 和 sys_shmat ( ) 的 代码 中 都 没有 看 到 调用 它 的 open 操作 啊 ? 答案 是 ， 这 是 
在 fork( ) 一 个 进程 的 过 程 中 使 用 的 〈shm.c): 


1275 /* This is called by fork, once for every shm attach. */ 


1276 static void shm open (struct vm area struct *shmd) 
1277 { 

1278 shm inc (shmd->vm_file->f dentry >d_inode—>i_ino); 
1279 } 


34 fork ) 一 个 进程 时 ， 要 把 父 进 程 的 每 个 vm_area_struct 数据 结构 部 复制 到 子 进程 路 。 对 于 代表 着 
一 个 共享 内 存 区 的 vm_area_struct 来 说 ,还 要 将 它 链 入 到 所 属 上 共享 内 存 区 数据 结构 中 的 一 个 队列 attaches 
中 ， 这 是 与 普通 虚 存 区 间 不 同 的 地 方 。 所 以 要 为 之 提供 一 个 函数 shm open ) 来 完成 此 项 操作 。 读 者 可 
以 参阅 第 4 章 中 有 关 do_fork( ) 的 一 节 ， 顺 着 do_fork(), copy_mm( ) 和 dup_mmap( ) 的 路 线 ， 最 后 进入 
dup_mmap( )。 在 那里 读者 可 以 看 旬 这 人 么 几 行 〈fork.c): 


[sys_fork( ) > do fork( ) > copy. mm( ) > dup_mmap( )] 


171 /* Copy the pages, but defer checking for errors */ 
172 retval = copy page range(mm, current->mm, tmp); 

173 if (!retval && tmp-^vm ops && tmp-^vm ops-^open) 
174 tmp->vm_ops—>open (tmp) ; 


就 是 说 ， 如 果 复 制 出 来 的 vm area struct 结构 tmp 的 vm ops 指针 指向 一 个 vm operations struct 
数据 结构 ， 并 且 该 结构 中 的 指针 open 非 零 ， 就 调用 这 个 函数 。 在 这 里 ， 就 是 调用 shm_open( )， 递 增 共 
享 内 存 区 所 映射 文件 的 共享 计数 。 与 此 相 类 似 ， 当 一 个 进程 exit( ) 时 ， 要 释放 其 所 有 的 虚 存 区 间 。 如 果 

个 虚 存 区 间 实 际 上 是 一 个 共享 区 ， 就 会 调用 shm close() 递减 这 个 计数 。 


6.7.3 库 函数 shmdt() 一 一 撤销 共享 内 存 区 的 映射 


一 个 进程 在 通过 SHMAT 操作 与 一 个 共享 内 存 区 挂 .上 : 钧 并 建立 起 映射 以 后 ， 就 可 以 像 对 普通 内 存 
空间 一 样 通过 虚 存 地 址 访问 这 块 空 间 。 当 不 再 需要 这 抉 空间 时 ， 可 以 通过 系统 调用 ipc( ) 的 SHMDT Hè 
作 与 之 脱钩 ， 具 体 由 sys shmdt( ) 完 成 。 此 外 ， 一 个 刚 fork( ) 出 来 的 了 进程 在 开始 执行 一 个 新 的 程序 时 
也 要 灵 放 从 父 进 程 复制 下 来 的 各 个 虚 存 区 间 。 如 果 一 个 虚 存 区 间 实 际 代表 着 -个 共享 内 存 区 的 话 ， 就 
会 通过 数据 结构 shm_vm_ops 中 的 指针 close iH] shm_close( )， 在 那里 也 区 执 行 类 似 的 操作 。 

函数 sys shmdt( ) 的 代码 比较 简单 《shm.e): 
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629 /* 

630 * detach and kill segment if marked destroyed. 

631 * The work is done in shm close 

632 */ 

633 asmlinkage long sys, shmdt (char *shmaddr) 

634  ( 

635 struct mm struct *mm = current—>mm; 

636 struct vm area struct *shmd, *shmdnext; 

637 

638 down (&mm- >mmap_sem) ; 

639 for (shmd = mm->mmap; shmd; shmd = shmdnext) | 

640 shmdnext = shmd-?vm next; 

641 if (shmd-^vm ops == &shm vm ops 

642 && shmd->vm_ start - (shmd-^vm pgoff << PAGE SHIFT) == (ulong) shmaddr) 
643 do munmap(mm, shmd-^vm start, shmd-^vm end - shmd— vm start); 
644 } 

645 up (&mm—>mmap_sem) ; 

646 return 0; 

647 } 


其 主体 是 do_munmap( )， 我 们 已 在 第 2 XeWeRUCBU RA. LARVE, MR vm area struct 数据 结 
构 代 表 着 -- 个 独立 的 虚 存 区 间 ， 而 属性 不 同 的 区 间 即 使 地 址 连续 也 分 赂 不 也 的 独立 虚 人 存 区 间 ， 由 不 同 
的 vm area. struct 数据 结构 代表 。 而 vm, operations struct 数据 结构 为 shm_vm_ops， 则 正 是 用 二 共享 内 
存 区 的 独立 区 间 的 特征 。 另 一 方面 ， 与 “个 共享 内 存 区 脱 钧 必须 是 与 整个 共 宫 内存 区 脱钩， 而 不 是 它 
的 “部 分 。 所 以 共享 内 存 区 的 起 始 地 址 必须 与 一 个 虚 存 区 间 的 实际 起 始 地 址 相符 。 


6.7.4 ERA shmetl() 一 一 对 共享 内 存 区 的 控制 与 管理 


像 报 文 队列 一 样 ， 对 共享 内 存 区 也 可 以 通过 系统 调用 ipe ) 的 SHMCTL 操作 加 以 控制 ， 或 收集 其 
状态 及 统计 信息 。 函 数 sys_shmetl( MAR fa, i ATA SysV IPC 机 制 在 这 方面 基本 上 都 一 样 。 
例如 都 是 通过 IPC RMID 命令 撤消 “项 设施 ， 所 以 我 们 不 在 这 里 列 出 其 代 但 了 ， 只 是 提 一 下 其 特殊 之 
处 。 
对 十 一 块 共享 内 存 区 ， 可 以 在 SHMCTL 操作 中 分 别 通过 SHM_LOCK 和 SHM UNLOCK Pk ir 
令 来 加 锁 和 去 锁 ， 也 就 是 禁 目 和 恢复 该 区 间 的 各 个 页 面 换 出 或 换 入 操作 。 显 然 ， 这 要 由 共享 内 存 和 页 
面 换 出 / 换 入 两 个 机 制 相 互 配 合 才能 实现 。 

通过 SHMCTL 操作 对 上 共享 内 存 区 加 锁 时 ， -方面 ,在 共享 内 存 区 的 shmid_kernel 结构 中 把 一 个 慰 
志 位 SHM_LOCKED 设 成 1; 男 一 方面 , 同时 在 相应 shm 文件 的 inode 结构 内 部 将 其 shmem_inode_info 
结构 中 的 字段 locked 也 设置 成 1。 读 者 应 该 还 记得 ， 对 于 shm 文件 ，inode 结 购 中 的 union 解释 为 
shmem_inode_info 结构 。 

而 在 shmem_writepage( ) 中 ， 则 归 检 查 页 面 所 属 shm 文件 的 inode 结构 内 部 的 这 个 标志 ， 刀 果 为 1 
就 提前 返回 《 见 上 而 shmem_writepage( ) 代 码 中 的 203 一 205 行 )， 从 市 使 对 该 页 面 的 writepage 操作 变 
成 了 空 探 作 。 
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68 ”信号 量 


前 而 讲 过 ， 共 享 内 存 为 进程 问 通 讯 提供 了 一 种 效率 很 高 的 手段 ， 但 是 这 种 机 制 所 提供 的 只 是 狭义 
的 “通信 ”手段 ， 而 并 不 提供 进程 问 同步 的 机 能 。 所 以 ， 共 享 内 存 作 为 广义 的 进程 间 通 信 手 段 还 必须 
此 有 其 他 机 人 制 的 配合 。 同 时 ， 除 共享 内 存 以 外 ， 还 有 其 他 需 此 共享 资源 的 场 台 也 需要 有 进程 间 同 步 的 
手段 。 举 例 来 说 ， 如 上 果 有 两 个 进程 共享 同一 个 tty 终端 ， 并 且 各 自 都 道 过 printf( ) 在 屏 而 上 显示 一 些 字 
符 申 ， 就 很 可 能 会 使 来 自 两 个 不 同 进程 的 字符 在 屏 面 上 混成 一 片 ， 而 令 人 无 法 阅读 。 所 以 ， 夏 则 上 讲 
只 要 两 个 进程 直接 共享 某 个 资源 ， 就 得 要 有 世相 同步 的 手段 。 其 中 有 些 同 步 是 由 内 核 自动 氛 供 的 〔 例 
如 对 CPU， 对 管道 机 制 中 的 缓冲 区 ， 等 等 )， 而 有 些 则 要 由 所 涉及 的 进程 自己 来 关心 。 

由 此 可 见 ， 将 已 经 在 内 核 中 使 用 的 进程 间 同 步 机 制 “ 信 号 量 ” 推 广 到 用 户 空间 ， 是 很 自然 的 事 。 
SysV IPC 中 的 “信号 其” 机 制 就 是 这 样 一 种 推广 , 所 以 实际 上 应 该 称 为 “用 户 空 间 信和 号 量 ” 以 示 区 别 。 
不 过 ， 只 鉴 不 至 于 引起 混淆 ， 我 们 在 文中 就 还 古称 之 为 “信号 量 ”， 读 者 应 注意 < 分 用 户 空间 信号 量 与 
以 前 讲 过 的 内 核 信号 量 这 :二 者 之 间 的 区 别 。 同 时 ， 还 要 认识 到 “用 户 空间 信和 号 量 ” 这 种 机 制 是 由 内 核 
来 文 持 ， 在 系统 宁 间 中 实现 的 ， 只 不 过 是 由 用 户 进 程 直 接 使 用 而 已 。 

与 信号 量 有 关 的 操作 有 三 种 ， 就 是 SEMGT，SEMOP 以 及 SEMCTL， 分 别 由 sys semget( ), 
sys semop( ) 和 sys_semcti( ) 实 现 。 有 关 的 代码 和 定义 基本 上 都 在 文件 ipc/sem.c 和 include/linux/sem.h 中 。 


6.8.1 ERX semget() 一 一 创建 或 寻找 信号 量 


PAZ sys_semget( ) 的 代码 与 sys_msgget( ) 几 乎 “ 模 一 样 ， 主 要 的 区 别 只 是 把 sys_msgget( ) 中 的 子 程 
Fe va FA newque( ) 换 成 了 newary( )。 所 以 我 们 就 来 看 看 newary( ) (sem.c): 


112 static int newary (key t key, int nsems, int semflg) 


113 { 

114 int id; 

115 struct sem array *sma; 

116 int size; 

117 

118 if (!nsems) 

119 return  ETNVAL; 

120 if (used sems + nsems > sc semmns) 

12] return —FNOSPC; 

122 

123 size = sizeof (*sma) + nsems * sizeof (struct sem); 
124 sma = (struct sem array *) ipc alloc(size); 

125 if (!sma) { 

126 return -ENOMEM; 

127 } 

128 memset (sma, 0, size): 

129 id = ipc_addid(&sem ids, &sma-^sem perm, sc sommni); 
130 if(id = -1) { 
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131 ipc free(sma, size); 

132 return -ENOSPC; 

133 } 

134 used_sems += nsems; 

135 

136 sma->sem_perm. mode = (semflg & S IRWXUGO); 
137 sma-?sem perm.key = key; 

138 

139 sma->sem_base = (struct sem *) &sma[l]; 
140 /* Sma->sem pending = NULL; */ 

141 sma-^sem pending last = &sma-?sem pending; 
142 /* sma—>undo = NULL; */ 

143 sma->sem nsems = nsems; 

144 sma—>sem_ctime = CURRENT TIME; 

145 sem_unlock (id) ; 

146 

147 return sem buildid(id, sma->sem perm. seg); 
148.) 


先 看 调用 参数 。 只 要 回顾 -一 下 sys msgget( )， 这 里 面 的 参数 key 和 semflg 就 很 自然 、 很 容易 理解 
T. 特殊 之 处 在 于 第 二 个 参数 nems, 它 表 示 在 由 同一 个 信号 量 标识 号 所 代表 的 数据 结构 中 要 设置 几 个 
信和 号 量 。 也 就 是 说 ， 一 个 信号 量 标识 号 代表 着 一 组 而 不 只 是 一 个 信号 量 ， 由 sys_semget( ) 建 立 或 找到 
的 也 是 一 组 而 不 只 是 一 个 信号 量 。 看 一 下 数据 结构 类 型 sem_array 的 定义 ， 这 一 点 就 更 清楚 了 (sem.h)。 


87 /* One sem array data structure for each set of semaphores in the system. */ 
88 struct sem array { 

89 struct kern ipc perm sem perm;  /* permissions .. see ipc.h */ 

90 time t sem otime;  /* last semop time */ 

91 time t sem ctime; /* last change time */ 

92 struct sem *sem base; /* ptr to first semaphore in array */ 
93 struct sem queue *sem pending;/* pending operations to be processed */ 
94 struct sem queue **sem pending last; /* last pending operation */ 

95 struct sem undo *undo; /* undo requests on this array */ 

96 unsigned long sem nsems;  /* no. of semaphores in array */ 

97 Hh 


显然 ,这 一 次 ipc_perm 数 据 结构 的 宿主 变 成 sem_array T o 同样 地 ,整个 信号 量 机 制 的 总 根 是 ipc_ids 
数据 结构 sem_ids: 


74 static struct ipc ids sem ids; 


其 中 的 指针 entries 同样 指向 一 个 ipe id 结构 数组 ， 而 ipe id 结构 中 的 指针 p 也 同样 指向 一 个 
ipc_perm 数据 结构 ， 只 不 过 它 的 宿主 变 成 了 sem_array 数据 结构 。 在 这 一 点 上 ,三 种 SysV IPC 机 制 的 
基本 格局 都 是 一 样 的 。 可 是 ， 我 们 在 这 里 注意 的 不 是 这 些 ， 而 是 sem_array 结构 中 的 指针 sem_base， 
它 指向 一 个 结构 数组 。 该 数组 中 的 每 一 个 sem 数据 结构 都 是 - -个 信号 量 : 
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81 /* One semaphore structure for each semaphore in the system. */ 
82 struct sem { 

83 int semval; /* current value */ 

84 int sempid; /* pid of last operation */ 

85 hh 


这 个 数组 的 大 小 由 参数 nsems 决定 , 其 空间 连同 sem. array 数据 结构 :起 进行 分 配 (123 一 124 47), 
所 以 紧 贴 在 sem, array 结构 后 面 ， 而 &sma[1] 号 是 其 起 始 地 址 (139 行 )。 

那么 ， 为 什么 sys semget( ) 要 允许 建立 一 组 而 不 只 是 一 个 信号 量 昵 ? 我 们 在 讲述 内 核 信 号 量 时 曾 
经 谈 到 临界 区 肉 套 是 很 容易 引起 死 锁 的 。 当 项 操作 涉及 多 项 共享 资源 时 ， 如 果 先 取得 了 其 中 cu, 
然后 试图 取得 另 一 项 资源 不 成 而 等 待 时 ， 就 可 能 会 因为 直接 或 间接 的 循 坏 等 待人 i 形成 死 锁 。 在 操作 系 
统 理 论 中 ， 最 典型 的 死 锁 就 是 由 这 种 各 自 占有 部 分 资源 不 放 而 等 待 其 他 过 程 释放 另 一 部 分 资源 而 形成 
的 所 谓 “ 上 哲学 家 与 刀 又 ”问题 。 吃 西 父 既 昌 用 刀 又 要 用 叉 ， 如 盯 一 个 人 拿 到 了 刀 不 放 击 等 待 别人 放弃 
他 手 上 的 又 ， 而 另 一 个 则 拿 到 了 又 不 放 而 等 待 别人 放弃 他 的 刀 ， 那 就 死 锁 了 。 解 决 的 方法 是 : 凡是 : 
使 用 多 项 资源 就 一 定 一 步 《〈 不 可 分 割 的 一 步 ) 就 取得 所 有 的 资源 ， 或 者 在 一 量 得 不 到 某 项 资源 过 就 释 
放手 中 所 有 的 相关 资源 。 换 句 话说， 对 这 些 “ 临 界 资源 ”的 了 肥 得 要 么 起 全 有 ， 要 么 是 全 无 。 可 是 ， 这 
一 点 对 于 用 户 空 间 的 程序 来 说 是 难以 保证 的 ， 所 以 要 以 系统 调用 的 形式 来 提供 这 样 … 种 机 制 ， 这 就 是 
sys semget( ) 允 许 建 立 … 组 而 不 只 是 “个 信号 量 的 原因 。 这 样 一 来 ， 在 建立 了 一 组 信和 号 量 以 后 ， 用 户 进 
程 就 可 以 通过 SEMOP 操作 在 一 次 系统 调用 中 《因而 是 不 可 分 割 的 ) 取得 多 项 上 共享 资源 的 使 用 权 ， 或 
者 就 不 占有 任何 共享 资源 地 等 待 ， 从 而 防止 死 锁 的 发 生 。 

HATZ, FATHER sys msgget( ) 的 有 关 代 码 ， 这 里 newarg( ) 的 代码 就 很 好 理解 了 。 


6.8.2 ERA semop() 一 一 信号 量 操作 





由 于 一 次 SEMOP 操作 可 以 是 对 个 信和 号 量 集合 (而 不 仅仅 是 一 个 信号 量 ) 的 操作 ， 并 且 必 须 符 
合 “ 要 么 全 有 , 要 人 么 全 尤 ”的 原则 ,sys_semop( ) 的 代码 日 然 就 比较 复杂 一 些 了 。 我 们 分 段 来 看 (sem.c): 


826 asmlinkage long sys semop (int semid, struct sembuf *tsops, unsigned nsops) 


827 { 

828 int error = -EINVAL; 

829 struct sem_array *sma; 

830 struct sembuf fast sops[SEMOPM FAST]; 
831 struct sembuf* sops - fast sops, *sop; 
832 struct sem undo *un; 

833 int undos = 0, decrease = 0, alter = 0; 
834 struct sem queue queue; 

835 

836 if (nsops < 1 i| semid < 0) 

837 return -EINVAL; 

838 if (nsops > sc semopm) 

839 return -E2BIG; 

840 if(nsops > SEMOPM FAST) { 

841 sops - kmalloc (sizeof (*sops) *nsops, GFP KERNEL) ; 
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Eee eee SS SO TF ror 


842 if (sops==NULL) 

843 return -ENOMEM; 

844 } 

845 if (copy from user (sops, tsops, nsops * sizeof(ktsops))) | 
846 error--EFAULT; 

847 goto out_free; 

848 } 


这 里 的 参数 tsops 是 个 指针 ， 指 向 用 户 空间 中 的 一 个 sembuf 结构 数组 ， 而 nsops 则 是 该 数组 的 
大 小 。 数 组 中 的 每 一 项 都 规定 了 对 ”个 信号 量 的 操作 ， 遇 对 数组 中 所 有 规定 的 操作 是 “周子 的 ”也 就 
是 全 有 或 全 无 。 数 据 结构 类 型 sembuf 的 定义 为 (sem.h): 


37 /* semop system calls takes an array of these. */ 

38 struct sembuf { 

39 unsigned short sem num; /* semaphore index in array */ 
40 short sem op; /* semaphore operation */ 

4] short sem flg; /* operation flags */ 

42 H 


这 里 的 sem, num 为 具体 信号 在 通过 SEMGET 建立 的 一 组 信号 量 中 的 下 标 。 而 sem. op 则 为 一 个 小 
小 的 整数 ， 原 则 上 这 个 整数 会 被 相 加 到 相应 信和 与 量 的 当前 值 上 。 如 果 同 到 我 们 在 讨论 内 核 信 号 量 时 所 
打 的 比喻 ， 则 当 这 个 整数 为 十 1 时 表示 退还 , 或 多 供应 一 张 门票 ; 而 一 ! 则 表示 要 取得 张 门 票 ; 但 是 ， 
也 允许 更 大 或 更 小 的 数值 。 从 厌 理 上 说 ， 这 个 数值 的 大 小 反映 了 要 取得 或 供应 同一 种 资源 的 数量 。 相 
加 以 后 ， 如 果 具 体 信号 量 的 数值 变 成 了 负数 则 表示 不 能 满足 要 求 ， 此 时 当前 进程 - 般 就 会 进入 睡眠 等 
待 ， 除 非 要 有 安排 〔( 见 下 文 )。 如 果 sem op 的 数值 为 0， 则 信号 量 的 当前 值 当然 不 会 改变 ， 而 只 是 表 
示 询 问 相 应 信号 量 的 数值 是 否 为 0， 若 不 为 0 就 等 待 其 变 成 0， 除 非 另 有 安排 。 原 则 上 ， 一 个 进程 通过 
SEMOP 操作 取得 的 资源 应 该 由 其 白 己 通 过 另 一 次 SEMOP 操作 归还 ， 所 以 如 果 第 一 次 操作 中 对 某 个 信 
号 量 的 sem_op 为 一 1， 则 第 二 次 就 应 该 是 十 1。 此 外 ， 通 过 sembuf 结构 中 的 sem flg 可 以 设置 师 个 标 
志 位 :一 个 是 IPC_NOWAIT, 表示 在 条 件 不 能 满足 叶 不 要 睡眠 等 待 , 而 立即 返回 (出 错 代 码 为 EAGAIN); 
另 一 个 是 SEM_UNDO， 表 示 留 下 遗嘱 ， 旋 一 当前 进程 欠 债 不 还 ， 尚 未 退还 占有 的 资源 就 寿 终 正 究 
(Cexit()) 的 话 ， 就 山内 核 代 为 退还 。 

回 到 sys_shmop( ) 的 代码 中 ， 从 用 户 空间 把 参数 复制 到 内 核 后 ， 继 续 往 下 看 Csem.c): 


849 sma = sem_lock (semid) ; 

850 error--EINVAL; 

851 i f (sma- - NULL) 

852 goto out free; 

853 error - -EIDRM; 

854 if (sem checkid(sma, semid)) 

855 goto out unlock free; 

R56 error = -EFBIG; 

857 for (sop = sops; sop < sops + nsops; sop) { 
858 if (sop-^sem num >= sma->sem_nsems) 
859 goto out_unlock_free; 
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860 if (sop-^sem flg & SEM UNDO) 

861 undost+; 

862 if (sop-^sem op « 0) 

863 decrease = 1; 

864 if (sop->sem op > 0) 

865 alter = 1; 

866 } 

867 alter |= decrease; 

868 

869 error = -EACCES; 

870 if (ipeperms(&sma-^sem porm, alter ? S IWUGO : S TRUGO)) 
871 goto out_unlock free; 

872 if (undos) { 

873 /* Make sure we have an undo structure 
874 * for this process and this semaphore set. 
875 */ 

876 un-current Psemundo; 

877 while(un != NULL) { 

878 if (un »semid--semid) 

879 break; 

880 if (un >semid-=-1) 

881 un=freeundos (sma, un) ; 

882 else 

883 un=un->proc next; 

884 } 

885 if (tun) { 

886 error = alloc undo (sma, &un, semid, alter); 
887 if (error) 

888 goto out free; 

889 ) 

890 ] else 

891 un = NULL; 

892 


这 里 的 sem_lock( ) 和 sem checkid( ) 与 报 文 队列 机 制 中 的 msg_lock( ) 和 msg. checkid( ) 相 似 ， 读 者 
CARET. 接 下 来 就 是 先 对 用 户 规定 的 所 有 信和 号 景 操作 进行 RA, 看 看 有 几 项 是 要 SEM. UNDO 
的 ， 有 几 项 是 要 改变 相应 信号 旺 的 当前 值 的 。 信 和 号 量 也 受到 类似 于 磁盘 文件 -- 样 的 访问 权限 保护 ， 要 
改变 信号 量 的 当前 值 就 必须 要 其 备 对 它 的 写 访问 权 ， 由 消 数 ipcperms( ) 加 以 检查 。 如 果 用 户 在 调用 
sys_semop( ) 时 至 少 为 一 个 信号 量 操作 规定 了 SEM_UNDO, 那 就 要 分 配 一 个 sem. undo 数据 结构 用 来 记 
REFS “组 信号 量 的 “债务 "。 显 然 ， 每 个 进程 都 可 以 有 这 样 的 “债务 ” 并 月 等 个 进程 可 以 
对 多 个 信号 量 集 合 欠 有 这 样 的 “债务 ”( 要 非常 小 心 ， 内 为 这 可 能 引起 死 锁 )， 但 是 同一 个 进程 对 同一 
个 信和 与 量 集 合 的 “债务 ” 则 内 要 用 一 个 数据 结构 就 可 以 描述 了 。 所 以 ， 在 进程 的 task struct 中 维持 了 
一 条 sem. undo 结构 队列 ， 这 就 是 在 task. struct 结构 中 有 个 semundo 指针 的 原 内 。 

数据 结构 类 型 sem undo 的 定义 为 (sem.h): 


114 /* Each task has a list of undo requests. They are executed automatically 
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115 * when the process exits 

116 */ 

117 struct sem undo | 

118 struct sem undo * proc next; /* next entry on this process */ 

119 struct sem undo * id next; /* next entry on this semaphore set */ 
120 int semid; /* semaphore set identifier */ 

121 short * semadj; /* array of adjustments, one per semaphore */ 

122 is 


ij — ERE ARCEERO RUIT, GASERA CALERA ERT CH. MIEREN S 
号 量 集合 的 sem array 中 也 有 个 指针 undo, MAKER A sem. undo 结构 队列 。 而 每 一 个 sem undo £i 
构 则 ， 有 了 两 个 指针 proc, next 和 i_next， 分 别 用 来 链 入 到 task, struct 结构 中 的 队列 和 sem, array 结构 中 
的 队列 (TLE 6.9)。 函 数 alloc_undo( ) 分 配 一 个 sem, undo 数据 结构 并 完成 两 个 队列 的 链 入 。 

至 此 ， 所 有 的 准备 工作 都 已 完成 ， 下 面 就 是 实质 性 的 操作 了 〈sem.c)， 


[sys_semop( )] 


893 error = try atomic semop (sma, sops, nsops, un, current pid, 0): 
894 if (error <= 0) 

895 goto update; 

896 


函数 try_atomic_semop( )， 正 如 其 函数 名 所 说 者 样 ， 试图 将 对 给 定 的 所 有 信号 量 的 操作 作为 - -个 整 
体 来 完成 (sem.c) . 


task struct 结构 sem, undo 结构 semid ds 结构 
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说 明 ， 每 一 个 sem_unde 结 构 问 时 在 两 个 队列 中 ， 既 属于 某 个 进程 〈 实 线 表 示 ) 义 属于 某 个 信号 量 集合 〈 虚 线 硼 未 )， 将 
两 者 联系 在 一 起 。 


图 6.9 进程 与 信号 量 集合 联系 示意 图 
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[sys_semop( ) > try_atomic_semop( )] 
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/* 


* Determine whether a sequence of semaphore operations would succeed 


* all at once. Return O if yes, 1 if need to sleep, else return error code. 


*/ 


static int try atomic semop (struct sem array ** sma, struct sembuf * SODS, 


int nsops, struct sem undo *un, 
int do undo) 


int result, sem op; 
struct sembuf *sop; 
struct sem * curr; 


for (sop = sops; sop < sops + nsops; soptt) ( 
curr = sma->sem base + sop—>sem_num; 
sem op = sop-?sem op; 


if (!sem op && curr-^semval) 
goto would block; 


int pid, 


curr-^sempid = (curr->sempid << 16) | pid; 


curr->semval += sem op; 
if (sop->sem flg & SEM UNDO) 
un-^semadj[sop-^sem num] -= sem op; 


if (curr->semval < 0) 
goto would_block; 

if (curr—>semval > SEMVMX) 
goto out of range; 


} 


if (do_undo) 

{ 
sop; 
result = 0; 
goto undo; 


sma-^sem otime = CURRENT TIME; 
return 0; 


out of range: 


result = -ERANGE; 
goto undo; 


would block: 
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282 if (sop. sem flg & TPC NOWAIT) 

283 result = -EAGAIN; 

284 else 

285 result = 1; 

286 

287 undo: 

288 while (sop >= sops) { 

289 curr = sma->sem_base + sop-2sem num; 
290 curr—>semval -= sop->sem_op; 

291 curr->sempid >>= 16; 

292 

293 if (sop->sem flg & SEM UNDO) 

294 un-»semadj[sop-?sem num] += sop-?sem op; 
295 SOp--; 

296 } 

297 

298 return result; 

299  ] 


首先 昌 注 意 到 并 记 住 ， 这 里 的 参数 do_undo 为 0， 这 起 在 sys_shmop( ) 中 的 第 893 行 设 前 好 了 的 。 
所 以 ， 如 果 for 循环 正常 结束 ， 也 就 是 对 每 个 信号 晶 的 操作 者 没有 使 它 的 值 semval 变 成 负数 的 话 ， 那 
就 已 经 成 功 地 取得 了 需要 的 全 部 资源 ， 此 时 函数 返回 0。 除 此 之 外 ， 有 三 种 情况 可 以 使 这 个 for 循环 中 
途 天 折 。 

第 一 种 情况 是 对 某 个 信 上 总 量 的 操作 使 其 数值 超过 了 最 大 值 SEMVMX。 在 这 种 情况 下 ,人 椒 次 系统 调 
用 实际 上 不 能 继续 下 去 了 , 所 以 就 转 到 out of. range 处 把 出 错 代 码 设置 成 一 ERANGE, 然后 再 转 到 undo 
处 通过 - .个 while 循环 把 前 面 已 经 完成 了 的 操作 都 抵消 掉 ， 让 已 经 在 for 循环 中 改变 了 的 信号 晤 数值 都 
还 原 。 不 光 是 信号 量 semval 的 值 要 还 原 , 表示 是 谁 最 后 一 次 改变 信号 量 数值 的 sempid 也 要 还 及。 还 有 有 ， 
i SEM. UNDO 标志 为 1 的 话 ， 还 要 把 sem undo 结构 中 记 下 的 “ 账 ” 也 还 原 。 总 之 一 句 话 ， 是 不曾 
痕迹 。 

第 种 情况 是 对 某 个 信号 量 的 操作 使 它 的 值 变 成 了 负数 。 这 表示 获取 出 这 个 信号 量 所 代表 的 资源 
(的 使 用 权 〉 的 努力 受到 了 阻 但 ， 一 时 还 得 不 到 这 种 资源 。 一 般 玉 说 ， 这 时 候 就 要 睡眠 等 竺 了， 所 以 
就 转 到 would block 处 。 在 这 里 ，- 方面 根据 IPC_NOWAIT 标志 的 值 来 决定 函数 的 返回 值 ， 另 一 方面 
同样 此 通过 undo 处 的 while 循环 将 已 经 取得 的 资源 全 都 退还 ， 或 者 说 将 已 经 执行 的 操作 都 还 原 ， 也 要 
KARZ. AAEM RE “BASH, RAR”. 

第 三 种 情况 是 对 某 个 信号 量 的 操作 sem op 的 值 为 0， 市 这 个 信号 量 的 当前 值 又 是 非 0， 对 这 种 情 
况 的 处 理 与 第 :种 情况 相同 ， 也 起 转 到 would block 处 。 

最 后 ， 如 果 参 数 do_undo JEER? 孝 表 示 只 需要 试 一 人， 看 看 能 否 皮 得 所 有 需要 的 资源 ， 让 并 
不 是 真 的 要 改变 这 些 信和 号 量 的 数值 ， 所 以 在 成 功 以 后 ， 即 for 循环 正常 结 来 以 后 ， 就 将 所 有 的 操作 企 部 
还 原 。 

从 try_atomic_semop( ) 返 回 到 sys_semop( ) 中 时 ， 返 回 值 有 一 种 可 能 。 返 回信 为 0 上 表 术 所 有 的 操作 
都 成 功 了 ， 当 前 进程 已 经 握 有 所 需 的 全 部 资源 ， 可 以 返回 到 用 户 空间 进入 “临界 区 ”继续 执行 了 。 返 
回 值 为 负 什 表示 操作 失败 了 ， 并 日 出 了 错 。 在 这 丙种 情况 下 都 转 到 标号 “update Ab. FEM BET 些 
善后 操作 ， 然 后 就 返回 了 《〔 免 后 面 的 代码 )。 第 二 种 情况 是 返回 值 为 1， 表示 对 其 个 信号 量 的 操作 失败 
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了 ， 需 要 睡眠 等 待 。 继 续 往 下 看 (seme): 


[sys semop( )] 


897 /* We need to sleep on this operation, so we put the current 
898 * task into the pending queue and go to sleep. 
899 */ 

900 

901 queuc. sma = sma; 

902 queue. sops = sops; 

903 queue. nsops = nsops; 

904 queue. undo = un; 

905 queue. pid = current->pid; 

906 queue. alter = decrease; 

907 queue. id = semid; 

908 if (alter) 

909 append to queue(sma , &queue) ; 

910 else 

911 prepend_to_queue(sma , &queue) : 

912 current—>semsleeping = &queue; 

913 

914 for (;;) { 

915 struct sem array* tmp; 

916 queue. status = -EINTR; 

917 queue. sleeper 7 current; 

918 current—>state = TASK INTERRUPTIBLE; 
919 sem unlock (semid) ; 

920 

921 schedule( ); 

922 

923 tmp = sem lock(semid) ; 

924 if(tmp--NULL) { 

925 if(queue.status !- -EIDRM) 

926 BUG( ) ; 

927 current—>semsleeping = NULL; 

928 error = -EIDRM; 

929 goto out. free; 

930 } 

931 /* 

932 * If queue. status => 1 we where woken up and 
933 * have to retry else we simply return. 
934 * If an interrupt occurred we have to clean up the 
935 * queue 

936 * 

937 */ 

938 if (queue. status == 1) 

939 { 
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940 error = try atomic semop (sma, sops, nsops, un, 
941 current->pid, 0) ; 

942 if (error <= 0) 

943 break; 

944 ) else { 

945 error - queue. status; 

946 if (queue. prev) /* got Interrupt */ 
947 break; 

948 /* Everything done by update_queue */ 
949 current—>semsleeping = NULL; 

950 goto out unlock free; 

951 } 

952 } 

953 |» current—>semsleeping = NULL; 

954 remove from queue (sma, &queue) ; 

955 update: 

956 if (alter) 

957 update queue (sma) ; 

958 out unlock free: 

959 sem unlock(semid) ; 

960 out free: 

961 if(sops != fast sops) 

962 kfree (sops) ; 

963 return error; 

964  ] 


与 报 文 队列 相似 , 睡眠 时 要 将 一 个 代表 着 当前 进程 的 sem_queue 数据 结构 链 入 相应 sem. array 数据 
结构 中 的 sem. pending 队列 。 这 里 sem queue 数据 结构 的 定义 为 《sem.h): 


99 /* One queue for each sleeping process in the system. */ 

100 struct sem queue | 

101 struct sem queue * next; /* next entry in the queue */ 

102 struct sem queue ** prev; /* previous entry in the queue, *(q->prev) == q */ 
103 struct task struct* sleeper; /* this process */ 

104 struct sem undo * undo; /* undo structure */ 

105 int pid; /* process id of requesting process */ 
106 int status; /* completion status of operation */ 

107 struct sem array * sma; /* semaphore array for operations */ 
108 int id; /* internal sem id */ 

109 struct sembuf * SODS; /* array of pending operations */ 
110 int nsops;  /* number of operations */ 

111 int alter; /* operation will alter semaphore */ 

ie dg 


在 将 这 个 数据 结构 链 入 sem pending IIR, EK SAREE ER Es REBEL, MA 
而 确定 将 其 链 入 到 队列 的 尾部 或 前 部 。 处 于 队列 前 部 的 结构 《实际 上 是 进程 )， 在 被 唤醒 时 享受 到 一 些 
优先 。 此 外 ， 在 进程 task_struct 结构 中 也 有 一 个 指针 semsleeping， 当 进程 因 信 号 量 操作 而 进入 睡眠 时 
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就 指向 其 sem_queue 数据 结构 。 
进入 睡眠 以 后 ,就 要 到 被 唤醒 时 才 会 从 921 行 的 schedule( ) 调 用 中 返回 。 那 么 ， 由 谁 来 唤醒 昵 ? 让 
我 们 回 过 头 去 看 看 前 面 当 try_atomic_semop( ) 的 返回 值 为 0 或 负数 时 转 到 update 处 以 后 的 情况 .如果 本 
次 操作 改变 了 某 些 信号 量 的 值 ( 见 956 行 )， 那 就 说 明 这 个 信号 量 集合 的 状态 发 生 了 某 些 变化 ， 原 来 因 
条 件 不 满足 而 只 好 睡眠 等 待 的 进程 也 许 现在 可 以 得 到 满足 了 ， 所 以 就 调用 update queue( ) 来 试 试看 


(sem.c): 
[sys_semop( ) > update_queue( )] 


301 /* Go through the pending queue for the indicated semaphore 


302 * looking for tasks that can be completed. 

303 */ 

304 static void update queue (struct sem array * sma) 
305 { 

306 int error; 

307 struct sem queue * q; 

308 

309 for (q = sma~>sem_pending; q; q = q~>next) { 
310 

311 if (q->status == 1) 

312 continue; /* this one was woken up before */ 
313 

314 error = try atomic semop(sma, q-^sops, g->nsops, 
315 q-^undo, q->pid, q-^alter); 
316 

317 /* Does q-^sleeper still need to sleep? */ 
318 if (error <= 0) { 

319 /* Found one, wake it up */ 

320 wake_up_process (q->sleeper) ; 

321 if (error == 0 && q—alter) { 

322 /* if q-> alter let it self try */ 
323 q-^status = l; 

324 return; 

325 } 

326 q->status = error; 

327 remove_from_queue (sma, q) ; 

328 } 

329 } 

330  ] 


把 311 4TH if (q->status = = 1) 暂时 搁 一 下 ， 先 看 for 循环 的 主体 。 这 个 循环 顺 着 队列 依次 让 每 个 
正在 睡眠 中 等 待 的 进程 试 一 下 , 看 看 现在 能 否 顺利 完成 其 信号 量 操作 .注意 , 这 里 对 try_atomic_semop( ) 
的 最 后 一 个 调用 参数 为 q->alter， 表 示 如 果 诛 先 的 操作 要 改变 某 些 信和 号 量 的 值 ， 那 么 现在 只 是 试 一 下 ， 
而 不 是 真 的 执行 这 些 操作 。 试 了 以 后 的 结果 无 非 是 三 种 : 第 一 种 是 条 件 仍 不 满足 ， 继 续 留 在 队列 睡眠 
等 待 。 第 二 种 是 条 件 仍 不 满足 但 是 发 生 了 出 错 ， 此 时 应 将 该 进程 唤醒 ， 将 q -> status 设置 成 由 
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try_atomic_semop( ) 返 回 的 出 错 代 码 ， 并 将 此 数据 结构 从 队列 中 摘除 。 茎 然 出 了 错 ， 抬 作 已 不 能 进行 ， 
留 在 队列 中 睡眠 等 待 当然 是 毫 尤 意义 而 且 有 和 害 。 第 三 种 情况 是 某 个 进程 的 信号 量 操作 原 米 因 条 件 不 
足 而 只 好 睡眠 等 待 ， 但 是 现在 条 件 忆 经 能 满足 了 。 此 时 将 该 进程 唤醒 ， 并 将 其 q->status 设 成 1， 而 且 
for 循环 就 此 结束 。 也 就 是 说 ， 如 果 队 列 中 实际 上 有 和 多 个 进程 的 条 件 部 可 以 得 到 满足 ， 只 有 排 在 最 前 面 
的 那个 进程 才 被 唤醒 。 唤 醒 时 进程 的 sem queue 数据 结构 仍 留 在 队列 中 。 另 一 方面 ， 如 果 对 同一 个 信 
续 量 集合 再 调用 “次 update_queue( )， 只 要 出 被 唤醒 并 且 q -> status 已 被 置 成 1 的 进程 还 在 队列 中 尚 林 
离开 ， 就 会 在 311 行 的 让 语句 中 将 其 跳 过 。 吊 此 可 网， 除了 人 在 新 情况 下 发 生出 错 的 进程 不 算 ， 每 次 凋 
用 update queue( ) 最 多 只 唤醒 “个 进程 ， 而 且 是 排 在 前 面 的 进程 优先 。 因 此 ， 不 要 求 改变 信号 量 数值 的 
进程 是 得 到 优先 的 ， 因 为 它们 排 在 队列 的 前 面 。 除 此 之 外 ， 那 就 是 先 米 者 优先 了 。 

应 该 指出 ， 进 程 本 身 的 优先 级 别 在 这 里 并 不 起 任何 作用 。 也 就 是 说 ， 当 有 两 个 进程 都 此 取得 对 间 

-组 资源 的 使 用 权时 ， 优 先 级 别 较 低 的 进程 有 可 能 先 到 一 步 而 在 队列 中 排 在 较 前 的 位 置 上 ， 从 而 就 先 
取得 了 这 组 资源 ， 侧 优先 级 别 较 商 的 进程 就 只 好 “不 搞 特 殊 化 ”， 耐 心 等 待 了 。 从 这 个 意义 上 ， 严 格 地 
ut, Linux 并 不 是 为 实时 系统 而 设计 的 。 当 然 ， 要 改变 这 :点 也 不 难 ， 这 也 是 为 什么 已 经 有 了 EU 
时 Linux” 版 本 的 原因 之 一。 

在 睡眠 中 等 待 信号 量 操作 的 进程 除了 订 以 被 调用 updat_queue( ) 的 进程 所 唤醒 之 外 ， 还 可 能 因为 接 
收 到 信号 而 被 唤 肯 。 由 于 进入 睡眠 前 〈 见 916 行 ) 已 经 把 q->status 设置 成 一 EINTR， 所 以 当 因 接 收 到 
信号 测 被 唤醒 时 这 个 值 仍然 是 一 EINTR。 还 有 一 种 情况 ， 那 就 是 如 果 一 个 信号 量 集合 被 取消 了 ， 此 时 
所 有 正在 唾 眠 等 待 的 进程 都 会 被 唤醒 ， 并 有 q->status 被 设置 成 一 EIDRM。 

回 到 sys_semop( ) 的 代码 中 。 从 schedule( ) 返 加 以 后 ， 首 先 要 通过 sem_lock( ) 再 次 确认 把 作 的 对 和 象 
仍 是 原先 的 信号 量 集合 ， 并 将 其 锁 住 。 这 个 嚼 数 返 回 指向 信号 量 集合 的 sem. array 数据 结构 的 指针 ， 只 
有 当 原 先 的 信和 号 量 集合 不 再 存在 时 才 返 同 NULL。 根 据 唤 醒 后 queue.status 的 数值 可 以 判 知 被 唤醒 的 原 
因 。 这 个 数值 为 1， 表示 update_queue( ) 发 现 该 进程 的 条 件 满足 了 ， 但 是 情况 也 可 能 义 有 了 变化 《例如 

另 一 个 进程 已 经 在 此 之 前 对 该 信号 量 集合 成 功 地 进行 了 某 些 操作 ), 所 以 940 行 处 的 try_atomic_semop( ) 
还 是 有 可 能 失败 ， 如 果 失 败 就 此 同 到 for 循环 ( 见 914 行 ) 的 开始 处 再 次 入 睡 了 。 注 意 这 里 调用 
try_atomic_semop( ) 时 的 最 后 一 个 参数 又 是 0， 表示 这 是 “ 动 真 格 ” 的 。 要 是 成 功 了 ， 或 者 出 了 错 ， 那 
就 跳出 了 for 循 坏 ， 将 sem queue 结构 从 队列 中 脱 链 以 后 就 经 过 update 返回 了 。 

WE queue.status 不 为 1 BE? 此 时 有 两 种 可 能 。 第 一 种 可 能 是 因为 接收 到 信和 号 而 被 史 醒 ， 所 以 
sem queue 结构 还 在 队 询 中 ，queue.prey 指针 必定 为 非 0。 此 时 也 此 跳出 for 循环 《947 47), 也 要 将 
sem queue 结构 从 队列 中 脱 链 ， 并 经 由 update 返回 。 所 不 同 的 是 ， 此 时 sys_semop( ) 的 返回 值 必定 会 是 
一 EINTR ( 见 916 行 和 963 47). 第 二 种 可 能 是 因为 在 新 的 情况 下 发 和 了 出 错 而 被 update_queue( MARE, 
并 已 从 队列 中 脱 链 。 此 时 也 从 for 循环 中 跳出 .950 行 )， 但 是 直接 就 跳 到 out_lock_free 处 返回 了 ， 并 
且 返 回 值 就 是 由 update, queue ) 所 设置 的 出 错 代码 。 

最 后 ， 还 有 个 事 归 交待 一 下 。 我 们 在 前 而 讲 过 ， 调 用 sys_semop( ) 时 将 SEM_UNDO 标志 设 成 1 就 
En “TRR”, 万 一 进程 在 归还 所 获取 的 资源 之 前 就 exit( ) 的 话 ， 就 委托 内 核 代 为 归 偿 。 实 际 上， 
既然 占有 资源 的 进程 由 经 exit( )， 则 这 些 资源 事实 上 已 经 不 再 被 占用 了 。 问题 起 相应 信号 量 的 数值 没有 
得 到 调整 ， 就 好 像 仓库 里 明明 有 东西 但 账本 上 却说 没有 了 。 而 委托 内 核 做 的 事 ， 就 是 平时 每 次 都 通过 
sem undo 数据 结构 记 下 账 ， 然 后 当 进程 exit( ) 时 ， 根 据 该 进程 的 sem_undo 数据 结构 队列 来 调整 有 id 
号 量 的 数值 。 这 是 怎样 实现 的 呢 ? 读者 可 以 同 到 第 4 3€ do. exit( TA p. AER ZUR — 
函数 sem_exit( )。 这 个 函数 所 做 的 事情 是 :， 如果 exit ) 的 进程 中 某 个 信号 量 在 集合 的 队列 中 等 符 ， a 
其 脱 链 。 然后 扫描 该 进程 的 semundo 队列 ， 根 据 每 个 sem_undo 数据 结构 中 的 记载 ， 依 次 对 相应 信 己 
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集合 中 的 相应 信号 量 数 值 作 山 调 整 。 最 后 调用 update_queue( MARED BE TE TE A C A ER. 函数 的 代码 也 
在 seme P, RAEE HARE S CAE. 


6.8.3 ÆRA semctl( ) 一 一 信号 量 的 控制 与 管理 





与 msgctl( ) 大 同 小 异 。 函 数 sys_semetl( ) 的 代码 虽然 不 短 ， 逻 辑 却 很 简单 。 我 们 把 它 留 给 读者 了 。 
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7.1 系统 调用 socket( ) 


相对 于 传统 的 Unix IPC, “HHO”, Bll socket CAER EPR ERECTO, BARI BERTIE 
通信 机 制 。 它 既 适 用 于 同一 台 计 算 机 上 的 进程 间 通 信 ， 也 适用 于 网 络 环境 的 进程 间 通 信 ， 并 且 是 当今 
所 有 网 络 操作 系统 必 丰 可 少 的 基础 功能 。 本 章 侧 重 从 同 -~ 计算 机 上 :的 进程 间 通 信和 的 角度 介绍 socket 在 
Linux 内 核 中 的 实现 。 至 十 它 在 网 络 环 境 中 的 推广 ， 则 因 分 量 太 重 、 篇 幅 太 大 ， 只 好 留 作 为 一 本 书 的 内 
容 。 

在 Unix 的 发 展 史 中 ，AT&T 的 贝尔 实验 室 与 加 州 大 学 伯克利 分 校 的 伯克利 软件 发 布 中心 BSD) 
可 以 说 是 两 大 主力 。 当 ATAT 致力 十 改进 传统 的 Unix 进程 间 道 信 功 能 ， 从 而 形成 了 一 整套 SysV IPC 
机 制 的 同时 ，BSD 也 在 设法 对 其 加 以 改进 。 与 此 同时 ，BSD 又 最 早 将 计算 机 网 络 的 通信 和 规程， 特别 是 
当时 正在 成 形 的 TCP/IP 规程 ， 实 现 到 Unix 的 内 核 中 去 。 所 以 ， 对 于 当时 的 BSD 来 说 ,很 日 然 地 会 把 
二 者 结合 在 一 起 考虑 ， 把 同一 计算 机 (或 日 网 络 “ 节 点 ”) 上 的 进程 间 通信 纳入 更 广 的 、 网 络 范围 的 进 
程 间 通信 和 范畴， 从 而 设计 出 一 种 更 为 -- 般 化 的 进程 间 通 信 机 制 。 这 种 努力 的 结果 句 是 socket 机 制 ， 这 
一 机 制 其 实 是 命名 管道 在 计算 机 网 络 环境 下 的 实现 和 推广 。 

如 果 比 较 一 下 ATAT 和 BSD 各 自在 这 方面 的 努力 ， 就 可 以 看 出 ，AT&T 是 有 系统 地 、 全 而 地 对 传 
统 的 Unix IPC 加 以 改进 。 例 如 ， 针 对 在 某 些 应 用 中 (传统 Unix IPC 的 ) 效率 不 够 高 的 缺点 ， 设 计 和 开 
发 了 共享 内 存 机 制 : 针对 缺乏 进程 间 同 步 手 段 的 问题 ， 叉 设计 和 开发 了 用 户 空 间 的 信号 量 机 制 。 男 外 ， 
管道 要 占用 打开 文件 号 ， 便 引入 了 “ 键 值 ”的 概念 ， 从 人 而 避 开 了 使 用 打开 文件 号 。 但 起 ，AT&T 的 眼 
光 始 终 只 用 着 单一 计算 机 中 的 进程 间 道 信 。 而 BSD 则 正好 相反 ， 它 对 传统 Unix 进程 间 遂 信 的 改进 并 
不 是 有 系统 的 和 全 击 的 ， 可 是 它 的 眼光 却 跳 出 了 单机 的 范围 。 虽 然 socket 机 制 在 单机 范围 内 与 AT&T 
的 报 文 传递 机 制 在 概念 上 极为 相似 ， 但 是 却 更 为 一 般 化 ， 从 而 为 后 来 网 络 技术 的 茵 勃发 展 做 好 了 技术 
准备 。 可 以 说 ，SysV IPC 和 socket 是 互相 补充 而 不 是 各 搞 一 套 。 

至 于 Linux, RR BAIS. JE—SNEBUK PRT. 

顾名思义 ， 一 个 socket 就 好 像 个 通信 线 的 插 凯 。 只 要 通信 的 双方 部 有 插口 ， 并 且 两 个 插 门 之 间 
有 通信 线路 相连 接 ， 就 可 以 互相 通信 了 。 从 概念 上 说 ，socket 与 管道 其 实 并 无 多 人 区 曾 ， 如 果 把 两 个 
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fA Zia) "xEZEU Duk I”, 那么 插口 就 相当 丁 管道 两 端的 “水 龙头 ”， 而 且 二 者 都 表现 为 已 
打开 文件 。 不 同 的 趾 管道 两 端 只 能 在 同一 台 计 算 机 上 ， 而 通过 虚拟 的 “通信 线路 ”机 连接 的 上 商 个 播 口 
却 可 以 分 别 存在 于 计算 机 网 络 中 的 木 同 节点 二 。 当 然 ， 尽 管 二 者 在 概念 二 相似， 在 具体 的 实现 和 使 州 
上 却 有 着 很 大 的 不 同 。 而 且 ， 管 道 所 传递 的 是 无 结构 的 字 节 流 ， 而 通过 socket 传递 的 则 是 有 结构 的 报 
X. 

MEARS LAS MAE, SUORRULT PER, Bake, SURE. 

首先 是 网 域 ， 它 去 明 一 个 插口 是 用 十 哪 一 种 网 络 ， 或 者 说 哪 一 族 网 络 规 程 的 。 由 于 各 种 网 络 对 节 
点 地 址 的 命名 方法 不 同 ， 所 以 又 称 为 “地 址 族 ”(address family) 或 “规程 族 ”(protocol family)。 例 如 ， 
常数 AF_INET 表示 互联 网 ( 英 特 网 ) 插口 ， 所 以 各 节点 都 使 用 TP 地 址 ; 而 AF_IPX 则 为 Novell 的 IPX 
网 插口 ，AF_X25 为 X25 网 插口 ， 等 等 。 其 中 有 个 特例 ， 那 就 是 什么 网 也 不 是 ， 只 是 在 ，: 台 计算 机 上 
用 于 进程 各 通讯 ，BSD 为 这 种 特例 定义 的 域名 为 AFE_UNIX。 后 来 ， 在 POSIX 标准 里 又 定义 了 一 
AF LOCAL， 以 示 对 别 的 操作 系统 也 AZ. 

其 次 为 “类 型 ” 它 表 明 在 网 络 中 遂 信 所 遵循 的 模式 。 网 络 通信 有 两 种 主要 模式 ， 一 种 称 为 “有 连 
接 ” 或 “面向 连接 ”(connection oriented) 的 通信 ; 另 一 种 则 称 为 “无 连接 ”(connectionless) 通信 。“ 有 
连接 ”模式 常常 又 称 为 “ 虚 电 路 ”(virtual circuit) 模式 。 在 这 种 模式 中 ， 通 信 的 双方 要 先 通过 : 定 的 
步骤 在 互相 之 问 建立 起 一 种 虚拟 的 连接 ， 或 者 说 虚拟 的 线路 ， 然 后 骨 通 过 虚拟 的 连接 线路 进行 通信 。 
在 通信 的 过 程 中 ， 所 有 报 文 传递 都 保持 着 原来 的 次 序 ， 报 文 在 网 络 路 传输 的 过 程 中 受到 的 不 均匀 延迟 
会 在 接收 端 得 到 补偿 。 所 以 所 有 报 文 之 间 部 是 有 关联 的 ， 每 个 报 文 都 不 是 狐 立 的 。 更 重要 的 是 ， 在 这 
种 模式 中 所 有 报 文 的 传递 都 七 “可 靠 ” 的 ， 由 网 络 中 物 地 通信 线路 引入 的 差错 会 由 通信 规程 中 的 应 答 
和 重 发 机 制 加 以 克服 。 同 时 ， 在 这 种 模式 中 偿 提供 了 “流量 控制 ”的 王 段 。 从 用 户 的 角度 来 看 ,“ 有 连 
接 ” 类 型 的 插口 对 报 文 的 传递 作出 了 承诺 。 如 果 一 个 进程 通过 系统 调用 在 一 个 “有 连接 ”插口 上 发 送 
一 个 报 文 , 那么， 只 要 进程 从 这 次 系统 阅 用 正常 返回 ,就 说明 该 报 文 已 经 被 递 父 到 了 接收 方 的 插口 《但 
接收 方 进程 末 必 已 经 读 取 这 个 报 文 )。“ 无 连接 ”模式 就 水 同 了 。“ 无 连接 ”模式 常常 义 称 为 “数据 包 ” 
(datagram) 模式 ， 也 称 “ 面 向 报 文 ”的 通信 模式 (message oriented)。 在 “无 连接 ”模式 中 并 不 需要 
事先 在 双方 之 间 建 立 起 “ 虚 电 路 ”， 而 直接 就 可 以 发 送 或 接收 报 义 ， 但 起 得 个 报 文 都 是 孤立 的 ， 其 止 确 
ERRARE, EEA BEE A. MIR MR REL AIMEE, RA RARE, 
(SRSA TA BIR, 35204 Be HAC sc ny Be s AAR. DL, mu “CER” 
模式 的 插口 所 提供 的 报 文 传递 是 不 可 靠 的 , 它 对 咱 户 作出 的 承诺 只 是 “尽力 传递 ”, 但 却 是 没有 保证 的 。 
此 外 ， 在 “大连 接 ” 模 式 中 也 没有 “流量 控制 ”手段 。 如 果 一 个 进程 通过 系统 调用 在 一 个 “无 连接 ” 
插口 上 发 送 一 个 报 义 ， 那 么 当 进 程 从 这 次 系统 调用 赴 常 返 岂 时 只 是 说 明 该 插 让 将 会 例 行 公 种 地 将 报 文 
传递 到 接收 方 ， 但 并 不 表示 这 报 文书 经 到 达 了 接收 方 的 插口 。 从 男 一 个 角度 ， 还 可 以 说 ,“ 有 连接 ” 插 
口 的 报 文 传递 是 同步 的 ， 而 “无 连接 ”插口 的 报 义 传递 则 是 异步 的 。 

最 后 是 “规程 ”， 它 表明 其 体 的 网 络 规程 。 一 般 来 说 ， 网 域 和 类 型 结合 在 一 起 人 大体 上 就 确定 了 适用 
的 规程 。 例 如 ， 要 是 网 域 为 AF_INET， 而 类 型 为 “ 尤 连 接 ”， 则 规程 菇 本 上 就 是 UDP 了 。 但 是 ， 在 有 
些 情况 下 还 可 能 会 有 别 的 选 拌 ， 此 时 就 山 它 米 进一步 明确 具体 的 规程 。 

其 实 ， 插 口 的 这 三 个 特征 是 互相 联系 的 ， 归 根 结 底 就 是 反映 了 个 岳 口 所 运行 的 (网 络 ) 规程 。 
由 才 在 每 个 插口 的 后 面 都 隐藏 着 网 络 规程 ， 对 插口 的 比较 详尽 的 讨论 就 势必 要 涉及 到 计算 机 网 络 这 个 
课题 。 要 在 本 尿 中 谈论 计算 机 网 络 ， 并 进而 分 析 Linux. 内 核 中 有 关 网 络 规程 的 代码 是 不 红 实 的 ， 因 为 
ee 本 书 的 材料 了 。 所 以 ， 我 们 在 本 书 中 将 只 讨论 Unix 域 的 插口 ， 也 就 是 用 于 

一 计算 机 中 进程 间 通 信 的 插口 ， 隐 藏 在 这 种 插口 后 而 的 规程 是 “没有 规程 ”。 
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Unix 域 的 插口 同样 也 分 两 种 模式 ， 但 是 二 者 都 提供 可 靠 的 报 文 传递 。 在 网 络 环境 下 ， 不 可 靠 性 是 
由 网 络 的 基础 设施 〈 如 物理 线路 ) 引起 的 ， 两 种 不 同 模式 实际 上 反映 了 对 待 物 理 介质 的 不 可 靠 性 的 不 
同 态度 和 策略 。“ 有 连接 ”模式 采取 了 “大 包 大 揽 ” 的 态度 ， 企 图 在 不 可 靠 物理 介质 的 基 刨 上 构筑 起 一 
层 可 靠 的 报 文 传递 机 制 。 而 “无 连接 ”模式 则 采取 了 “了 矛盾 上 上 交 ” 的 态度 ， 说 “既然 物理 介质 不 可 靠 ， 
那 我 也 没有 办 法 , 只 能 有 什么 给 你 什么 ”让 用 户 自己 去 设法 克服 或 避免 由 此 而 引起 的 问题 。 可 是 , Unix 
域 的 插口 既然 只 提供 同一 台 计 算 机 上 的 进程 间 通 信 ， 而 根本 就 不 涉及 网 络 设施 ， 其 物理 介质 实际 上 就 
是 内 存 ， 那 就 根本 不 存在 由 物理 介质 引入 的 不 可 靠 性 。 不 过 ， 尽 管 Unix 域 插口 的 两 种 模式 都 提供 可 靠 
的 报 文 传递 ， 三 者 还 是 有 区 别 的 ， 读 完 本 节 以 后 就 会 清楚 这 些 区 别 。 

像 对 Sys V. IPC 操作 一 样 ，Linux 内 核 为 所 有 与 socket 有 关 的 操作 提供 一 个 统一 的 系统 调用 入 口 ， 
但 是 在 用 户 程 序 界面 上 则 通过 C 语言 程序 库 clib 提供 诸多 库 函 数 ， 看 起 来 就 好 像 都 是 独立 的 系统 调用 
一 样 。 内 核 中 为 socket 设置 的 总 入 口 为 sys_socketcall( )， 其 代码 在 net/socket.c 中 : 


1512 /* 

1513 * System call vectors 

1514 * 

1515 * Argument checking cleaned up. Saved 20% in size 

1516 * This function doesn't need to set the kernel lock because 
1517 * it is set by the callees. 

1518 */ 

1519 


1520 asmlinkage long sys socketcall(int call, unsigned long *args) 
1521 { 


1522 unsigned long a[6]; 

1523 unsigned long a0,al; 

1524 int err; 

1525 

1526 if (call<1| |cal1>SYS_RECVMSG) 

1527 return -EINVAL; 

1528 

1529 /* copy from user should be SMP safe. */ 
1530 if (copy from user(a, args, nargs[call])) 
1531 return -EFAULT; 

1532 

1533 a0-a[0] ; 

1534 al-a[1]; 

1535 

1536 switch(call) 

1537 { 

1538 case SYS SOCKET: 

1539 err = sys socket (a0, al, a[2]) ; 
1540 break; 

1541 case SYS BIND: 

1542 err = sys bind(a0, (struct sockaddr *)al, a[2]); 
1543 break; 

1544 case SYS_ CONNECT: 


1545 
1546 
1547 
1548 
1549 
1550 
1551 
1552 
1553 
1554 
1555 
1556 
1557 
1558 
1559 
1560 
1561 
1562 
1563 
1564 
1565 
1566 
1567 
1568 
1569 
1570 
1571 
1572 
1573 
1574 
1575 
1576 
1577 
1578 
1579 
1580 
1581 
1582 
1583 
1584 
1585 
1586 
1587 
1588 
1589 
1590 
1591 
1592 
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err = sys connect(a0, (struct sockaddr *)al, a[2]): 
break; 
case SYS LISTEN: 
err = sys_listen(a0, al); 
break; 
case SYS ACCEPT: 
err = sys_accept (a0, (struct sockaddr *)al, (int *)a[2]); 
break; 
case SYS GETSOCKNAME: 
err = sys getsockname (a0, (struct sockaddr *)al, (int *)a[2]); 
break; 
case SYS GETPEERNAME: 
err = sys geipeername(a0, (struct sockaddr *)al, (int *)a[2]); 
break; 
case SYS SOCKETPAIR: 
err = sys socketpair(a0,al, a[2], (int *)a[3]); 
break; 
case SYS SEND: 
err = sys send(aO, (void *)al, a[2], a[3]); 
break; 
case SYS SENDTO: 
err = sys sondto(a0, (void *)al, a[2], a[3], 
(struct sockaddr *X)a[4], a[5]); 
break; 
case SYS RECV: 
err = sys recv(a0, (void *)al, a(2], a[3]): 
break; 
case SYS RECVFROM: 
err = sys recvfrom(a0, (void *)al, a[2], a[3], 
(struct sockaddr *)a[4], (int *)a[5]); 
break; 
case SYS SHUTDOWN: 
err = sys_shutdown (a0, al); 
break: 
case SYS SETSOCKOPT: 
err = sys_setsockopt (a0, al, a[2], (char *)a[3], al4]): 
break; 
case SYS_GETSOCKOPT: 
err = sys_getsockopt (a0, al, a[2], (char *)a[3], (int *)a[4]); 
break; 
case SYS SENDMSG: 
err = sys sendmsg(a0, (struct msghdr *) al, a[2]); 
break; 
case SYS RECVMSC: 
err = sys recvmsg(a0, (struct msghdr *) ai, a[2]): 
break; 
default: 
err = ~EINVAL; 
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1593 break; 
1594 } 

1595 return err; 
1596 } 


函数 的 第 一 个 参数 call 即 为 具体 的 操作 码 ， 而 参数 args 为 指向 一 个 数组 的 指针 。 根 据 具体 操作 码 
的 不 同 ， 需 要 从 用 户 空 间 复制 参数 的 数量 也 不 同 。 为 了 根据 操作 码 确 定 需 要 从 用 户 空 间 复制 的 字 节 数 ， 
代码 socket.c 中 定义 了 个 数组 nargsf ]: 


1505 /* Argument list sizes for sys socketcall */ 

1506 &define AL(x) ((x) * sizeof(unsigned long)) 

1507 static unsigned char nargs[18]- (AL (0), AL (3), AL (3), AL (3), AL (2), AL (3), 
1508 AL (3), AL (3) , AL (4) , AL (4), AL (4) , AL (6), 

1509 AL (6), AL (2), AL (5), AL (5), AL(3), AL(3)} ; 

1510 #undef AL 


至 于 操作 码 ， 则 是 在 include/linux/net.h 中 定义 的 ; 


30 &define SYS SOCKET 1 /* sys socket (2) */ 
3l Hdefine SYS BIND 2 /* sys bind(2) */ 
32 define SYS CONNECT 3 /* sys connect (2) */ 
33 #define SYS LISTEN 4 /* sys listen(2) */ 
34 &define SYS ACCEPT 5 /* sys accept (2) */ 
35 define SYS GETSOCKNAME 6 /* sys getsockname(2)  */ 
36 define SYS _GETPEERNAME 7 /* sys getpeername(2)  */ 
37 üdefine SYS SOCKETPAIR 8 /* sys socketpair(2) */ 
38 #define SYS SEND 9 /* sys send(2) */ 
39 define SYS RECV 10 /* sys recv(2) */ 
40 #define SYS SENDTO 11 /* sys sendto(2) */ 
41 define SYS RECVFROM 12 /* sys recvfrom(2) */ 
42 #define SYS SHUTDOWN 13 /* sys shutdown(2) */ 
43 #define SYS SETSOCKOPT 14 /* sys setsockopt (2) */ 
44 &define SYS GETSOCKOPT 15 /* sys getsockopt (2) */ 
45 define SYS SENDMSG 16 /* sys sendmsg(2) */ 
46 Hdefine SYS RECVMSG 17 /* sys recvmsg (2) */ 


注释 中 括号 里 的 “2” 表 示 所 述 的 函数 为 系统 调用 。 

我 们 先 把 这 些 操作 码 〔 以 及 相应 的 遂 数 ) 分 下 类 ， 然 后 说 明 它们 的 用 途 ， 最 后 再 米 看 它们 龙 怎 
样 实现 的 。 

这 些 操作 码 (函数 ) 人 体 上 可 分 为 五 类 。 


71.1 插口 的 创建 与 撤除 


属于 这 - 类 的 操作 码 有 : 
è SYS SOCKET: 创建 ”个 插口 ， 其 用 户 程 序 兴 向 (由 libe 提供 ， 下 同 ) A: 
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int socket (int domain, int type, int protocol); 
REKREA AW TE dd DAE. EXE. A, RB — 1 2X protocol 为 0， 因 为 一 
般 来 说 前 岗 个 参数 确定 以 后 ， 上 只 体 的 规程 也 就 定 了 ， 所 以 用 O 表示 默认 由 系统 根据 前 两 个 参数 
确定 的 规程 ， 只 有 在 比较 特殊 的 应 用 中 才 需 要 指定 具体 的 规程 。 插 口 创建 成 功 以 后 返回 一 个 正 
整数 ， 实 际 上 是 一 个 打开 文件 号 。 但 这 个 打 升 文件 号 是 与 个 代表 插口 的 数据 结构 相 联系 的 ， 
并 不 是 与 磁盘 上 的 某 个 文件 相 联系 。 
€ SYS_BIND: 将 代表 着 … 个 插 门 的 打开 文件 号 与 某 一 个 域 中 的 可 寻 址 实体 或 “插口 地 址 ” 相 结 
合 。 例如， 在 互联 网 中 的 可 导 址 实体 为 网 中 以 IP 地 址 区 分 的 节点 ， 市 在 同一 和 节点 上 义 有 若干 
不 同 的 “传输 层 ” 收 发 口 〈 逻 辑 意义 上 )， 所 以 此 时 的 结合 就 是 与 P 地 址 加 收发 口 歇 辑 编号 的 
结合 。 在 Unix 域 中 ， 此 种 可 寻 址 实体 是 一 个 文件 名 ， 所 以 就 成 了 与 文件 名 的 结合 。 用 户 程序 
界面 为 : 
int bind(int sockfd , struct sockaddr *my_addr, socklen t addrlen); 
这 里 的 sockfd BUY socket( ) 所 返回 的 打开 文件 号 。 在 bind 到 某 个 地 址 或 文件 名 之 前 , 虽然 择 口 
已 经 建立 但 却 尤 从 寻访 。 如 果 说 socket( ) 好 像 是 安装 了 一 个 电话 机 的 话 ， 那 么 bind( ) 就 好 像 为 
它 指定 了 一 个 电话 号 码 。 
© SYS SOCKETPAIR: 创建 对 已 经 互相 连接 的 无 名 插口 ， 概 念 上 类似 于 pipe( )。 用 广 程 序 界面 
为 : 
int socketpair (int domain, int type, int protocal ， int sv[2]); 
前面 三 个 参数 与 socket( ) 相 同 ， 数 组 sv[ ] 则 用 来 返回 创建 后 的 一 对 打开 文件 号 。 
€ SYS SHUTDOWN: 部 分 或 完 件 关闭 一 个 播 上 HH， 用 户 程 序 界面 为 : 
int shutdown (int s, int how); 
参数 s 为 插口 的 打开 文件 号 ， 参 数 how 为 0 表示 不 再 允许 接收 ，!1 表示 不 冉 允 许 发 送 ，2 则 表 
示 接 收 和 发 送 都 不 再 允许 。 由 于 插口 体现 为 特殊 的 打开 文件 ， 所 以 也 可 以 用 close( ) 来 关闭 。 


7.12 插口 闻 连 接 的 建立 


“有 连接 ”模式 通信 和 的 双方 是 不 对 称 的， 可 以 说 大 生 就 是 clienVserver 的 关系 。 而 连接 的 建立 则 必 
须 经 过 一 定 的 步骤 ; 
€ SYS_LISTEN: 作为 server 的 一 方 首先 要 通过 listen) AR “FES”. RAL TSN AS 
被 内 核 视 为 server 一 侧 的 插口 并 允许 人 接受 来 自 client - 侧 的 连接 请 求 。 用 广 程 序 界面 为 : 
int listen(int s, int backlog); 
参数 s 即 为 插口 的 打开 文件 号 。 当 连接 请 求 到 来 , 而 时 得 不 到 接受 对, 就 暂时 进入 个 队列 ， 
在 那里 等 待 server 方 的 接受 。 这 里 的 参数 backlog 就 规定 了 这 个 队列 的 最 大 长 虐 。 
€ SYS CONNECT: 在 “有 连接 ”模式 中 ，client 一 方 要 通过 connect( ) 向 已 经 挂 了 号 的 server 
方 插口 请 求 连接 。 用 户 程序 界面 为 ， 
int connect (int sockfd, const struct sockaddr *serv addr, socklen t addrlen): 
参数 sockfd 为 client “ 侧 插口 的 打开 文件 号 ，serv_addr 则 指向 一 个 表示 server 方 插口 地 址 的 数 
据 结构 。 当 然 ， 这 个 地 址 必须 已 经 由 server 方 通过 bind( ) 指 定 给 server FHL. STAR 
域 中 的 地 址 可 能 不 是 固定 长 度 的 ， 所 以 还 柴 有 个 参数 addrlen 来 指明 其 长 度 。 
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对 connect( ) 的 调用 一 般 要 到 server 方 接受 了 连接 或 者 出 错时 才 返 回 。 

€  SYS ACCEPT: server 方 通过 accept( ) 接 受 或 等 待 接受 到 米 的 〈 或 已 经 在 队列 中 的 ) 第 个 连 
接 请 求 。 用 户 程序 办 面 为 : 

int accept(int s, struct sockaddr *addr , socklen t *addrlen) ; 

参数 s 为 一 个 已 经 挂 了 号 的 server 方 插口 (打开 文件 号 )， 参 数 addr 与 addrlen 则 用 来 返回 连接 
PRA, tH RE client 方 插口 的 地 址 。 对 accept( ) 调 用 要 到 有 连接 请 求 到 来 而 建立 起 连接 ， 
或 者 发 生 了 出 错时 才 返 回 。 
特别 要 说 明 的 是 ， 这 个 北 数 返回 “个 新 的 打开 文件 号 。 这 个 新 的 打开 文件 号 就 代表 者 已 经 建立 
起 连接 的 server 方 插口 。 而 原来 的 插口 s， 则 保持 原样 不 变 ， 又 可 以 用 来 接受 新 的 〈 其 他 的 ) 
连接 请 求 。 这 个 插口 就 好 像 是 下 蛋 的 鸡 ， 等 接受 -个 连接 请 求 就 生 下 -个 “ 蛋 ”， 那 就 是 已 经 
建立 起 连接 的 插口 。 在 业 型 的 应 用 中 ，server 进程 在 通过 accept( ) 接 受 了 -个 连接 请 求 ， 从 而 
与 一 个 client 进程 建立 起 -个 连接 以 后 ， 就 会 通过 fork( ) 创 建 出 -个 了 进程。 然后 ， 子 进程 将 
作为 “种 籽 ” 的 server 方 插口 关闭 ， 而 使 用 新 的 插口 与 client 进程 道 信 并 为 之 提供 服务 。 而 父 
进程 则 把 新 的 插口 关闭 ， 并 且 再 一 次 调用 accept( )， 通 过 “种 籽 ” 播 口 来 接受 新 的 连接 请 求 。 
这 就 是 典型 的 client/server 运行 模式 。 


7.1.3 “有 连接 ”模式 的 报 文 发 送 与 接收 


“有 连接 ”模式 的 插 册 一 定 要 在 client 和 server 双方 建立 起 连接 以 后 才能 用 于 通信 。 由 二 插口 在 用 
户 界面 上 表现 为 已 打开 文件 ， 并 且 “ 有 连接 ”模式 的 通信 既是 可 靠 的 又 保持 原 有 的 次 序 ， 所 以 可 以 把 
传递 的 信息 看 作 有 序 的 字 节 流 ， 从 而 可 以 用 普通 的 read( ) 和 write( ) 系 统 调用 ， 像 读 / 写 普通 文件 一 样 地 
来 接收 和 发 送信 息 。 除 此 之 外 ， 也 可 以 用 专门 为 插口 而 设 的 二 对 库 函 数 之 一 来 接收 和 发 送 ， 即 
recv( Ysend( ).. recvfrom( )/send_to( ) 以 及 recvmsg( )/sendmsg( )。 不 过 ， 这 些 库 函数 主要 用 本 “无 连接 ” 
模式 ， 所 以 我 们 将 它们 与 “ 雹 连接 ”模式 的 发 送 与 接收 放 在 一 起 介绍 。 这 里 偿 要 指出 ， 无 论 十 “有 连 
接 ” 还 是 “无 连接 ”模式 ， 插 口 都 是 双向 的 ， 并 且 就 发 送 和 接收 而 言 双方 是 对 称 的 。 


7.1.4 “无 连接 ”模式 的 报 文 发 送 与 接收 


muy, “无 连接 ”模式 的 插口 不 需要 事先 建立 连接 , 插口 一 经 创建 马上 就 可 以 发 送 或 接收 报 文 。 
^! 方面 ， 由 二“ 无 连接 ”模式 的 通信 证 不 是 可 靠 的 ， 也 不 一 定 保 持原 有 的 次 序 ， 所 以 不 宜 用 read( ) 
和 wie ) 像 对 待 一 个 有 序 字 节 流 汪 样 使 用 “无 连接 ” 模 工 的 插口 ， 而 要 用 专门 设置 的 尖 组 库 冰 数 来 进 
行 。 与 文件 操作 read( )、write( ) 相 比 ， 这 三 组 函数 的 特点 是 它们 都 保留 报 文 的 边界 ， 有 关 这 一 点 读者 
在 后 面 看 了 源 代 码 以 后 就 清楚 了 。 
e SYS SENDTO: 如 前 所 述 ,“ 无 连接 ”模式 的 插口 “经 建立 〈 并 且 bind 到 个 播 口 地 址 ) 以 
后 就 可 以 进行 通信 ， 而 无 需 先 建立 连接 。 当 然 ， 此 时 对 所 发 送 的 每 个 报 文 都 要 提供 对 方 的 地 址 
《在 “无 连接 ”模式 中 ， 千 个 报 文 都 是 独立 的 )， 所 以 ，sendto( ) 的 用 户 程 序 界面 为 ; 
int sendto( int s, const void * msg, size t len, int flags, 


const struct sockaddr *to, socklen t tolen); 
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显然 , 这 个 函数 是 专 为 “无 连接 ”模式 的 报 文 发 送 而 设置 的 , 参数 to 指向 对 方 的 地 址 即 sockaddr 
数据 结构 ， 而 tolen 则 为 地 址 的 长 度 。 虽 然 这 个 函数 的 界面 是 专 为 “无 连接 ”模式 设计 的 ， 但 
是 也 可 以 用 这 个 嚼 数 在 “有 连接 ”模式 的 插口 上 发 送 报 文 , 不 过 此 时 应 将 参数 to 设置 成 NULL， 
而 将 tolen 设置 成 0。 
ARS, HE SYS_SENDTO 是 由 sys sendto( ) 实 现 的 。 

SYS SEND: 从 用 户 程序 界面 米 看 ，send( ) 似 乎 十 要 是 为 “有 连接 ”模式 设计 的 : 

int send(int s, const void *msg, size t len, ‘int flags); 

Ej sendto( ) 的 界面 相 比 ， 这 里 没有 提供 对 方 的 地 址 。 在 “有 连接 ”模式 中 ， 连 接 已 经 事先 建立 
好 ， 当 然 不 需要 每 次 都 提供 对 方 地 址 了 。 但 是， 即使 在 “无 连接 ”模式 中 ， 当 准备 接连 回 同 一 
目标 发 送 很 多 个 报 文 时 ， 每 次 都 要 提供 对 方 的 地 址 。 这 样 做 既 盯 烦 又 降低 了 效率 〈 每 次 都 要 从 
用 户 空 间 把 地 址 复制 到 内 核 中 )。 是 不 是 可 以 简化 一 下 了 呢 ? Bld, ABATE “PT” 个 双 
方 地 址 ， 随 后 就 采用 send( ) 来 发 送 ， 而 不 必 每 次 都 重复 地 提供 相同 的 地 址 。 事 实 正 是 这 样 ， 对 
于 “ 尤 连接 ”模式 的 插 日 ， 可 以 用 conet ) 先 设置 一 个 对 方 地 址 ， 然 后 自用 send( ) 发 送 报 文 ， 
而 实际 上 每 次 都 使 用 预先 设置 好 的 对 方 地 址 。 但 是 机 注 意 ， 在 “无 连接 ”模式 中 使 用 connect( ) 
与 在 “有 连接 ”模式 中 使 用 connect( ) 有 人 本质 的 区 别 。 在 “万 连 接 ” 模 式 中 ，connect( ) 的 作用 只 
是 让 内 核 为 “本 地 ”插口 记 下 预 设 的 对 方 地 址 ， 山 并 不 涉及 与 对 方 之 间 控 制 报 文 的 往返 。 以 后 
则 在 发 送 的 每 个 报 文 头 部 附 上 这 个 地 三 ， 以 指明 报 文 的 日 的 地 。 至 于 在 “有 连接 ”模式 中 的 
connect( )， 则 实际 向 对 方 发 送 一 个 请 求 连 接 的 控制 报 文 〈 指 在 网 络 环境 下 )， 并 等 待 对 方 的 响 
应 。 连 接 建 记 了 以 后 ， 随 同等 个 报 文 发 送 的 可 以 只 是 一 个 连接 号 ， 而 不 一 定 要 包括 对 方 地 址 。 
所 以 ， 虽 然 在 形式 上 两 种 模式 部 可 以 使 用 connect( )， 并 且 有 时 把 经 过 connec ) 预 设 好 对 方 地 
址 的 “无 连接 ”插口 也 说 成 是 处 于 “已 连接 状态 ”， 但 实质 上 是 完全 不 同 的 。 读 者 在 资料 中 碰 
到 此 类 词句 时 要 注意 根据 上 下 文 加 以 区 分 。 
在 内 核 中 ，SYS_SEND 是 由 sys send( ) 实 现 的 ， 而 sys_send( ) 又 是 由 sys, sendto( ) 实 现 的 ， 代码 
Ji, net/socket.c: 


[sys. socketcall( ) > sys. send( )] 
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asmlinkage long sys send(int fd, void * buff, size t len, unsigned flags) 
{ 
return sys sendto(fd, buff, len, flags, NULL, 0); 


} 
€ SYS_SENDMSG: 库 函 数 sendmsg( ERA e& E 4f) SR, BH RODA MEAS, 
KA REP AA: 
int sendmsg(int s , const struct msghdr *msg, int flags); 


参数 msg 指向 一 个 msghdr 数据 结构 ， 定 义 于 socket.h: 


struct msghdr { 


void *msg name; /* Socket name */ 

int msg namelen; /* Length of name */ 

struct iovec  -*msg iov; /* Data blocks */ 
__kernel_size_t msg_iovien; /* Number of blocks */ 
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void *msg control;  /*Per protocol magic(eg BSD file 
descriptor passing)*/ 
kernel size t msg controllen; /* Length of cmsg list */ 





unsigned msg flags; 


每 个 msghdr 数据 结构 都 代表 着 一 个 报 文 。 在 msghdr 结构 中 ，msg_name 为 对 方 的 插口 地 
址 《或 者 也 可 以 称 作 插口 名 )。 而 msg iov 则 指向 一 个 结构 数组 ， 该 数组 中 的 每 一 个 元 素 都 是 
一 块 数据 ， 这 样 一 个 报 文 的 内 容 就 可 以 分 散在 若干 个 互 不 连续 的 缓冲 区 中 ， 而 在 逻 缉 上 却 连 在 
一 起 ， 在 网 络 环境 下 这 起 很 有 好 处 的 。 还 有 ，msg_control 和 msg, controllen 的 作用 是 传递 控制 
信息 ， 在 Unix 域 中 用 来 在 进程 间 传 递 访问 权限 ， 还 可 以 用 来 传递 “打开 文件 描述 体 ”。 这 些 以 
后 再 介绍 。 

由 于 每 个 报 久 都 有 个 对 方 地 址 ， 这 显然 适合 十 “万 连接 ”模式 。 但 是 ， 像 sendto( ) 一 样 ， 
它 也 可 以 用 于 “有 连接 ”模式 中 ， 不 过 要 将 msg. name 设 成 NULL, msg_namelen 设 成 0. 

SYS_RECV、SYS_RECVFROM、SYS_RECVMSG: 这 二 个 操作 都 是 用 来 从 某 个 揪 口 s 接收 
报 文 的 ， 并 且 分 别 与 前 列 用 来 发 送 报 文 的 操作 相对 应 ， 所 以 我 们 把 它们 合并 在 一 起 叙述 。 完 成 
这 些 操 作 的 库 函 数 为 : 

int recv(int s, void *buf, size t len, int flags); 

int recvfrom(int s, void *buf , size t len, int flags, 
struct sockaddr *from, socklen t *fromlen); 

int recvmsg (int s, struct msghdr *msg, int flags); 

与 发 送 报 文 的 库 函 数 类 似 ，recv( MBA “Ae” CH, RAA “LER” 
模式 的 插口 ， 但 却 已 经 用 connect( ) 预 设 了 对 方 地 址 。 丽 数 recvfrom( ) 的 接收 是 全 方位 的 ， 参 数 
from 并 不 是 用 来 指定 接收 来 自 哪 个 远方 插口 的 报 义 , 而 是 用 来 在 接收 到 一 个 报 交 时 指明 报 艾 
的 来 源 。 所 以 from 所 指向 的 数据 结构 只 是 一 个 用 于 返回 报 义 来 源 的 缓冲 |x， 而 fromen MHN 
为 该 缓冲 区 的 大 小 。 在 内 核 路 ，SYS_RECV 由 sys_recv( ) 实 现 ，SYS_RECVFROM 则 由 
sys recvfrom( ) 实 现 。 但 是 ， 就 像 sys_send( ) 与 sys_sendto( ) 之 间 的 关系 一 样 ，sys_recv( ) 也 是 通 
过 sys recvfrom( ) 实 现 的 ， 代 个 见 net/socket.c: 


[sys_socketcall( ) > sys_recv( )] 
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1259 
1260 
1261 


asmlinkage long sys recv(int fd, void * ubuf, size t size, unsigned flags) 
{ 

return sys recvfrom(fd, ubuf, size, flags, NULL, NULL); 
} 


也 就 是 说 ， 如 果 把 recvfrom( ) 的 参数 from 和 fromlen 设置 成 NULL, LER recv( ) 一 样 了 。 
函数 recvmsg( ) 则 与 sendmsg( ) 相 对 应 ， 也 具有 将 一 个 报 文 的 内 容 分 散在 若 十 个 缓冲 区 内 的 功 
能 ， 并 且 具 有 接收 控制 信息 的 功能 。 
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7.1.5 ”控制 以 及 辅助 性 的 操作 


€ SYS GETSOCKNAME: 库 函 数 getsockname( ) 用 来 获取 为 一 个 插口 s 指定 (bind》 的 地 址 或 名 
F: 
int getsockname(int s, struct sockaddr *name , socklen_t *namelen); 
@ SYS_GETPEERNAME:“ 有 连接 ”模式 的 插口 ， 不 管 是 client 方 还 是 server 方 ， 一 旦 建立 起 连 
接 以 后 就 有 了 :个 “对 方 ”。 EAR getpeername( ) 州 来 获取 插口 s 的 对 方 插 口 的 地 址 RAF): 
int getpeername(int s, struct sockaddr * name , socklen t * namelen); 
€ SYS SETSOCKOPT. SYS GETSOCKOPT: /# 2% setsockopt( ) 和 getsockopt( ) 用 米 设 置 和 读 
HX 个 插 门 s 所 实行 规程 中 的 一 些 可 选项 ， 由 于 可 选项 都 是 在 网 络 坏 境 下 运用 的 ， 而 本 书 只 讲 
IÈ Unix 域 的 插 帖 ， 所 以 我 们 在 这 里 并 不 关心 这 两 个 函数 。 
有 了 上 面 这 些 预 备 知识 以 后 ,我 们 就 可 以 从 下 一 节 开 始 介绍 socket 通 信和 机 制 在 Unix 域 中 的 实现 了 。 
为 了 往 后 阅读 的 方 使 ， 此 处 先 给 出 利用 插口 实现 进程 间 通 信和 的 流程 示意 图 (图 7.1)。 
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图 7.1 插 日 通信 流程 示意 图 


7.2. ”函数 sys_socket( ) 一 一 创建 插口 


操作 SYS_SOCKET 是 山 sys_socket( ) 实 现 的 ， 其 代码 在 net/socket.c 中 : 


. I0 . 
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[sys_socketcall( ) > sys, socket( )] 
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asmlinkage long sys socket(int family, int type, int protocol) 
{ 

int retval; 

struct socket *sock; 


retval = sock create(family, type, protocol, &sock); 
if (retval < 0) 
goto out; 


retval - sock map fd(sock); 
if (retval < 0) 
goto out release; 


out; 
/* [t may be already another descriptor 8) Not kernel problem. */ 
return retval; 


out release: 
sock release(sock); 
return retval; 


} 


前 面 说 过 ， 插 品 对 十 用 户 程序 而 言 就 是 特殊 的 已 打开 文件 。 内 核 中 为 插口 定 义 了 一 种 特殊 的 文件 


类 型 ， 形 成 .种 特殊 的 文件 系统 sockfs， 定 义 十 net/socket.c P: 
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static struct vfsmount *sock mnt; 
static DECLARE FSTYPE(sock fs type, “sockfs”, sockfs read super, 
FS NOMOUNT;FS STNGLE) ; 


在 系统 初始 化 时 ， 要 通过 kern. mount( ) 安 装 这 个 文件 系统 。 安 装 时 有 个 作为 连接 件 的 vfsmount 数 


据 结构 ， 这 个 结构 的 地 址 就 保存 在 一 个 全 局 的 指针 sock_mnt 中 。 所 谓 创建 个 插口 ， 就 是 在 sockfs X 
件 系统 中 创建 一 个 特殊 文件 ， 或 者 说 一 个 节点 ， 并 建立 起 为 实现 插口 功能 所 需 的 一 整套 数据 结构 。 所 
以 首先 是 建立 -- 个 socket 数据 结构 ， 然 后 将 其 “ 喘 射 ”到 一 个 已 打开 文件 中 。 冰 数 sock create( ) 的 代 
个 在 同一 文件 socket.c)!。 这 段 代码 山 于 比较 长 ， 我 们 分 段 米 看 : 


[sys_socketcall( ) > sys_socket( ) > sock_create( )] 


814 
815 
816 
817 
818 
819 
820 


int sock create (int family, int type, int protocol, struct socket **res) 
{ 

int i; 

struct socket *sock; 


/* 


* Check protocol is in range 


.H. 
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821 */ 

822 if (family<0 || family>=NPROTO) 

823 return -EAFNOSUPPORT; 

824 

825 /* Compatibility. 

826 

827 This uglymoron is moved from JNET layer to here to avoid 

828 deadlock in module load. 

829 */ 

830 if (family == PF INET && type == SOCK PACKET) { 

831 static int warned; 

832 if (Iwarned) { 

833 warned = 1; 

834 printk(KERN INFO “%s uses obsolete (PF_INRT, SOCK PACKED) W^, 
current-^comm); 

835 } 

836 family = PF PACKET; 

837 } 

838 

839 #if defined (CONFIG_KMOD) && defined (CONFTG_NET) 

840 /* Attempt to load a protocol module if the find failed. 

841 * 

842 * 12/09/1996 Marcin: But! this makes REALLY only sense, if the user 

843 * requested real, full-featured networking support upon configuration 

844 * Otherwise module support will break! 

845 */ 

846 if (net families[family]==NULL) 

847 { 

848 char module name[30]; 

849 sprintf (module name, "net pf-*d", family); 

850 request module (module name); 

851 } 

852 #endif 

853 

854 net family read lock( ); 

855 if (net families[family] == NULL) { 

856 i = -EAFNOSUPPORT ; 

857 goto out; 

858 ] 

859 


这 一 段 代码 的 开始 部 分 是 检查 和 处 理 参 数 的 范围 . 山 于 我 们 在 这 里 只 关心 Unix 38, EAE family 

为 AF UNIX 叶 的 情景 ， 所 以 这 段 代 码 对 我 们 不 起 什么 作用 。 接 下 来 是 “ 段 条 件 编译 ， 如 果 系 统 配 着 

了 可 动态 安装 内 核 模块 的 功能 ， 并 且 网 络 驱动 程序 是 动态 安装 的 ， 就 要 检查 一 下 由 参数 family 所 指定 

网 域 的 驱动 程序 是 否 已 经 安装 ， 尚 未 安装 的 话 就 要 调用 request module( ) 把 它 安 装 起 来 。 至 于 Unix W 

插 凯 的 驱动 程序 ， 那 是 内 核 所 固有 的 ， 并 水 动态 安装 的 模 朵 。 此 外 ， 就 像 每 种 文件 系统 都 有 个 

file. operations 数据 结构 样 ， 每 种 网 域 ， 包 括 Unix 域 ， 也 都 有 个 net proto. family 数据 结构 。 企 系统 
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初始 化 或 安装 模块 时 ， 要 将 指向 相应 网 域 的 这 个 数据 结构 的 指针 卉 入 一 个 数组 net. families[ JF, AN) 
就 说 明 系 统 尚 不 支持 给 定 的 网 域 。Unix JE] net proto family 数据 结构 为 unix_family_ops， 定 义 于 


net/unix/af_unix.c 中 : 


1844 struct net proto family unix family ops = | 


1845 PF UNIX, 
1846 unix create 
1847 }; 


就 是 说 ,结构 中 只 有 :个 代表 着 Unix 域 的 常数 PF UNIX M --4S eA GRE unix. create; iff PF UNIX 
决定 了 指向 这 个 数据 结构 的 指针 在 net families ] 中 的 位 置 。 
上 到 sys_socket( ) 中 继续 往 下 看 (socket.c); 


[sys_socketcall( ) > sys socket( ) > sock create( )] 


862 /* 

863 * Allocate the socket and allow the family to set things up. if 
864 * the protocol is 0, the family is instructed to select an appropriate 
865 * default. 

866 */ 

867 

868 if (! (sock = sock alloc( ))) 

869 { 

870 printk (KERN WARNING "socket: no more sockets\n’) ; 

871 i = -ENFTLE; /* Not exactly a match, but its the 
872 closest posix thing */ 

873 goto out; 

874 } 

875 

876 sock->type - type; 

877 

878 if (( = net families[family]—>create (sock, protocol)) < 0) 
879 { 

880 sock_rel ease (sock) ; 

881 goto oul; 

882 } 

883 

884 *res = sock; 

885 

886 out: 

887 net family read unlock( ); 

888 return |; 

889 ] 


插口 是 由 socket 数据 结构 代表 的 ， 这 种 数据 结构 定义 于 include/linux/net.h | IE 
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65 Struct socket 

66 { 

67 socket_state state; 

68 

69 unsigned long flags; 

70 struct proto ops *Oops; 

71 struct inode *i node; 

72 struct fasync struct *fasync list; /* Asynchronous wake up list */ 
73 struct file *file; /* File back pointer for gc */ 
74 struct sock *sk; 

75 wait queue head t wail; 

76 

77 short type; 

78 unsigned char passcred; 

73 k 


结构 中 各 个 成 分 的 用 途 随 着 代码 的 阅读 会 变 得 清楚 起 来 , KBB ANSE ARE MOLT. 
不 过 我 们 建议 读者 在 搞 清 了 这 些 成 分 的 用 途 以 后 再 局 过 头 来 上 月 己 加 上 注释 。 
函数 sock_alloc( ) 分 配 - 个 socket 数据 结构 并 进行 ，: 些 初始 化 ， 其 代码 在 net/socket.c P: 


[sys_socketcall( ) > sys socket( ) > sock create( ) > sock alloc( )] 


427 fk 

428 * sock alloc - allocate a socket 
429 * 

430 * Allocate a new inode and socket object. The two are bound together 
431 * and initialised. The socket is then returned. If we are out of inodes 
432 * NULL is returned. 

433 */ 

434 

435 struct socket *sock alloc(void) 

436 { 

437 struct inode * inode; 

438 struct socket * sock; 

439 

440 inode = get empty inode( ); 

441 if (!inode) 

442 return NULL; 

443 

444 inode-^i sb = sock mnt-?mnt. sb; 

445 sock = socki lookup(inode); 

446 

447 inode->i_mode = S IFSOCK|S IRWXUGO; 
448 inode->i_ sock = 1; 

449 inode->i_uid = current->fsuid; 

450 inode->i_gid = current->fsgid: 

451 
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452 
453 
454 
455 
456 
457 
458 
459 
460 
461 
462 
463 


) 
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sock->inode = inode; 

init waitqueue_head (&sock->wait) ; 
sock->fasyne_list = NULL; 
sock-»state = SS UNCONNECTED; 
sock->flags = 0; 

sock-^ops = NULL; 

sock->sk = NULL; 

sock->file = NULL; 


sockets in use[smp processor_id( )].counter**; 
return sock; 


可 见 , 取 得 :个 inode 结构 是 取得 一 个 socket 结构 的 必要 条 件 . 不 仅 如 此 ,socket 结构 其 实 只 是 inode 


结构 中 的 一 部 分 ! 读者 在 “文件 系统 ”一 章 中 看 到 过 有 关 inode 数据 结构 的 说 明 ， 在 inode 结构 中 有 一 
个 关键 性 的 成 分 u。 这 是 一 个 union, 要 按 有 具体 的 文件 类 型 和 格式 而 解释 成 不 同 的 数据 结构 。 日 前 Linux 
支持 20 多 种 不 同 的 文件 系统 ， 因 此 对 这 个 union 有 20 多 种 不 同 的 解释 ， 而 socket 结构 正 是 其 中 之 一 。 
代码 中 445 行 的 socki_lookup( ) 只 是 将 inode 结构 中 的 这 个 union 解释 为 socket 结构 而 已 , 见 net/socket.c 
中 的 代码 : 


[sys_socketcall( ) > sys. socket( ) > sock_alloc( ) > socki lookup( )] 


377 
378 
379 
380 


extern | inline _ struct socket *socki lookup (struct inode *inode) 


{ 


} 


return &inode >u. socket_i; 


同时 ， 在 inode 结构 中 还 此 将 i_mode 里 的 S_IFSOCK 标志 位 设 成 1， 并 将 i sock 也 设 成 1， 以 示 


这 个 inode 结构 所 代表 的 并 不 是 磁 秃 文件 ， 而 是 一 个 插口 。 
分 配 了 一 个 socket 结构 ， 并 且 设 置 好 插口 的 类 型 以 后 ， 就 通过 山 unix_family_ops 提供 的 函数 指针 
create 调用 Unix 域 的 插口 创建 程序 unix_create( )， 其 代码 在 af. unix.c P: 


[sys socketcall( ) > sys socket( ) > sock create( ) > unix create( )] 


498 
499 
500 
501 
502 
503 
504 
505 
506 
507 
508 
509 


static int unix create (struct socket *sock, int protocol) 


{ 


if (protocol && protocol != PF_UNIX) 
return ~EPROTONOSUPPORT ; 


sock-»state = SS UNCONNECTED: 


switch (sock type) | 
case SOCK STREAM: 
sock->ops = &unix, stream ops; 
break; 
/* 
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510 
511 
512 
513 
514 
515 
516 
517 
518 
519 
520 
521 
522 
523 


) 


*/ 
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* Believe it or not BSD has AF UNIX, SOCK RAW though 
* nothing uses it. 


case SOCK RAW: 
sock-^type-SOCK DGRAM; 
case SOCK DGRAM: 


sock-^ops = &unix dgram ops; 


break; 
default: 


return -ESOCKTNOSUPPORT; 


} 


return unix createl (sock) ? 0: 


—ENOMEM ; 


参数 protocol 是 从 用 户 空间 一 直 传 下 来 的 ， 若 为 0 则 默认 为 Unix 域 。 插 口 的 初始 状态 设置 成 


SS_UNCONNECTED,“ 有 连接 ”模式 ， 即 类 规 为 SOCK_STREAM 的 插口 必须 在 建立 了 连接 以 后 才能 
使 用 。 插 口 的 类 型 决定 了 通信 的 模式 ， 对 十 给 定 的 网 域 这 通常 也 决定 了 采用 的 规程 。 对 插口 的 各 种 操 
作 内 规程 的 不 同 而 异 ， 所 以 各 种 规程 都 和 其 自己 的 一 套 插口 操作 ,通过 一 个 proto ops 数据 结构 提供 有 
关 的 函数 指针 。 根 据 插 口 类 型 的 不 同 ， 这 里 把 socket 结构 中 的 指针 分 别 设置 成 unix stream ops 或 
unix_dgram_ops。 这 岗 个 数据 结构 均 定义 十 net/unix/af_unix.c 中 : 


1804 
1805 
1806 
1807 
1808 
1809 
1810 
1811 
1812 
1813 
1814 
1815 
1816 
1817 
1818 
1819 
1820 
1821 
1822 
1823 
1824 
1825 
1826 
1827 
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struct proto ops unix stream ops = | 


] ; 


family: 


release: 
bind: 
connect: 
socketpair: 
accept: 
getname: 
poll: 
ioctl: 
listen: 
shutdown: 
setsockopt: 
getsockopt: 
sendmsg: 
recvmsg: 
mmap: 


PF UNIX, 


unix release, 

unix bind, 

unix stream connect, 
unix socketpair, 
unix accept, 

unix geliname, 

unix poll, 

unix ioctl, 

unix listen, 

unix shutdown, 

sock no setsockopt, 
sock no getsockopt, 
unix stream sendmsg, 
unix stream recvmsg, 
sock no mmap, 


struct proto ops unix dgram ops - { 


family: 


release: 


PF UNIX, 


unix release, 
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1828 bind: unix bind, 

1829 connect: unix dgram connect, 
1830 socketpair: unix socketpair, 
1831 accept: sock no accept, 
1832 getname: unix getname, 

1833 poll: datagram poli 

1834 loctl: unix ioctl 

1835 listen: sock no listen, 
1836 shutdown: | unix shutdown, 

1837 setsockopt: sock no setsockopt, 
1838 getsockopt: sock no getsockopt, 
1839 sendmsg: unix dgram sendmsg, 
1840 recvmsg: unix dgram recvmsg, 
1841 mmap: sock no_mmap, 

1842 后 


对 比 一 下 上 列 这 两 个 数据 结构 ， 就 可 以 看 出 在 无 连接 模式 皂 口 中 对 应 本 accept 的 函数 为 
sock_no_accept( )， 这 个 组 数 只 是 返回 一 个 出 错 代 码 一 EOPNOTSUPP， 表 示 不 支持 所 要 求 的 操作 。 辣 样 
地 , 也 不 支持 listens 同时, 两 种 模式 的 Unix 域 质 口 部 不 支持 setsockopt 和 getsockopt, 也 不支 持 mmap» 
不 过 ， 如 前 所 述 ， 对 于 用 户 程序 而 言 ， 插 口 就 是 已 打开 文件 ， 所 以 还 可 能 通过 常规 的 文件 操作 界面 支 
持 一 些 比较 通用 的 操作 ， 有 些 操作 如 unix poll( ). unix ioctl( ) 等 ， 并 不 是 通过 sys_socketcall( ) 来 调用 
的 ， 而 要 通过 普 道 的 文件 操作 界面 来 调用 。 

此 外 ， : 般 网 域 的 插口 类 型 除 SOCK_STREAM 和 SOCK_DGRAM 外 还 有 一 种 SOCK_RAW， 也 
是 无 连接 模式 的 ,在 Unix 域 中 则 等 同 二 SOCK_DGRAM, 所 以 514 行 把 插口 类 型 改 成 SOCK_DGRAM, 
注意 在 514 行 下 面 没 有 break iB 4. 

最 后 ，unix_create( ) 调 用 unix_cereate1()， 进 一 步 完 成 创建 插口 的 任务 (af_unixc)， 


[sys_socketcall( ) > sys. socket( ) > sock create( ) > unix create( ) > unix createl( )] 


463 static struct sock * unix createl(struct socket *sock) 


464 { 

465 struct sock *sk; 

466 

467 if (atomic read(&unix nr socks) >= 2*files stat.max files) 
468 return NULL; 

469 

470 MOD INC USE COUNT; 

471 sk = sk alloc(PF UNIX, GFP KERNEL, 1); 
472 if (sk) { 

413 MOD DEC USE COUNT; 

474 return NULL; 

475 } 

476 

477 atomic inc(&unix nr socks); 

478 

419 sock init data(sock, sk); 
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480 

48] sk->wrile_space = unix write space; 

482 

483 sk-^max ack backlog = sysctl unix max dgram qlen; 

484 sk-^destruct = unix sock destructor; 

485 sk protinfo.af unix. dentry-NULL; 

486 sk-^»protinfo.af unix. mnt=NULL; 

487 sk-»protinfo. af unix. lock = RW LOCK UNLOCKED; 

488 atomic set(&sk-^protinfo.af unix. inflight, 0); 

489 init MUTEX(&sk-^protinfo.af unix. readsem) ;/* single task reading lock */ 
490 init waitqueue_head(&sk->protinfo. af unix. peer wait); 
491 sk-»protinfo.af unix. list-NULL; 

492 unix insert socket (&unix sockets unbound, sk); 

493 

494 return sk; 

495  ] 


每 个 插口 都 有 个 socket 数据 结构 ， 同 时 义 有 个 sock HRA, Jer ATCA PRI E, 
两 者 间 是 一 对 一 的 对 应 关系 。 在 socket 结构 中 有 个 指针 sk 指向 其 对 应 的 sock 结构 ， 而 在 sock 结构 中 
则 有 个 指针 socket 指向 其 对 应 的 socket 结构 ， 所 以 :者 可 以 说 是 同 ，` 个 东西 的 两 个 侧面 。 其 中 sock 结 
构 是 一 种 相当 大 的 数据 结构 ， 其 定义 有 180 多 行 ， 我 们 不 在 这 里 列 出 了 ， 读 者 可 以 自己 在 
include/linux/net/sock.h 中 找到 它 的 定义 。 在 这 里 ， 我 们 只 是 随 着 代码 的 进展 对 有 关 的 成 分 作 一 些 介绍 。 
另 一 方面 ，sock 结构 是 内 核 中 常常 要 动态 分 配 使 用 的 ， 所 以 内 核 中 为 此 专 设 了 … 个 队列 ， 通 过 slab 机 
制 来 管理 这 种 数据 结构 的 缓冲 区 。 分 配 了 sock 结构 以 后 就 是 它 的 初始 化 ，sock_int_data( ) 的 代码 也 在 
sock.c F; 


[sys socketcall( ) > sys socket( ) > sock, create( ) > unix create( ) 
> unix createl( ) > sock, init data( )] 


1117 void sock init data(struct sockel *sock, struct sock *sk) 


1118  ( 

1119 skb queue head init(&sk-^receive queue); 
1120 skb queue head init(&sk-^write queue); 
1121 skb queue head init (&sk-^error queue); 
1122 

1123 init_timer (&sk->timer) ; 

1124 

1125 sk->allocation = . GFP KERNEL; 

1126 sk-rcvbuf =  sysctl_rmem default; 
1127 sk->sndbuf = sysctl wmem default; 
1128 sk->state =  TCP CLOSE; 

1129 sk-»zapped = l; 

1130 sk->socket = sock; 

1131 

1132 if (sock) 

1133 { 
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1134 sk-^type =  sock-^type; 

1135 sk->sleep =  &sock- wait; 

1136 sock-?sk - sk; 

1137 } else 

1138 sk->sleep = NULL; 

1139 

1140 sk->dst_lock = RW LOCK UNLOCKED; 
1141 sk-»callback lock = RW LOCK UNLOCKED; 
1142 

1143 sk-^state change = sock def wakeup; 

1144 sk-^data, ready sock def readable; 
1145 sk-^write space sock def write space; 
1146 sk-^error report - sock def error report; 
1147 sk->destruct sock def destruct; 
1148 

1149 sk-^peercred. pid = Q0; 

1150 sk-^peercred. uid = -]l; 

1151 sk—>peercred. gid =. =f; 

1152 sk-^rcvlowat = l; 

1153 sk->revtimeo = MAX SCHEDULE TIMEOUT; 
1154 sk->sndtimeo = MAX SCHEDULE TIMEOUT; 
1155 

1156 atomic set(&sk-^»refcnt, 1); 

1157 ] 


在 sock 结构 中 有 几 个 双向 链 队列 , 其 中 最 重要 的 就 是 receive. queue 和 write. queue: ihj error. queue 
则 仪 在 网 络 坏 境 下 才 会 用 到 。 这 几 个 队列 并 不 采用 通用 的 队列 头 结构 list_head， 而 专门 定义 了 一 种 
sk buff head 数据 结构 ， 定 义 于 include/linux/skbuff.h 中 : 


51 struct sk buff head { 


52 /* These two members must be first. */ 
53 struct sk buff * next; 

54 struct sk buff * prev; 

55 

56 .. u32 glen; 

57 spinlock t lock; 

58}; 


排 丰 队列 中 的 都 是 sk_buff 数据 结构 。 在 网 络 坏 境 下 ， 我 们 通常 所 说 的 “ 报 文 ” 是 ISO 的 7 层 异型 
中 第 4 层 ， 中 “传输 层 ” 的 概念 ， 测 具体 在 网 络 中 发 送 和 接收 的 则 是 第 3 层 ， 即 “网 络 层 ” 的 数据 单 
Ri, PRA packet “HRA”, BR“). REKE, 一 个 报 文 可 以 就 是 一 个 包 ， 也 可 以 在 发 送 端 被 
分 解 成 若 十 个 包 ， 而 在 接收 端 予以 组 装 复原 。 报 文 与 包 之 间 的 这 种 必 分 主要 是 为 殉 服 网 络 中 物 型 介质 
的 不 可 靠 性 ， 以 及 从 性 能 方面 考虑 而 来 的 。 在 Unix 域 的 条 件 下 ， 由 于 并 不 涉及 网 络 介质 ， 所 以 一 个 报 
文 就 是 一 个 包 。 每 一 个 包 都 要 占用 一 个 sk_buff 数据 结构 ， 所 以 receive, queue 队列 中 的 每 个 sk_buff 数 
据 结构 就 载运 着 一 个 到 达 的 包 ， 侧 write queue 队列 中 则 为 待 发 送 的 包 。 这 也 是 一 种 比较 复杂 的 数据 结 
构 ， 我 们 将 结合 报 文 的 发 送 和 接收 加 以 介绍 。 
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此 外 ， 在 sock 结构 中 还 有 一 个 特殊 的 sk buff 结构 队列 ， 那 是 专 为 网 络 环境 而 没 曾 的 ， 我 们 在 这 
里 并 不 关心 。 在 网 络 环境 下 ， 和 常常 此 为 包 的 发 送 设置 一 些 定时 器 。 例 如 ， 在 “有 连接 ”模式 中 如 果 发 
送 了 一 个 包 以 后 在 一 定时 间 里 得 不 到 对 方 的 销 认 就 要 重 发 。 所 以 在 sock 结构 中 还 有 - .个 定时 器 队列 
timer。 所 有 这 些 队 列 的 头 部 部 要 加 以 初始 化 〈 见 11251130 行 )。 

函数 sock init, data( ) 中 其 余 的 代码 比较 直 伏 了 当 ， 我 们 就 不 多 解释 了 。 内 说 明 一 下 ，sock 结构 中 
的 revbuf 和 sndbuf 分 别 为 接收 和 发 送 缓冲 区 的 大 小 ， 默 认 值 均 为 64K 字 节 。 还 有 ，sock 结构 中 的 
state change. data ready 等 都 是 函数 指针 ， 分 别 设置 成 指向 sock def wakeup( ). sock def readable( ) 

PIE] unix createl( ) 的 代码 中 ， 继 续 完成 sock 结构 的 初始 化 。 注 意 代码 中 的 sock 是 一 个 socket 结 
构 指 针 ，sk 才 是 sock 结构 指针 。 

这 里 的 sk->write_space 也 是 一 个 函数 指针 ,设置 成 指向 函数 unix_write_space( )。 4E sock 数据 结构 
中 还 有 一 个 非常 重 费 的 成 分 protinfo， 这 是 个 union， 要 根据 具体 网 域 而 赋予 不 同 的 解释 。 对 Unix 域 来 
说 ， 这 个 union 被 当 作 个 unix opt 数据 结构 ， 名 为 af_unix， 这 种 数据 结构 是 在 include/net/sock.h 中 
EXHI: 


106 /* The AF UNIX specific socket options */ 
107 struct unix opt { 


108 struct unix address *addr; 
109 struct dentry * dentry; 
110 struct vfsmount * mnt; 

lil struct semaphore readsem; 
112 struct sock * other; 
113 struct sock ** list; 

114 struct sock * gc tree; 
115 atomic t inflight; 
116 rwlock t lock; 

117 wait queue head i peer wait; 
18. 3: 


这 里 的 addr 指 加 一 个 unix, address 结构 。 将 : -个 插口 bind 到 某 一 个 地 址 时 ， 这 个 地 于 就 保存 在 这 
里 ， 其 类 型 定义 在 include/net/af. unix.h F: 


20 struct unix address 


21 { 

22 atomic_t refent; 

23 int len; 

24 unsigned hash: 

25 struct sockaddr un name[0]; 
26 73 


有 具体 的 地 址 在 sockaddr un 结构 中 ， 这 种 数据 结构 的 定义 在 include/linux/un.h F: 


4 &dofine UNIX PATH MAX 108 
5 
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6 struct sockaddr un { 

7 sa family t sun family; /* AF UNIX */ 

8 char sun path[UNTX PATH MAX]; /* pathname */ 
9}; 


ay AL, Unix 域 中 的 插口 地 址 即 为 一 个 文件 (节点 ) 的 路 径 名 。 注 意 在 unix. address 结构 中 的 namel ] 
数组 大 小 为 0， 所 以 unix address 结构 的 大 小 并 不 包括 sockaddr un 结构 的 空间 ， 在 分 配 空间 时 要 额外 
加 上 。 那 么 ， 为 什么 要 这 样 呢 ? 这 是 因为 播 口 的 地 址 训 长 可 短 (最 长 为 108 个 字 节 )， 如 果 固 定 按 最 大 
长 度 分 配 空间 就 太 浪 费 了 。 

BR addr 以 外 ，af_unix 结构 中 的 readsem 是 个 内 核 信 号 量 ， 代 码 中 的 init MUTEX( ) 将 这 个 内 核 信 
号 量 的 值 初始 化 成 1 ， 用 来 保证 某 些 操作 对 于 资源 的 独占 性 。 

对 sock 结构 初始 化 的 最 后 一 步 是 unix_insert_socket( )， 这 是 个 inline 函数 ， 其 定义 为 ; 


[sys. socketcall( ) > sys socket( ) > sock create( ) > unix create( ) > unix_createl( ) unix insert, socket ( )| 





241 {static | inline | void unix insert socket (unix socket **list, unix socket *sk) 
242  ( 

243 write lock(&unix table lock); 

244 unix insert socket(list, sk); 

245 write unlock(&unix table lock); 

246 } 


PE ÉX — unix insert socket( ) 则 将 一 个 sock 数据 结构 搬入 到 一 个 unix_socket 结构 队列 由， 并 将 该 
sock 结构 的 使 用 计数 设置 成 1。 内 核 中 设置 了 一 个 杂 竣 表 unix socket table|. ]， 其 大 小 为 
UNIX_HASK_SIZE+1， 即 257. XE XU, af_unix.c: 


118 unix socket *unix socket table[UNIX HASH SIZE:1]; 


KP RAD SE DW > unix socket 结构 的 单 链 队列 。 在 include/net/af unix.h. 中 有 对 
unix. socket 的 定义 : 


6 typedef struct sock unix socket; 


所 以 unix socket 结构 就 是 sock £534. BES sock £' PAR s cdi CHE ASR TB FE CAI Ze rn 
的 某 个 队列 。 这 样 ， 当 接收 到 一 个 无 连接 模式 的 报 义 时 ， 或 接收 到 “个 连接 请 求 时 ， 就 可 以 根据 其 口 
标 地 址 迅速 地 找到 其 目标 揪 门 。 但 是 ， 在 插 门 创建 之 初 尚 无 插口 地 址 ， 所 以 暂时 把 它 链 入 到 杂凑 表 中 
的 最 后 一 个 队列 ， 即 unix_socket_table[UNIX_HASH_SIZE] 。 由 十 地 址 的 杂凑 值 都 在 [0， 
UNIX_HASH_SIZE 一 1] 范 围 内 ， 所 以 不 会 | 起 混淆 。 代 公路 的 unix sockets unbound 在 af. unix.c 中 定 
义 为 ; 


120 Hdefine unix sockets unbound (unix socket table[UNTX HASH SIZE]) 


SR, CARAI HREAN. SH REA bind ) 的 时 个， 就 会 根据 地 址 的 杂 凌 
(FES LAY sock 结构 转移 到 杂 读 表 中 的 另 一 个 队列 由 去 。 
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前 面 讲 过 ，socket 结构 与 sock 结构 实际 上 是 同一 事物 的 此 个 侧面 。 不 妨 说 ，socket 结构 是 而 向 进 
程 和 系统 调用 界面 的 侧面 ， 而 sock 结构 则 是 面向 底层 驱动 程序 的 侧面 。 可 是 ， 为 付 么 不 干脆 把 两 个 数 
据 结构 合并 成 一 个 呢 ? 如 前 所 述 ,socket 结构 是 inode 结构 中 的 一 部 分 , 即 把 inode 结构 内 部 的 … 个 union 
FAVE socket 结构 。 由 寺 插 口 操作 的 特殊 性 ， 这 个 数据 结构 中 需要 有 大 量 的 结构 成 分 。 可 是 ， 如 果 把 这 
些 结构 成 分 全 都 放 在 socket HP, W inode 结构 中 的 这 个 union 就 会 变 得 很 大 ， 从 而 inode 结构 也 会 
变 得 很 大 ， 而 对 十 其 他 文件 系统 这 个 union 是 不 需要 那么 庞大 的 。 所 以 ， 孝 样 会 使 inode 结构 变 得 过 分 
庞大 而 造成 浪费 ， 系 统 中 使 用 inode 结构 的 数量 当然 要 远志 超过 使 用 socket 结构 的 数量 。 解 决 的 办 法 
就 是 把 插口 所 需 的 这 些 结构 成 分 拆 成 两 部 分 ， 把 与 文件 系统 关系 比较 密切 的 那 一 部 分 放 在 socket. 结构 
中 ， 男 一 部 分 ， 即 与 通信 关系 比较 密切 的 那 一 部 分 ， 则 单独 成 为 一 个 数据 结构 ， 那 就 是 sock 结构 。 由 
于 这 两 部 分 数据 在 逻辑 上 本 来 就 是 一 体 的 ， 所 以 要 通过 指针 互相 指向 对 方 ， 形 成 一 对 一 的 关系 。 

完成 了 socket 结构 和 sock 结构 的 分 配 以 及 初始 化 ，sock_create( ) 就 完成 了 任务 ， 我 们 回 到 
sys socket( ) 中 继续 往 下 看 。 下 2b At sock_map_fd( )， 代 码 见 net/socket.c: 


[sys_socketcall( ) > sys socket( ) > sock map fd( )] 


312 /* 

313 * Obtains the first available file descriptor and sets it up for use 
314 * 

315 * This functions creates file structure and maps it to fd space 
316 * of current process. On success it returns file descriptor 

317 * and file struct implicitly stored in sock->file 

318 * Note that another thread may close file descriptor before we return 
319 * from this function. We use the fact that now we do not refer 
320 * to socket after mapping. If one day we will need it, this 

321 * function will inincrement ref. count on file by 1. 

322 * 

323 * In any case returned fd MAY BE not valid! 

324 * This race condition is inavoidable 

325 * with shared fd spaces, we cannot solve is inside kernel, 

326 * but we take care of internal coherence yet 

327 */ 

328 

329 static int sock map fd(struct socket *sock) 

330 { 

331 int fd; 

332 struct qstr this; 

333 char name[32]; 

334 

335 /* 

336 * Find a file descriptor suitable for return to the user. 
337 */ 

338 

339 fd = get unused fd( ); 

340 if (fd >= 0) { 

341 struct file *file = get empty filp( ); 
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342 

343 if (!file) { 

344 put unused, fd(fd) ; 

345 fd = -ENFILE; 

346 goto out; 

347 } 

348 

349 sprintf (name, “[%lul”, sock->inode->i_ino) ; 
350 this. name = name; 

351 this. len = strlen(name); 

352 this. hash = sock->inode->i_ino; 

353 

354 file->f dentry = d_alloc(sock_mnt—>mnt sb->s_root, &this) ; 
355 if (!file->f dentry) { 

356 put filp(file); 

357 put unused fd(fd); 

358 fd = -ENOMEM; 

359 goto out; 

360 ) 

36] file—^f dentry-^d op = &sockfs dentry operations; 
362 d add(file— f dentry, sock~->inode) ; 

363 file->f vfsmnt - mntget(sock mnt); 

364 

365 sock->file = file; 

366 file->f op = sock—->inode->i_fop = &socket file ops; 
367 file->f_mode = 3; 

368 file-^f flags = O_RDWR; 

369 file->f_pos = 0; 

370 fd_install(fd, file); 

371 } 

372 

373 out: 

374 return fd; 

375 Jj 


Whitt, AAEERUfSEOKEE. —MAO RE MARINE ct, Re "BET AP 
机 制 时 就 设计 好 了 的 。 现 在 socket 结构 〈 以 及 sock 结构 ) 已 经 分 配 好 并 进行 了 初始 化 ， 接 着 时 做 的 就 
是 将 socket 结构 ， 实 际 上 是 其 宿主 inode 结构 ， 与 文件 系统 的 一 套 机 制 挂 上 钩 了 。 首 先 费 分 屿 一 个 空 
闲 的 打开 文件 号 以 太 file 结构 ， 还 要 在 文件 系统 的 月 录 树 中 分 配 一 个 dentry 数据 结构 ， 使 其 指向 已 经 
分 配 的 inode 数据 结构 ， 并 且 使 file 结构 中 的 指针 f_dentry 指向 该 dentry 结构 。 最 后 ， 还 会 根据 所 建立 
的 dentry 结构 和 inode 结构 在 磁盘 上 建立 起 相应 的 具 录 项 和 索引 节点 ， 不 过 那 是 后 话 。 从 代码 中 还 可 
看 出 ， 代 表 着 插口 的 节点 名 就 是 其 索引 节点 号 (349 íT) 

代码 中 354 行 的 d. alloc( ) 为 插口 分 配 一 个 月 录 项 ， 并 将 其 挂 在 特殊 文件 系统 sockfs 的 根 日 录 下 。 
然后 ,362 行 的 d_add( ) 将 插口 的 dentry 结构 与 inode 结构 互相 挂 1:19 3x SUE dentry 结构 中 的 指针 d op 
设置 成 指向 sockfs_dentry_operations， 这 个 数据 结构 通过 函数 指针 提供 了 与 文件 路 径 有 关 的 操作 ， 定 义 
T net/socket.c FH: 
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308 static struct dentry operations sockfs dentry operations = { 
309 d delete: | sockfs delete dentry, 
310 E 


可 见 ， 对 本 插口 ， 除 vfs 居 上 的 操作 以 外 惟一 与 此 有 关 的 操作 就 是 删除 月 录 项 。 

最 后 , 将 file 结构 中 的 op 指针 和 inode 结构 小 的 i_fop 指针 都 设置 成 指向 用 于 插口 的 文件 操作 跳 
转 结构 socket_fs_ops， 并 根据 分 配 得 到 的 打开 文件 号 fd 将 该 file 结构 的 地 址 填 入 本 进程 的 打开 文件 结 
构 数 组 中 相应 的 位 置 上 。 数 据 结 构 socket file ops 的 定义 为 (socket.c):; 


114 static struct file operations socket file ops = { 


115 llseek: sock lseek, 
116 read: Sock read, 
117 write: sock write, 
118 poll: Sock poll, 
119 ioctl: sock_ioctl, 
120 mmap: sock mmap, 
121 open: sock no open, /x special open code to disallow open via /proc */ 
122 release: sock close, 
123 fasync: sock fasync, 
124 ready: sock_readv, 
125 writev: sock_writev 
126 js 


这 样 ， 当 通过 sys socketcall( ) 对 “个 插口 进行 某 种 操作 时 《〈 如 recv( ) 等 ;， 就 会 通过 前 述 socket 结 

KITE unix stream ops 或 unix dgram ops 结构 跳 转 人 具体 的 驱动 程序 中 ; 出 通过 普通 的 文件 操作 界面 
《如 read( ) 等 ) 对 插口 操作 时 ， 则 通过 这 个 socket, fs ops 结构 决定 跳 转 。 

完成 了 sock mapfd( ) 以 后 ， 整 个 创建 插口 的 过 程 就 完成 了 。 总 结 以 上 所 述 ， 我 们 可 以 粗略 地 画 出 
内 核 中 与 播 所 有 关 的 主要 数据 结构 之 间 的 联系 图 〈 图 7.2)。 

图 上 中 有 两 个 入 口 。 一 个 是 进程 的 task_struct 数据 结构 , 根据 打开 文件 号 可 以 找到 相应 的 inode 结构 ; 
Fi— WS FEM ARB unix, socket, table 开始 找到 相应 的 sock 结构 。 当 接收 到 一 个 packet 时 ， 在 packet 的 
头 部 必然 直接 或 问 接地 包 念 着 关于 目标 插 门 地 址 的 信息 。 根 据 这 个 地 址 ， 加 以 杂凑 运算 后 便 可 以 确定 
unix socket table 表 中 的 个 队 州 ， 然 后 扫描 该 队列 加 以 比 对 ， 就 可 以 找到 属于 该 日 标 地 址 的 sock 数 
据 结构 ， 而 找到 了 sock 结构 也 就 找到 了 socket 结构 以 及 inode 结构 。 

最 后 还 要 说 明 ， 除 SYS SOCKET 以 后 ， 还 有 个 SYS SOCKETPAIR 操作 也 用 来 创建 插口 。 
SYS SOCKETPAIR 所 建立 的 症 一 对 《而 不 是 一 个 ) 互相 己 经 连接 好 的 插 门 ， 概 念 上 与 “管道 ”相似 。 
使 用 上 也 很 相似 (例如 都 要 与 fork( ) 结 合 使 用 )。 事 实 上， 在 有 些 Unix 版 本 中 甚至 用 “插口 对 ”来 实 
现 “ 管 道 ”。 由 于 “插口 对 ”只 能 在 同一 台 计 算 机 上 使 用 ， 就 没有 必要 再 根据 报 文 的 日 标 地 址 通过 杂凑 
表 找 到 目标 揪 口 的 sock 结构 ， 而 可 以 把 这 一 步 “ 短 路 ”过 去 了 。 为 了 这 个 月 的 ， 在 sock 数据 结构 中 设 
置 了 一 个 指针 pair。 在 创建 一 个 “插口 对 ”时 号 让 鸯 个 sock 数据 结构 都 通过 这 个 指针 互相 指向 对 方 。 
SYS_SOCKETPAIR 操作 是 由 sys_socketpair( ) 实 现 的 ， 有 兴趣 的 读者 可 以 白 行 阅读 其 代 码 。 
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队列 中 其 他 sock 
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sk buff 结构 
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task struct 
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unix opt 








: unix stream. ops, 或 
íd array[ | socket file ops unix dgram ops 


图 7.2 与 socket 相关 的 主要 数据 结构 之 间 的 联系 图 





7.3 84k sys_bind( ) 指定 插口 地 址 


操作 SYS_BIND 为 已 创建 的 捅 口 指定 一 个 地 址 ， 直 由 sys bind( OKILA] Csocket.c): 


[sys_socketcall( ) > sys bind( )] 


977 /* 

978 * Bind a name to a socket. Nothing much to do here since it's 
979 * the protocol’s responsibility to handle the local address. 
980 * 

981 * We move the socket address to kernel space before we call 
982 * the protocol layer (having also checked the address is ok) 
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983 */ 

984 

985 asmlinkage long sys_bind(int fd, struct sockaddr *umyaddr, int addrlen) 
986 { 


987 struct socket *sock; 

988 char address[MAX SOCK ADDR]; 

989 int err; 

990 

991 if((sock = sockfd_lookup (fd, &err)) !=NULL) 

992 { 

993 if ((err=move_addr_to_kernel (umyaddr, addrlen, address) ) >=0) 
994 err = sock~>ops—>bind(sock, (struct sockaddr *)address, addrlen) ; 
995 sockfd_put (sock) ; 

996 } 

997 return err; 

998 |] 


首先 朗 根 据 插口 的 打开 文件 号 找 证 它 的 socket 数据 结构 ，sockfd_lookup( ;的 代码 很 简单 ， 读 者 可 
以 结合 前 面 的 图 7.2 自行 阅读 (socket.c)。 


[sys_socketcall( ) > sys_bind( ) > sockfd_lookup( )] 


382 /** 

383 * sockfd lookup - Go from a file number to its socket slot 

384 * Qfd: file handle 

385 * @err: pointer to an error code return 

386 * 

387 * The file handle passed in is locked and the socket it is bound 

388 * too is returned. If an error occurs the err pointer is overwritten 
389 * with a negative errno code and NULL is returned. The function checks 
390 * for both invalid handles and passing a handle which is not a socket. 
391 * 

392 * On a success the socket object pointer is returned. 

393 */ 

394 

395 struct socket *sockfd lookup(int fd, int *err) 

396 { 

397 struct file *file; 

398 struct. inode *inode; 

399 struct socket *sock; 

400 

401 if (! (file = fget(fd))) 

402 { 

403 *err = -EBADF; 

404 return NULL; 

405 } 

406 
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407 inode = file->f_dentry->d_inode; 

408 if (linodeOi sock || !(sock = socki lookup(inode))) 
409 ( 

410 *err = -ENOTSOCK; 

411 fput (file); 

412 return NULL; 

413 } 

414 

415 if (sock file != file) { 

416 printk(KERN ERR “socki_lookup: socket file changed! \n”) ; 
417 sock->file = file; 

418 } 

419 return sock; 

420} 


找到 了 插口 的 socket 结构 以 后 ， 就 可 以 根据 该 结构 中 的 指针 ops 找到 相应 的 驱动 程序 跳 转 结构 
unix stream ops 或 unix_dgram_ops。 两 个 跳 转 结构 中 的 指针 bind 都 指向 unix bind( )， 所 以 Unix 域 的 
bind 操作 是 由 unix_bind( ) 完 成 的 。 

不 过 ， 先 要 把 参数 umyaddr 所 指 的 数据 结构 从 用 户 空 间 复制 过 来 ， 这 个 数据 结构 含有 为 插口 指定 
的 地 址 。 前 面 在 sys_socketcall( ) 复 制 过 来 的 只 是 指向 这 个 数据 结构 的 指针 ， 而 不 是 数据 结构 本 身 。 这 
E (988 47) 为 插口 的 地 址 准备 下 了 -个 缓冲 区 address J, 其 大 小 为 MAX_SOCK_ADDR， 定义 为 128。 
具体 的 复制 是 由 move_addr to_kernel( ) 完 成 的 ， 复 制 的 长 度 则 取决 于 参数 addrlen。 

参数 umyaddr 是 个 sockaddr 结构 指针 ， 我 们 还 没有 看 过 这 种 数据 结构 的 定义 ,现在 需要 看 一 人 了 ， 
这 是 在 文件 include/linux/socket.h 中 给 出 的 : 


r 
11 typedef unsigned short sa family t; 
12 
13 /* 
14 x 1003. lg requires sa family t and that sa data is char. 
15 */ 
16 
17 struct sockaddr { 
18 sa family t sa family; /* address family, AF xxx x/ 
19 char sa data[14]; /* 14 bytes of protocol address */ 
20 h}: 


HAR sockaddr 数据 结构 有 确定 的 人 小 , 其 中 的 sa datap ] 是 一 个 14 字 节 的 数组 , 但 是 插口 地 址 的 实 
际 长 度 却 并 不 是 固定 的 ， 所 以 由 另 - .个 参数 addrlen 说 明 其 包括 sa. family EAR KE. 读者 也 许 感 到 
奇怪 : sa_dataf ] 中 不 是 - -个 字符 串 吗 ?只 要 用 strlen ) 取 字符 串 长 度 就 行 了 , 何必 这 么 麻烦 ? 其 实 不 然 ， 
就 Unix 域 来 说 ， 这 通常 是 个 字符 申 ， 可 是 在 其 他 网 域 中 就 未 必 了 ， 例 如 在 internet 网 域 中 就 可 以 是 4 
个 字 节 的 IP 地 址 加 上 传输 层 的 端口 号 ， 其 中 有 些 字 节 完全 可 能 是 0 (后 面 读者 会 看 到 ， 即使 在 Unix 3 
中 也 还 有 所 谓 “ 抽 象 地 址 ”是 以 “\0” 开 头 的 )。 另 一 方面 ，Unix 域 的 插口 地 址 实际 上 是 个 文件 路 径 
名 ，14 个 字 节 显然 是 不 够 的 。 所 以 ， 用 于 插口 地 址 的 数据 结构 大 小 因 网 域 而 寞 ， 可 是 结构 中 的 第 个 
成 分 总 是 sa_family。 这 么 一 考虑 ， 读 者 就 可 以 明白 当初 设计 者 〈《 从 BSD Unix 时 代 开始 ) 的 用 意 了 。 


Py 


Linux 内 核 源 代 色 情景 分 析 〈 下 册 》 

在 极端 的 情况 下 ， 地 址 的 长 度 addrlen 可 以 只 包含 了 数据 类 型 sa_family 的 长 度 ， 也 就 是 一 个 短 整 
数 的 长 度 ， 而 sa_dataf ] 中 则 连 个 字 节 也 没有 。 设 计 者 赋予 这 样 的 地 址 -个 特殊 的 含义 ， 就 是 让 系统 
给 自动 分 配 〈 生 成 )- :个 地 址 。 对 于 Unix 域 搬 口 地 址 ， 实际 使 用 的 是 sockaddr_un 结构 ， 与 sockaddr 
结构 的 区 别 在 于 它 的 字符 数组 大 小 为 UNIX_PATH_MAX， 实 际 上 是 108。 注 意 address[ ] 的 大 小 为 
MAX. SOCK. ADDR, HI 128， 已 经 考虑 到 了 对 所 有 网 域 插口 地 址 的 需要 。 由 于 在 address[ ] 中 有 起 够 大 
的 空间 ， 将 sockaddr un 结构 复制 过 来 不 会 造成 问题 。 常 数 MAX SOCK ADDR 的 定义 和 
move. addr to kernel( ) 的 代码 都 在 net/socket.c "P; 


194 #define MAX SOCK ADDR 128 /* 108 for Unix domain - 


195 16 for IP, 16 for IPX, 

196 24 for IPv6, 

197 about 80 for AX.25 

198 must be at least one bigger than 

199 the AF UNIX size (see net/unix/af unix.c 

200 :unix mkname( )). 

201 */ 

202 

203 /炒米 

204 * move addr to kernel - copy a socket address into kernel space 
205 * @uaddr: Address in user space 

206 * @kaddr: Address in kernel space 

207 * @ulen: Length in user space 

208 * 

209 * The address is copied into kernel space. If the provided address is 
210 * too long an error code of -EINVAL is returned. If the copy gives 
211 * invalid addresses -FFAULT is returned. On a success 0 is returned. 
212 */ 

213 


214 int move_addr_to_kernel (void *uaddr, int ulen, void *kaddr) 
215 { 


216 if (ulen<0! julen>MAX SOCK ADDR) 

217 return -EINVAL; 

218 if (ulen==0) 

219 return 0; 

220 if (copy_from_user (kaddr, uaddr, ulen) ) 
221 return -EFAULT; 

222 return 0; 

293: 3 


其 主体 是 copy_from_user( )， 读 者 对 此 已 不 陌生 了 。 
如 前 所 述 ，Unix 域 的 bind 操作 起 由 unix_bind( ) 完 成 的 ， 其 代码 在 netunix/af. unix c 中 ， 


[sys_socketcall( ) > sys bind( ) > unix bind( )] 


636 static int unix bind(struct socket *sock, struct sockaddr *uaddr, int addr len) 
637 { 


- 28. 


第 7 章 ”基于 socket 的 进程 间 通 信 


638 struct sock *sk = sock->sk; 

639 struct sockaddr un *sunaddr-(struct sockaddr un *)uaddr; 
640 struct dentry * dentry = NULL; 

641 struct nameidata nd; 

642 int err; 

643 unsigned hash; 

644 struct unix address *addr; 

645 unix socket **list; 

646 

647 err = -EINVAL; 

648 if (sunaddr->sun family !- AF UNIX) 

649 goto out; 

650 

651 if (addr len--sizeof(short)) | 

652 err = unix autobind(sock): 

653 goto out; 

654 ] 

655 

656 err - unix mkname(sunaddr, addr len, &hash); 

657 if (err < 0) 

658 goto out; 

659 addr len = err; 

660 

661 down (&sk-^protinfo. af unix. readsem) ; 

662 

663 err = -EINVAL; 

664 if (sk->protinfo. af unix. addr) 

665 goto out_up; 

666 

667 err = -ENOMEM; 

668 addr = kmalloc(sizeof (kaddr)+addr len, GFP_KERNEL) ; 
669 if ('addr) 

670 goto out up; 

671 

672 memcpy (addr->name, sunaddr, addr len); 

673 addr->len = addr len; 

674 addr->hash = hash sk-^type; 

675 atomic set(&addr-^refcnt, 1); 

676 

677 if (sunaddr-^sun path[0]) { 

678 err = 0; 

679 /* 

680 * Get the parent directory, calculate the hash for last 
681 * component. 

682 */ 

683 if (path init(sunaddr-^sun path, LOOKUP PARENT, &nd)) 
684 err = path walk(sunaddr-^sun path, &nd); 
685 if (err) 
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goto out mknod parent; 
/* 
* Yucky last component or no last component at all? 
* (foo/., foo/.., /////) 
*/ 
err = -EEXIST; 
if (nd.last type !- LAST NORM) 
goto out mknod; 
/* 
* Lock the directory 
*/ 
down (&nd. dentry-^d inode-^i sem); 
/* 
* Do the final lookup. 
*/ 
dentry = lookup hash(&nd. last, nd.dentry): 
err = PTR ERR(dentry) ， 
if (1S ERR(dentry)) 
goto out mknod unlock; 


err = -ENOENT; 
/* 
* Special case - lookup gave negative, but... we had foo/bar/ 


* From the vfs mknod( ) POV we just have a negative dentry 一 
* all is fine. Let's be bastards - you had / on the end, you ve 
* been asking for (non-existent) directory. -ENOENT for you. 
*/ 
if (nd. last. name[nd. last. len] && !dentry—>d_inode) 
goto out mknod dput; 
/* 
* All right, let's create it. 
*/ 
err = vfs_mknod (nd. dentry->d_inode, dentry, 
S_IFSOCK|sock—>inode->i mode, 0): 
if (err) 
goto out mknod dput; 
up(&nd. dentry-^d inode-5i sem); 
dput (nd. dentry) ; 
nd.dentry - dentry; 


addr-^hash = UNIX HASH SIZE; 


write lock(&unix table lock); 


if (!sunaddr->sun path[0]) { 
err = -EADDRINUSE; 
if ( unix find socket byname(sunaddr, addr len, 
sk->type, hash)) { 


98738 AF socket 的 进程 问 通信 


sa 


734 unix release addr(addr); 

735 goto out_unlock; 

736 } 

737 

738 list = &unix socket_table[addr—>hash] ; 
739 } else { 

740 list = &unix_socket_tableldentry->d_inode~>i_ino & (UNIX HASH SIZE-1)]; 
741 sk->protinfo. af_unix. dentry = nd.dentry; 
742 sk-^protinfo.af unix.mnt = nd. mnt; 
743 } 

744 

745 err = 0; 

746 __unix_remove_socket (sk) ; 

741 sk-»protinfo.af unix. addr = addr; 

748 __unix insert_socket (list, sk); 

749 

750 out unlock: 

151 write unlock(&unix table lock): 

152 out up: 

753 up (&sk-^protinfo.af unix. readsem) ; 

154 out: 

755 return err; 

756 

757 out mknod dput: 

758 dput (dentry); 

159 out mknod unlock: 

760 up(&nd. dentry-^d inode-?i sem); 

761 out mknod: 

162 path release (&nd) ; 

763 out mknod parent: 

764 if (err---EEXIST) 

765 err--EADDRINUSE; 

166 unix release_addr (addr) ; 

767 goto out_up; 

768  ] 


对 于 Unix 域 的 插口 地 址 ， 代 码 中 先 把 它 的 sockaddr 结构 当成 一 个 sockaddr. un 结构 (638 47), 后 
者 的 字符 数组 大 小 为 UNIX, PATH. MAX, BU 108。 此 时 实际 的 插口 地 址 已 经 在 sys_bind( ) 中 的 局 部 量 
address, ] 中 ， 其 大 小 为 128， 所 以 不 会 造成 问题 。 

如 前 所 述 ， 如 果 参 数 addrlen 指示 插口 地 址 的 大 小 为 2， 即 仅 为 数据 类 型 sa_family_t 的 大 小 ， 则 表 
示 要 求 由 系统 给 自动 分 配 〈 生 成 ) ”个 地 址 。 这 就 是 652 行 中 对 unix, autobind( ) 的 调用 。 这 个 函数 的 
代码 也 在 af unixc 中 ， 建 议 读 省 在 按 正常 路 线 读 完 unix bind( ) 的 代码 以 后 自己 再 看 一 下 
unix autobind( )。 

FUR move. addr. to. kernel )X d LUE BO IE T dre, MA AMI AAR. M 以 要 进一步 通 
过 unix mkname( ) 检 查 和 处 理 。 顺 便 提 一 句 ， 变 量 名 “sunaddr” 中 的 s 表示 socket, un 表示 unix, Tf 
与 “Sun” 电 脑 公司 毫克 关系 。unix_mkname( ) 的 代码 在 文件 af_unix.c 路 ， 
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170 — /* 

171 * Check unix socket name: 

172 * - should be not zero length. 

173 * - if started by not zero, should be NULL terminated (FS object) 
174 * - if started by zero, it is abstract name. 

175 */ 

176 

177 static int unix mkname (struct sockaddr un * sunaddr, int len, unsigned *hashp) 
178 { 

179 if (len <= sizeof(short) [| len > sizeof (*sunaddr)) 

180 return -EINVAL; 

181 if (!sunaddr || sunaddr-^sun family !- AF UNIX) 

182 return -EINVAL; 

183 if (sunaddr-^sun path(0]) 

184 { 

185 /* 

186 * This may look like an off by one error but it is 

187 * a bit more subtle. 108 is the longest valid AF. UNIX 
188 * path for a binding. sun path[108] doesnt as such 

189 * exist. However in kernel space we are guaranteed that 
190 * it is a valid memory location in our kernel 

191 * address buffer. 

192 */ 

193 if (len > sizeof (*sunaddr) ) 

194 len = sizeof (*sunaddr) ; 

195 ((char *) sunaddr) [len]=0; 

196 len = strlen(sunaddr->sun_path) +1+sizeof (short): 

197 return len; 

198 } 

199 

200 *hashp = unix hash fold(esum partial((char*) sunaddr, len, 0)); 
201 return len; | 

202  ) 


Unix 域 的 插口 地 址 有 两 种 类 型 。 ”种 是 常规 的 路 径 名 字符 串 ， 厅 过 不 一 定 以 0 结尾 ， 在 长 度 中 也 
个 包括 结尾 的 0 在 内 ， 另 -种 是 以 “0” 开 头 的 ， 称 为 抽象 地 址 。 对 于 前 者 ，unix_mkname( ) 将 其 转换 
成 一 个 以 0 结尾 的 字符 串 ， 并 对 其 长 度 作 出 相应 调整 《195 一 196 行 )。 后 者 类 似 于 网 络 地 址 ， 
unix_mkname( ) 为 之 计算 由 -个 杂凑 值 ， 并 通过 参数 hashp 返回 这 个 杂凑 值 。 

对 于 这 两 种 不 同类 型 地 址 的 使 用 和 处理 是 不 同 的 。 对 常规 的 字符 串 地 址 ，unix_bind( ) 根 据 其 路 名 
名 为 之 在 文件 系统 中 建立 一 个 “文件 ”节点 。 像 其 他 特殊 文件 FE, 这 个 文件 实际 上 只 是 一 个 索引 节 
点 ， 而 并 没有 用 寸 数据 的 记录 块 ， 但 是 这 样 -来 这 个 插口 在 文件 系统 的 占 录 树 中 就 成 为 可 见 的 了 。 以 
后 就 可 以 通过 pathwalk( ) 根 据 该 插口 的 地 址 (路 径 名 ) 在 文件 系统 中 找到 其 inode， 并 用 索引 节点 号 代 
替 地 址 的 杂凑 值 来 决定 将 插口 的 sock 数据 结构 挂 入 杂凑 表 中 的 哪个 队列 。 对 于 “抽象 地 址 ” 则 并 不 建 
芯 这 样 的 文件 ， 所 以 使 用 “抽象 地 址 ”的 Unix 域 插口 就 像 用 于 其 他 网 域 的 插口 - 样 ， 从 文件 系统 的 角 
度 来 讲 是 不 可 见 的 ， 并 且 使 用 地 址 的 杂凑 们 来 确定 挂 入 到 哪个 队列 中 。 
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回 到 unix_bind( ) 的 代码 中 。 当 插口 地 址 为 常规 的 文件 路 径 名 时 (677~726 行 ), 首先 通过 path_init( ) 
和 path_walk( ) 根 据 给 定 的 路 径 名 找到 其 父 节点 ， 即 所 在 的 目录 节点 ， 并 确认 日 标 节点 尚 不 存在 。 学 习 
过 “文件 系统 ”- 章 的 读者 对 这 些 代 码 不 应 该 有 困难 。 
然后 ， 通 过 vfs_mknod( ) 在 文件 系统 的 目录 树 中 建立 个 文件 节点 《 见 717 行 )。 这 个 函数 的 代码 
我 们 在 “文件 系统 ”，- 章 中 并 未 触及 ， 所 以 在 这 里 看 下 ， 它 在 fs/namei.c P: 


[sys_socketcall( ) > sys bind( ) > unix bind( ) > vfs_mknod( )] 


1176 int vfs mknod(struct inode *dir, struct dentry *dentry, int mode, dev t dev) 


1177 { 

1178 int error = -EPERM; 

1179 

1180 mode &= "current—^fs-^umask; 

1181 

1182 down (&dir->i_ zombie); 

1183 if ((S ISCHR(mode) || S TSBLK(mode)) && !capable (CAP_MKNOD) ) 
1184 goto exit lock; 

1185 

1186 error = may create(dir, dentry): 

1187 if (error) 

1188 goto exit_lock; 

1189 

1190 error = -EPERM; 

1191 if (1dir->i op || !dir->i_op~>mknod) 
1192 goto exit lock; 

1193 

1194 DQUOT INIT (dir) ; 

1195 lock kernel ( ); 

1196 error = dir—i_op->mknod(dir, dentry, mode, dev); 
1197 unlock kernel( ); 

1198 exit lock: 

1199 up (&dir->i_ zombie); 

1200 if (terror) 

1201 inode dir notify (dir, DN CREATE); 
1202 return error; 

1203 ) 


同样 ， 读 者 对 这 段 代 码 不 应 感到 困难 。 操 作 的 主体 是 由 共 体 文件 系统 通过 其 inode. operations 结构 
中 的 函数 指针 提供 的 。 以 Ext2 文件 系统 为 例 ， 假 设 路 径 名 决定 了 目标 节点 洛 在 Ext2 文件 系统 中 ， 或 
者 说 其 所 在 目录 在 Ext2 文件 系统 中 ， 那 就 会 调用 Ext2 的 mknod 操作 ext2_mknod( )。 读 者 在 “文件 系 
Ao - 章 中 已 经 阅读 过 这 个 函数 的 代码 。 读 者 应 该 还 记得 ， 在 创建 插口 时 已 经 为 之 建立 了 一 个 inode 
数据 结构 , 而 现在 vfs mknod( ) 显 然 又 会 根据 插 凯 的 路 径 名 在 某 … 文 件 系统 中 创建 一 个 索引 节点 。 创 建 
了 索引 节点 以 后 ， 当 通过 系统 调用 open( ) 试 图 打 升 这 个 文件 时 ， 就 会 在 内 存 中 根据 该 索引 节点 的 内 容 
建立 起 一 个 inode 数据 结构 。 那 么 ， 这 样 一 来 插口 岂 不 就 有 了 两 个 inode 结构 ?两 个 inode 结构 又 各 有 
什么 作用 ?我 们 知道 ， 在 打开 文件 时 ， 是 由 一 个 函数 init_special_inode( ) 根 据 文件 的 模式 对 其 inode £i 
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构 进 行 初始 化 的 ， 而 这 里 在 调用 vfs mknod( ) 时 把 文件 的 模式 设置 成 S_IFSOCK， 所 以 我 们 看 一 下 在 
init_special_inode( ) 中 对 插口 文件 的 处 理 。 


200 void init_special inode (struct inode *inode, umode t mode, int rdev) 


201 { 

202 inode->i_mode = mode; 

203 if (S ISCHR(mode)) | 

212 else if (S ISSOCK (mode) ) 

213 inode-^i fop = &bad sock fops; 
216 ] 


这 里 的 宏 操 作 S ISSOCK( ) 检 查 日 标 节点 的 模式 是 否 S_IFSOCK， 如 果 是 就 把 inode 结构 中 的 
inode operations 结构 指针 I_fop 设置 成 指向 bad_sock_fops， 这 个 结构 的 定义 在 fs/devices.c P: 


196 static struct file operations bad sock fops = { 


197 open: sock no open 

198 F; 

191 static int sock_no_open (struct inode *irrelevant, struct file *dontcare) 
192 { 

193 return -ENXIO; 

194 } 


显然 ， 这 个 车 点 是 不 允许 通过 常规 的 系统 调用 米 打 并 的 。 为 一 方面 ， 插 串 一 经 创建 就 是 已 打开 文 
件 ， 也 不 需要 通过 系统 调用 open( RITA. 那么， 为 什么 要 建立 这 个 文件 呢 ? 这 是 因为 Unix 域 允许 以 
常规 的 路 径 名 作为 插口 地 址 ， 这 样 的 插口 地 址 便于 记忆 ， 也 便于 通过 常规 的 文件 操作 来 检查 一 个 特定 
的 路 径 名 是 否 已 经 在 使 用 中 。 如 桌 文 件 系统 中 已 经 存在 具有 相同 路 径 名 的 文件 ， 则 unix_bind( ) 会 失败 
而 返回 出 错 代 码 EADDRINUSE。 所 以 通常 在 用 户 程序 中 要 人 在 调用 bind( ) 之 前 先 调用 unlink( )， 将 可 能 
已 经 存在 的 同名 文件 先 删除 。 应 该 指出 ， 插 口 并 不 是 持续 存在 的 ， 其 故 命 绝 不 会 超过 创建 它 的 进程 。 
当 创建 插口 的 进程 exit( ) 时 ， 它 所 创建 的 插口 也 会 随 着 已 打开 文件 的 关闭 而 消失 。 可 是 ， 为 插口 创建 的 
SOF ( 结 点 ) 却 是 持续 存在 的 ， 即 使 创建 它 的 进程 已 经 exit( )， 甚 至 机 器 已 经 断 电 ， 这 文件 还 是 存在 于 
磁盘 上 ， 所 以 必须 特地 加 以 删除 。 骨 看 山 个 inode 结构 间 的 关系 。 我 们 在 前 节 中 讲 过 ， 每 个 插口 的 
sock 结构 都 挂 在 一 个 杂凑 表 中 的 某 个 队列 里 。 对 于 采用 文件 路 径 名 为 地 址 的 插口， 杂凑 值 吓 根据 文件 
的 索引 节点 号 产生 的 ， 所 以 只 要 得 到 了 文件 的 索引 节点 号 ， 就 可 以 找到 插口 的 sock 数据 结构 ， 从 而 找 
到 插口 的 socket 结构 及 其 宿主 ， 即 创建 插口 时 建立 的 inode 结构 。 

当然 ，Unix 域 的 插口 也 可 以 不 用 路 径 名 作为 地 址 ， 那 就 是 前 述 的 “抽象 地 址 ”， 其 第 一 个 字 节 必须 
是 0。 采用 抽象 地 址 的 插口 在 文件 系统 中 不 存在 插口 文件 。 

如 前 所 述 ， 插 口 的 sock 结构 在 创建 插口 时 暂时 挂 在 unix socket table 的 最 后 一 个 队列 中 。 这 个 队 
列 的 下 标 超出 了 杂凑 值 的 范围 ， 所 以 用 杂 痰 值 作 下 标 是 不 会 访问 到 这 个 队列 里 来 的 。 山 在 既然 已 经 为 
播 口 指定 了 地 址 ， 就 要 把 它 的 sock 结构 转移 到 相应 的 队列 中 了 。 对 于 常规 的 路 径 名 地 址 ， 由 十 所 创建 
文件 的 i 节点 号 码 是 惟 - -的 , 所 以 不 会 重复 , 其 i 节点 号 码 的 低 8 位 被 用 作 杂 凌 表 中 的 下 标 ( 见 740 行 )。 
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从 本 质 上 讲 , 取 i 节 点 号 码 的 低 8 位 也 是 一 种 杂 凌 运算 , 只 不 过 其 杂 凌 函数 特别 简单 而 已 。“ 抽 象 地 址 ” 
就 不 同 了 。 在 为 一 个 插口 指定 - -个 抽象 地 址 时 并 不 能 保证 这 个 地 址 的 惟一 性 ， 所 以 要 先 根据 地 址 的 杂 
次 值 在 相应 的 队列 中 检查 一 下 这 个 地 址 是 否 已 经 存在 .函数 _unix_find_socket_byname( ) 的 代码 在 文件 
af unix.c 中 ， 很 简单 : 


[sys_socketcall( ) > sys_bind( ) > unix bind()» __ unix find, socket. byname ( )] 


248 static unix socket * | unix find socket byname (struct sockaddr un *sunname, 


249 int len, int type, unsigned hash) 
250 { 

251 unix socket *s; 

252 

253 for (g-unix socket table[hash type]; s; s=s->next) { 
254 if (s->protinfo. af unix. addr->len==len && 

255 mememp(s-»protinfo.af unix. addr->name, sunname, len) = 0) 
256 return s; 

257 } 

258 return NULL; 

259} 


接着 ， 就 是 把 插口 的 sock 结构 转移 到 已 经 确定 的 队列 中 了 〔 见 746 47H 748 行 )。 
最 后 ， 回 到 sys, bind( ) 的 代码 中 ，sockfd_put( ) 的 作用 是 递减 对 插口 的 file 结构 的 使 用 计数 。 这 是 
当初 在 sockfd_lookup( ) 中 通过 fget( ) 递 增 的 ， 所 以 递减 以 后 不 会 达到 0。 


7.4 44k sys_listen( ) 一 一 设 定 server 插口 


以 前 讲 过 ，“ 有 连接 ”模式 的 插 日 犬 生 就 是 按 client/server 的 模式 运转 的 ， 只 有 在 一 个 server 插口 
和 一 个 client 插口 之 间 才 能 建立 起 连接 。 那么, 怎样 来 区 分 这 两 种 不 同 的 插口 昵 ? 只 要 在 插口 创建 以 后 
为 其 调用 了 listen( )， 这 个 插口 就 成 为 server 插口 了 。 凡 是 server 插口 都 不 能 主动 去 与 别 的 插口 建立 连 
接 ,而 只 能 被 动 地 通过 accept( ) 接 受 来 白 client 插口 的 连接 请 求 .而 client 插口 则 相反 , 不 能 调用 accept( ) 
来 接受 连接 请 求 ， 而 只 能 主动 地 通过 connect( EMER kK. 

我 们 来 看 sys_listen( ) 的 代码 (socket.c): 


[sys_socketcall( ) > sys_listen( )] 


1003 /* 

1004 * Perform a listen. Basically, we allow the protocol to do anything 
1005 * necessary for a listen, and if that works, we mark the socket as 
1006 * ready for listening. 

1007 */ 

1008 

1009 asmlinkage long sys listen(int fd, int backlog) 

1010 f 

1011 struct socket *sock; 
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1012 int err; 

1013 

1014 if ((sock = sockfd lookup(fd, &err)) != NULL) { 
1015 if ((unsigned) backlog > SOMAXCONN) 

1016 backlog = SOMAXCONN; 

1017 err=sock->ops—>listen(sock, backlog) ; 

1018 sockfd_put (sock); 

1019 } 

1020 return err; 

1021  ] 


.. S sys bind ) 的 代码 比较 一 下 就 可 以 看 出 ， 除 对 参数 backlog 的 处 理 外 ， 二 者 基本 上 是 一 样 的 ， 都 
是 根据 打开 文件 号 fd 找到 插口 的 socket 数据 结构 〈inode 的 一 部 分 )， 进 而 通过 结构 中 的 指针 ops 找到 
相应 的 proto ops 数据 结构 unix stream ops 或 unix_dgram_ops， 再 通过 不 同 的 函数 指针 执行 相应 的 函 
数 。 数 据 结构 unix_dgram_ops 中 的 指针 listen 设置 为 sock_no_listen( )， 说 明 无 连接 模式 的 插口 并 不 支 
持 listen( )， 而 unix stream ops 中 的 指针 listem 则 设置 为 unix_listen( )， 此 前 数 在 文件 af_unix.c P: 


[sys_socketcall( ) > sys listen( ) > unix_listen( )] 


431 static int unix listen(struct socket *sock, int backlog) 


432 { 

433 int err; 

434 struct sock *sk = sock->sk; 

435 

436 err = -EOPNOTSUPP; 

437 if (sock-^type!-SOCK STREAM) 

438 goto out; /* Only stream sockets accept */ 
439 err = -EINYAL; 

440 if (!sk->protinfo. af unix. addr) 

441 goto out; /* No listens on an unbound socket */ 
442 unix state wlock (sk); 

443 if (sk->state !- TCP CLOSE && sk->state !- TCP LISTEN) 
444 goto out unlock; 

445 if (backlog > sk-^max ack backlog) 

446 wake up interruptible all(&sk-protinfo.af unix.peer wait); 
447 sk->max_ack_backlog=backlog; 

448 sk-^state-TCP LISTEN; 

449 /* set credentials so connect can copy them */ 

450 sk->peercred. pid = current—>pid; 

451 sk->peercred. uid = current-^euid; 

452 sk->peercred. gid = current—>egid; 

453 err = 0; 

454 

455 out_unlock: 

456 unix_state_wunlock (sk) ; 

457 out: 

458 return err; 
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459  ] 


首先 ， 具 有 插 册 的 类 型 为 SOCK_STREAM， 即 “有 连接 ”模式 的 插口 ， 并 HH 已 经 为 其 bind( ) 了 插 
口 地 址 ， 才 允许 listen( )。 其 次 ， 对 于 符合 这 些 条 件 的 插口 也 不 是 什么 时 候 都 可 以 调用 listen( ) 的 。 插口 
的 sock 结构 中 有 个 成 分 state， 用 来 实现 一 种 “有 限 状 态 机 ?”。 只 有 当 这 个 状态 机 处 于 TCP_CLOSE 或 
TCP_LISTEN 这 两 种 状态 时 才 可 以 对 其 调用 listen(). AEH TH sock_create( ) 的 代码 中 ， 我 们 看 到 在 创建 
一 个 揪 口 时 要 调用 函数 sock init data( ) 对 分 配 的 sock 数据 结构 进行 初始 化 ， 在 那里 将 state 设置 成 
TCP CLOSE. 状态 TCP. CLOSE 表示 插口 只 是 刚刚 建立 ， 肖 未 宣称 为 server Ji L1; 而 TCP_LISTEN MI 
表示 该 插口 已 经 设 秆 成 server 插 凯 ， 但 尚 术 建立 起 连接 ， 并 有 不 是 在 等 待 米 白 client 一 方 的 连接 请 求 。 
只 有 在 这 两 种 状态 下 才 人 允许 改 变 搬 口 的 参数 〈 主 要 是 连接 请 求 队列 的 容量 )。 这 里 顺便 要 提 下,“ 有 
连接 ”模式 的 插口 未 必 才 是 采用 TCP MEM, (A TCP 是 一 种 典型 的 “有 连接 ”规程 ， 所 以 sock 结构 
中 实现 的 起 :个 TCP 状态 机 的 子 集 。 这 样 ， 即 使 插口 的 具体 规程 汪 不 是 TCP， 从 插口 的 使 用 来 说 已 经 
能 满足 要求 了。 

至 于 listen ) 真 下 要 做 的 事情 ， 其 实 是 相当 简单 的 ( 见 447—452 行 )。 除 状态 本 寺 的 变化 以 外 ， 就 
是 设置 〈 或 改变 》 几 个 参数 ， 主 要 就 是 最 大 队列 长 度 max_ack_backlog， 还 有 就 是 “HOE” HSH, 
BIET credentials, 具体 就 是 进程 的 用 户 号 、 组 号 以 及 进程 号 。 以 后 ， 当 server 方 接受 一 个 连接 请 求 时 ， 
要 将 这 些 信息 送 同 给 请 求 连接 的 方 ， 让 其 知道 究 亮 是 谁 接受 了 连接 请 求 。 还 有 ， 当 新 的 队列 容量 比 
原来 有 所 扩大 时 ， 还 要 唤醒 可 能 正在 睡眠 中 等 待 着 将 连接 请 求 手 入 队列 的 进程 445~-446 行 )。 


7.5 函数 sys accept( ) 一 一 接受 连接 请 求 


“有 连接 ”模式 的 插口 -- 昌 遂 过 listen( ) 设 置 成 server 岳 口 以 后 ， 就 只 能 被 动 地 通过 accept( ) 接 受 
来 自 client 插口 的 连接 请 求 。 进 程 对 accept( ) 的 调用 是 阻 寨 性 的 ， 就 证 说 如 果 没 有 连接 请 求 就 会 进入 睡 
眠 等 待 ， 直 到 有 连接 请 求 到 来 ， 接 受 了 请 求 以 后 《或 者 超过 了 预定 的 等 待 时 间 ) 才 会 返回 。 所 以 ， 在 
已 经 和 有 连接 请 求 的 情况 下 是 “接受 连接 请 求 ”， 而 在 尚 无 连接 请 求 的 情况 下 是 “等 竺 连接 请 求 "。 人 在 内 
核 中 ，accept( ) 是 通过 net/socket.c 中 的 函数 sys_accept( ) 实 现 的 ， 其 代 但 在 net/socket.c F: 


[sys socketcall( ) > sys accept( )] 


1022 /* 

1023 * For accept, we attempt to create a new socket, set up the link 
1024 * with the client, wake up the client, then return the new 

1025 * connected fd. We collect the address of the connector in kernel 
1026 * space and move it Lo user at the very end. This is unclean because 
1027 * we open the socket then return an error. 

1028 * 

1029 * 1003.1g adds the ability to recvmsg( ) to query connection pending 
1030 * status to recvmsg. We need to add that support in a way thats 

1031 * clean when we restucture accept also 

1032 */ 

1033 

1034 asmlinkage long sys accept(int fd, struct sockaddr *upeer sockaddr, 
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int *upeer addrlen) 


1035 { 

1036 struct socket *sock, *newsock; 

1037 int err, len; 

1038 char address[MAX SOCK ADDR]; 

1039 

1040 sock = sockfd lookup(fd, &err) ; 

1041 if (!sock) 

1042 goto out; 

1043 

1044 err = -EMFILE; 

1045 if (!(newsock = sock alloc( ))) 

1046 goto out put; 

1047 

1048 newsock-^type = sock->type; 

1049 newsock-^ops = sock—>ops; 

1050 

1051 err = sock->ops~accept (sock, newsock, sock—file—^f flags); 
1052 if (err < 0) 

1053 goto out_release; 

1054 

1055 if (upeer sockaddr) { 

1056 if (newsock—>ops—>getname(newsock, (struct sockaddr *)address, &len, 2)«0) { 
1057 err = -ECONNABORTED; 

1058 goto out_release; 

1059 } 

1060 err = move addr to user(address, len, upeer sockaddr, upeer addrlen); 
1061 if (err < 0) 

1062 goto out release; 

1063 ) l 

1064 

1065 /* File flags are not inherited via accept( ) unlike another OSes. */ 
1066 

1067 if ((err = sock map fd(newsock)) < 0) 
1068 goto out release; 

1069 

1070 out put: 

1071 sockfd put (sock) ; 

1072 out: 

1073 return err; 

1074 

1075 out release: 

1076 sock release(newsock); 

1077 goto out put; 

1078 } 


说 来 也 许 奇 怪 , 实际 上 一 个 插口 经 listen( ) 设 置 成 server 插口 以 后 永远 不 会 与 任何 插口 建立 起 连接 。 


内 为 一 旦 接受 了 一 个 连接 请 求 之 后 就 会 创建 出 另 一 个 插口 ， 连 接 就 建 江 在 这 个 新 的 插口 与 清 求 连接 的 
那个 插口 之 间 , 而 原先 的 server 插口 则 并 无 改变 ,并且 还 可 再 次 通过 accept( ) 接 受 下 - :个 连接 请 求 ,， 就 
好 像 母 鸡 下 常 -- 样 。 就 这 样 “ 只 取代 ， 不 杀 鸡 ”，server 插口 永远 保持 接受 新 的 连接 请 求 的 能 力 ， 但 是 
其 本 身 从 来 不 成 为 某 个 连接 的 一 端 。 正 因为 这 样 ，sys_accept( ) 返 回 的 是 新 插口 的 打开 文件 号 ， 同 时 还 
通过 作为 参数 的 指针 upeer_sockaddr 返回 对 方 的 插曲 地址。 

代码 中 先 通过 sockfd_lookup( ) 找 到 server 插口 的 socket 结构 , 然后 通过 sock_alloc( ) 分 配 一 个 新 的 
socket 结构 ， 为 “下蛋” 作 好 准备 ， 再 道 过 相应 proto ops 数据 结构 “对 于 Unix 域 是 unix stream ops 
或 unix_dgram_ops) 中 的 水 数 指针 accept 调用 具体 的 函数 。 从 前 面 数 据 结构 unix_dgram_ops 的 代码 可 
以 看 到 , “无 连接 ”插口 的 accept 函数 指针 设置 为 sock_no_accept( )， 可 见 “ 无 连接 ”插口 并 不 支持 
accept( )。 而 “有 连接 ”插口 的 accept 指针 则 指向 unix_acceptt )， 此 函数 在 文件 af_unix.c P: 


{sys_socketcall( ) > sys accept( ) > unix, accept( )] 


1038 static int unix_accept (struct socket *sock, struct socket *newsock, int flags) 
1039 { 

1040 unix socket *sk = sock—sk; 

1041 unix socket *tsk; 

1042 siruct sk buff *skb; 

1043 int err; 

1044 

1045 err - -EOPNOTSUPP; 

1046 if (sock Lype!-SOCK STREAM) 

1047 goto out; 

1048 

1049 err = —EINVAL; 

1050 if (sk->state!=TCP_LTSTEN) 

1051 goto out; 

1052 

1053 /* If socket state is TCP LISTEN it cannot change (for now...), 
1054 * so that no locks are necessary. 

1055 */ 

1056 

1057 skb = skb recv datagram(sk, 0, flags&0 NONBLOCK, &err); 
1058 if (!skb) 

1059 goto out; 

1060 

1061 tsk = skb->sk; 

1062 skb free datagram(sk, skb); 

1063 wake up interruptible(&sk-^protinfo. af unix. peer wait); 
1064 

1065 /* attach accepted sock to socket */ 

1066 unix state wlock(tsk); 

1067 newsock—>state = SS CONNECTED; 

1068 sock graft (tsk, newsock) ; 

1069 unix state _wunlock (tsk) ; 

1070 return 0; 


.39 . 


Linux 内 核 源 代 公 情景 分 析 《下 肌 》 


1071 

1072 out: 

1073 return err; 
1074 } 


以 前 我 们 在 讲 到 搬 口 的 创建 时 曾经 提 到 ， 在 sock 结构 中 有 几 个 重 旧 的 队列 ， 其 中 之 一 是 到 达 报 文 
的 队列 receive queue。 到 达 的 报 文 〈 更 确切 地 说 是 packet) “载运” 在 sk buff 数据 结构 中 ， 而 
receive, queue 等 待 队列 就 是 sk_buff 结构 的 队 刻 。 连 接 请 求 也 是 以 报 文 的 形式 到 达 的 ， 不 过 不 是 一 般 的 
数据 报 文 ， 而 属 十 控制 报 文 。 所 以 ， 所 谓 等 待 连接 请 求 的 到 来 就 是 等 待 这 种 控制 报 文 的 到 来 。 另 一 方 
A, BM Sr ABA “HER” RAN, (HERA HE GIO) 而 言 ， 而 控制 报 文 实际 上 都 
是 “万 连接 ”的 否则 ， 靠 什么 于 段 来 建立 最 初 的 连接 呢 ?) 所 以 ， 这 里 通过 skb recv datagram( ) 从 
receive queue 队列 中 接收 代表 着 连接 请 求 的 控制 报 文 。 注 意 datagram CRER 并 不 表示 “数据 报 
文 ”， 山 是 帝 以 “无 连接 ”模式 传递 的 报 文 ， 切 不 要 把 这 二 者 泥 浠 了 。 

PRX skb_recv_datagram( ) 的 代码 在 net/core/datagram.c 中 : 





[sys_socketcall( ) > sys accept( ) > unix, accept( ) > skb_recv_datagram( )] 


109 /* 
110 * Get a datagram skbuff, understands the peeking, nonblocking wakeups and possible 
Lil * races. This replaces identical code in packet, raw and udp, as well as the IPX 
112 * AX. 25 and Appletalk. It also finally fixes the long standing peek and read 
113 * race for datagram sockets. If you alter this routine remember it must be 
114 * re-entrant 
115 * 
116 * This function will lock the socket if a skb is returned, so the caller 
117 * needs to unlock the socket in that case (usually by calling skb free datagram) 
118 * 
119 * * It does not lock socket since today. This function is 
120 * * free of race conditions. This measure should/can improve 
121 * * significantly datagram sockct latencies at high loads, 
122 * %* when data copying to user space takes lots of time. 
123 * ck (BTW T ve just killed the last cli( ) in IP/IPv6/core/netlink/packet 
124 * * 8) Great win.) 
125 * o --ANK (980729) 
126 * 
127 * The order of the tests when we find no data waiting are specified 
128 * quite explicitly by POSIX 1003.1g, don't change them without having 
129 * the standard around please. 
130 */ 
131 
132 struct sk buff *skb recv datagram(struct sock *sk, unsigned flags, 
int noblock, int *err) 
133 { 
134 int error; 
135 struct sk buff *skb; 
136 long timeo; 
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137 

138 /* Caller is allowed not to check sk->err before skb recv datagram( ) */ 
139 error = sock error(sk); 

140 if (error) 

141 goto no packet; 

142 

143 timeo = sock rcvtimeo(sk, noblock); 

144 

145 do | 

146 /* Again only user level code calls this function, so nothing interrupt level 
147 will suddenly eat the receive queue 

148 

149 Look at current nfs client by the way.. 

150 However, this function was corrent in any case. 8) 
151 */ 

152 if (flags & MSG PEEK) 

153 { 

154 unsigned long cpu_flags; 

155 

156 spin_lock_irqsave (&sk—->receive_queue. lock, cpu flags); 
157 skb = skb peek(&sk-^receive queue); 

158 if (skb!=NULL) 

159 atomic_inc (&skb—>users) ; 

160 spin_unlock_irqrestore(&sk—>receive_queue. lock, cpu flags); 
161 } else 

162 skb = skb_dequeue (&sk->receive_queue) ; 

163 

164 if (skb) 

165 return skb; 

166 

167 /* User doesn’t want to wait */ 

168 error = -EAGATN; 

169 if (!timeo) 

170 goto no packet; 

171 

172 } while (wait for packet(sk, err, &timeo) == 0); 

173 

174 return NULL; 

175 

176 no packet: 

177 *err = error; 

178 return NULL; 

179 ] 


其 实 我 们 应 该 在 讲述 “无 连接 ”模式 的 报 文 接收 时 再 米 介 绍 这 个 函数 ， 但 是 既然 在 这 上 儿 先 磁 上 了 ， 
也 就 只 好 把 它 提前 了 。 
首先 是 检查 sock 结构 中 的 出 错 代码 err, 看 看 从 上 一 次 调用 这 个 函数 以 后 全 今 是 省 发 咎 了 出 错 , A 
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时 将 其 清 0。 这 里 的 sock_error( ) 是 个 inline 函数， 其 定义 在 include/net/sock.h 中 : 


[sys socketcall( ) > sys accept( ) > unix_accept( ) > skb_recv_datagram( ) > sock error( )] 


1197 /* 

1198 * Recover an error report and clear atomically 
1199 */ 

1200 

1201 static inline int sock_error (struct sock *sk) 
1202 { 

1203 int err=xchg (&sk->err, 0) ; 

1204 return -err; 

1205  ] 


如 果 没 有 出 错 的 话 ， 就 可 以 试图 从 队列 中 接收 〈 脱 链 ) 一 个 报 文 《 即 sk. buff 数据 结构 ) 了 。 这 里 
的 标志 位 MSG_PEEK 是 为 recv( )、recvfrom( ) 等 库 交 数 设置 的 。 在 调用 那些 库 肯 数 时 可 以 把 参数 flags 
中 的 MSG_PEEK 置 成 1， 表示 只 是 看 “下 队列 中 是 否 有 报 文 可 接收 ， 但 是 并 不 真 的 接收 。 除 此 之 外 ， 
还 有 个 在 文件 操作 中 常用 的 标志 位 O_NONBLOCK， 表 示 如 果 有 报 文 就 接收 ， 但 若 没有 也 得 马上 返回 ， 
而 不 是 睡眠 等 待 , 这 个 标志 位 也 可 用 于 accept( )。 进 一 步 , 还 可 以 为 等 待 连接 的 操作 设 定 -- 个 时 间 限 制 ， 
这 就 是 参数 noblock 的 作用 。 

大 家 都 知道 ， 队 列 操作 是 绝 不 容许 打扰 的 《这 种 打扰 可 能 来 白 其 他 进程 ， 也 有 可 能 来 白 中 断 服务 
程序 )， 所 以 在 skb peek( )2 Bü E Jp Bi. AF skb_dequeue( )， 则 已 经 把 这 :点 考虑 进去 了 ( 见 
include/linux/skbuff.h ): 


[sys. socketcall( ) > sys_accept( ) > unix_accept( ) > skb_recv_datagram( ) > skb_dequeue( )] 


513 fk 

514 * skb dequeue - remove from the head of the queue 

515 * @list: list to dequeue from 

516 * 

517 * Remove the head of the list. The list lock is taken so the function 
518 * may be used safely with other locking list functions. The head item is 
519 * returned or %NULL if the list is empty 

520 */ 

521 


522 static inline struct sk buff *skb dequeue (struct sk buff head *list) 
523 { 


524 long flags; 

525 struct sk buff *result; 

526 

527 spin lock irqsave(&list-^lock, flags); 

528 result = . skb dequeue(list); 

529 spin unlock irqrestore(&list »lock, flags); 
530 return result; 

531 } 
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显然 ， 其 主体 是 __skb_dequeue( ): 


[sys_socketcall( ) > sys accept( ) > unix accept( ) > skb_recv_datagram( ) > skb_dequeue( ) 
». Sskb dequeue] 


484 /** 

485 * skb dequeue - remove from the head of the queue 

486 * @list: list to dequeue from 

487 * 

488 * Remove the head of the list. This function does not take any locks 
489 * so must be used with appropriate locks held only. The head item is 
490 * returned or «NULL if the list is empty. 

491 */ 

492 


493 static inline struct sk buff *__skb dequeue (struct sk buff head *list) 
494 d 


495 struct sk buff *next, *prev, *result; 
496 

497 prev 7 (struct sk buff *) list; 
498 next = prev-?next; 

499 result = NULL; 

500 if (next != prev) 1 

501 result = next; 

502 next = next~>next; 

503 list-^glen--; 

504 next—>prev = prev; 

505 prev-?next = next; 

506 result->next = NULL: 

507 result-»prev = NULL; 

508 result-»list = NULL; 

509 } 

510 return result; 

511 o} 


如 果 队 列 中 有 报 文 的 话 ， 接 收成 功 ， 就 可 以 返回 了 〈 见 165 £70. RAM? 那 就 要 看 在 调用 
accept( ) 时 的 O_NONBLOCK 标志 是 否 为 1， 如 果 是 的 话 ， 就 马上 出 错 返 回 〈 见 170 10), 出 错 代码 为 
一 EAGAIN， 否 则 就 通过 wait_for_packet( ) 睡 眠 等 待 。 这 个 函数 的 代码 在 neucore/datagram.c "P: 


[sys_socketcall( ) > sys_accept( ) > unix accept( ) > skb_recv_datagram( ) > wait, for packet( )] 


63 static int wait for packet(struct sock * sk, int *err, long *timeo p) 


64 { 

65 int error: 

66 

67 DECLARE _WATTQUEUE (wait, current); 

68 

69 __ set_current_state (TASK_TNTERRUPTIBLE| TASK_EXCLUSIVE) ; 
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70 add wait queue exclusive(sk->sleep, &wait); 

71 

72 /* Socket errors? */ 

73 error = sock error (sk): 

74 if (error) 

75 goto out; 

76 

77 if (!skb queue empty (&sk->receive_queue)) 

78 goto ready; 

79 

80 /* Socket shut down? */ 

81 if (sk shutdown & RCV SHUTDOWN) 

82 goto out; 

83 

84 /* Sequenced packets can come disconnected. If so we report the problem */ 

85 error = —ENOTCONN; 

86 if (connection_based(sk) && !(sk-^state--TCP ESTABLISHED | | 
sk-5state--TCP LISTEN) ) 

87 goto out; 

88 

89 /* handle signals */ 

90 if (signal pending (current) ) 

91 goto interrupted; 

92 

93 *timeo p = schedule timeout (*timeo p): 

94 

95 ready: 

96 current~>state = TASK RUNNING: 

97 remove_wait_queue(sk—>slecp, &wait); 

98 return 0; 

99 

100 interrupted: 

101 error = sock intr errno(*timeo p); 

102 out: 

103 current >state = TASK RUNNING; 

104 remove wait queue(sk-^slecp, &wait); 

105 *err = error; 

106 return error; 

107 ] 


这 里 sock 数据 结构 中 的 指针 sleep 指向 socket 结构 中 的 队列 wait, 是 创建 插口 时 在 sock. init data( ) 

中 设置 好 了 的 。 至 十 数据 结构 wait， 是 由 DECLARE, WAITQUEUE( ) 定 义 的 一 个 局 部 量 ， 其 空间 在 当 

前 进程 的 系统 空间 堆栈 1], 也 就 是 让 wait for. packet( )0 Bi Feder, 只 要 不 从 这 个 函数 返回 就 一 下 是 

有 效 的 。 通过 wait_for_packet( ) 将 数据 结构 wait FEA sock 结构 的 sleep 队列 , 就 等 十 把 当前 进程 挂 入 了 

日 标 插口 的 《连接 请 求 ) 等 待 队列 。 从 这 里 也 可 看 出 ， 多 个 进程 在 同 -- 个 插口 上 等 待 连接 请 求 是 允许 

的 。 当 前 进程 通过 schedule timeout( ) 进 入 睡眠 以 后 ， 就 一 直 骤 和 到 有 下 询 事 件 之 -发 生 时 才 会 被 唤 柄 而 
. 44. 
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从 schedule_timeout( ) 返 同 ， 那 就 是 ，Q 有 连接 请 求 到 达 ，@ 接 收 到 了 一 个 信号 ，@ 到 达 了 预定 的 等 生 
时 间 。 在 这 三 种 情况 下 wait for packet ) 的 返回 值 都 是 0， 所 以 在 skb_recv_datagram( ) 的 do-while 循环 
中 都 会 再 执行 一 次 循环 体 ， 再 作 最 后 一 次 尝试 。 此 外 ，wait_for_packet( ) 还 通过 指针 timeo. p HALE 
下 的 等 待 时 间 。 

读者 也 许 注意 到 了 ， 这 里 的 处 理 与 进程 在 许多 系统 调用 中 从 睡眠 醒 来 时 有 所 不 同 。 一 般 ， 当 一 个 
进程 从 睡眠 中 醒 来 时 要 先 检查 是 否 有 信号 到 达 ， 如 果 有 就 提前 结束 本 次 系统 调用 ， 先 对 信号 作出 反应 。 
而 这 里 则 不 同 ， 醒 来 后 还 是 回 到 循环 体 中 再 试 一 次 ， 这 是 为 什么 呢 ? 实际 上 ， 是 否 要 提前 结束 本 次 系 
统 调用 不 能 一 概 而 论 ， 要 看 继续 往 下 执行 是 否 能 在 个 有 限 的 短 时 间 内 完成 。 在 这 里 的 循环 体 中 执行 
的 基本 上 就 是 skb_dequeue( )， 那 只 是 举 手 之 劳 ， 下 面 述 会 看 到 在 接收 到 一 个 报 文 后 的 处 理 也 很 简单 ， 
所 以 还 不 如 再 试 -次 ， 哪 怕 不 成 功 ， 再 来 处 理 信号 也 还 不 迟 。 所 以 ， 如 果 这 次 成 功 了 当然 最 好 ， 那 
就 会 在 165 行 返 回 ， 要 是 仍 不 成 功 ， 市 时 间 已 经 到 点 《timeo BMT 0)， 那 就 会 在 170 行 结束 循环 ; 
否则 ， 那 就 应 该 是 因为 接收 到 信号 而 被 唤醒 了 《队列 中 没有 报 文 ， 时 间 又 未 到 点 )， 当 肯 次 调用 
wait. for packet( ) 的 时 候 就 会 在 那里 的 91 行 转 到 interrupted 处 ， 从 而 结束 do-while 循环 并 返回 一 个 出 
错 代 码 。 至 于 对 信号 的 处 理 ， 则 在 从 系统 调用 返 同 时 自 会 按 常 规 进行 。 

有 关连 接 请 求 的 到 达 ， 以 及 唤醒 正在 sys_accept( ) 中 睡眠 的 进程 可 以 参看 后 面 对 connect( ) 的 介绍 ， 
这 里 我 们 假定 连接 请 求 已 经 到 达 了 。 所 以 ， 从 wait_for_packet( ) 返 器 以 后 青 试 一 次 就 成 功 了 。 

回 到 unix_accept( ) 的 代码 中 《1058 行 )， 指 针 skb 指向 接收 到 的 sk_bu 人 f 数 据 结构 。 这 种 数据 结构 
是 在 include/linux/skbuff.h 中 定义 的 ， 山 于 要 考虑 到 各 种 个 同 的 规程 ， 其 定义 长 达 将 近 100 47. 5o A 
面 ， 我 们 在 本 书 中 所 关心 的 只 是 Unix 域 ， 所 以 就 不 列 出 它 的 定义 了 。 对 十 Unix 域 的 插口 ， 在 sk buff 
数据 结构 中 有 个 sock 结构 指针 sk， 指 向 一 个 sock 数据 结构 ， 就 是 代码 中 的 tsk。 这 个 sock 结构 是 由 请 
求 连接 的 那 一 方 送 过 来 、 供 接受 连接 的 一 方 使 用 的 , 注意 tsk 与 “task” 毫 无 关系 ， 大 概 是 “target sock” 
的 意思 。 

前 面 ， 在 sys_accept( ) (1045 行 ) 已 经 调用 了 sock_alloc( )， 分 配 了 一 个 新 的 socket 结构 (也 就 
是 inode 结构 )， 那 就 是 unix_accept( ) 的 参数 newsock。 但 sock_alloc( ) 并 不 是 sock_create( )， 它 并 不 分 
配 与 socket 结构 配对 的 sock 结构 ， 从 这 个 党 义 上 讲 ， 这 个 新 的 插口 还 不 完整 。 郑 么 什么 时 候 才 分 配 所 
需 的 sock 数据 结构 呢 ? 这 是 由 client 一 方 在 connect( ) 的 过 程 中 分 配 ， 并 且 将 其 指针 通过 用 作 连 接 请 求 
报 文 的 sk_buff 结构 带 过 来 的 ， 这 就 是 这 里 的 tsk. ME, 就 通过 sock_graft( ) 将 client A fe DER] tsk 
与 server 一 方 提供 的 newsock $E E44 (1068 íF). 


[sys socketcall( ) > sys accept( ) > unix, accept( ) > sock. graft ( )] 


1014 static inline void sock graft(struct sock *sk, struct socket *parent) 


1015 { 

1016 write lock bh(&sk->callback lock); 
1017 sk-»sleep = &parent-^wait; 

1018 parent-^sk = sk; 

1019 sk-^socket = parent; 

1020 write unlock bh(&sk-^callback lock); 
1021  ] 


这 样 ， 就 完成 了 主要 的 连接 过 程 ， 因 为 tsk 5 client 方 的 sock 结构 事先 已 经 互相 “背靠背 ” 连接 
好 了 。 同 时 ， 新 的 socket 结构 的 状态 也 埋 接 设置 成 SS. CONNECTED. 但 是 请 注意 ， 原 先 的 socket 结 
.45. 
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构 的 状态 却 并 未 改变 。 

读者 也 许 会 问 ， 代 码 中 并 没有 对 接收 到 的 报 文 ， 即 sk buff 结构 ， 作 什么 检查 ， 怎么 就 能 知道 它 一 
定 是 个 连接 请 求 报 文 呢 ? 答案 是 ， 只 有 连接 请 求 才能 挂 入 到 server 插口 的 receiver. queue 队列 中 。 数 据 
报 文 是 不 能 够 挂 入 到 这 个 队列 中 的 ， 它 们 只 能 挂 入 到 建立 了 连接 的 新 插口 的 receive_queue 队列 中 。 另 
外 ， 也 只 有 在 connect( ) 的 过 程 中 才 会 唤 酌 正 在 等 待 连 接 请 求 的 进程 。 所 以 ， 对 于 Unix 域 的 插口 来 说 ， 
是 否 有 “控制 报 文 ” 这 个 概念 ， 其 实 也 无 基 紧 要 ， 只 是 为 了 与 网 络 环境 下 的 插口 机 制 保持 概念 上 以 及 
实现 上 的 一 致 性 才 套用 了 这 些 概念 。 

接受 了 一 个 连接 请 求 以 后 ，- 方面 要 释放 报 文 ， 另 一 方面 要 把 请 求 连接 的 -- 方 唤醒 。 前 面 提 到 过 ， 
receive queue 队列 的 长 度 是 有 限制 的 ， 如 果 队 列 中 的 报 文 数量 已 经 达到 了 上 限 ， 则 新 到 达 的 报 文 就 因 
无 法 “投递 ”而 只 好 让 client JARRE. BUT, server 方 接收 了 一 个 报 文 以 后 ， receive queue 队 
列 的 长 度 下 降 了 , 就 可 以 把 可 能 正在 睡眠 等 待 的 进程 唤醒 了 (1063 112. 这 里 的 wake_up_interruptible( ) 
是 个 宏 操 作 ， 定 义 于 include/linux/sched.h F: 


#define wake up interruptible(x) _ wake up((x), TASK INTERRUPTIBLE, WQ FLAG EXCLUSIVE) 


调用 参数 WQ FLAG EXCLUSIVE 表示 如 果 有 多 个 进程 在 睡眠 等 待 就 只 唤醒 其 中 一 个 。 

[Pl S sys_accept( ) 的 代码 中 。 如 果 用 户 进程 提供 了 用 来 返回 对 方 地 址 的 数据 结构 指针 
upeer_sockaddr， 就 要 通过 相应 proto. ops Ait PM eA BEE! getname 来 获取 对 方 的 插口 地 址 。 在 数据 结 
#4] unix stream ops 中 ， 函 数 指针 getname 设置 为 unix _getname( )， 其 代码 在 af_unix.c P: 


[sys_socketcall( ) > sys accept( ) > unix getname( )] 


1077 static int unix getname (struct socket *sock, struct sockaddr *uaddr, 
int *uaddr len, int peer) 

1078 { 

1079 struct sock *sk = sock-—>sk; 

1080 struct sockaddr un *sunaddr=(struct sockaddr un *)uaddr: 

1081 int err = 0; 

1082 

1083 if (peer) | 

1084 sk = unix peer get(sk); 

1085 

1086 err - -ENOTCONN; 

1087 if (!sk) 

1088 goto out; 

1089 err = 0; 

1090 } else { 

1091 sock hold(sk); 

1092 } 

1093 

1094 unix state rlock(sk); 

1095 if (!sk-protinfo. af_unix. addr) | 

1096 sunaddr-^sun family = AF UNIX; 

1097 sunaddr->sun_path[0] = 0: 
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1098 *uaddr len = sizeof (short); 

1099 | else 1 

1100 struct unix address *addr = sk-^protinfo.af unix. addr; 
1101 

1102 *uaddr len = addr->len; 

1103 mémcpy(sunaddr, addr-^name, *uaddr len); 
1104 j 

1105 unix state runlock(sk); 

1106 sock put (sk) ; 

1107 out: 

1108 return err; 

1109  ] 


X ^ PR CBE RT CAA SSR 7 48 EL BE, 也 可 以 用 来 获取 本 插口 的 地 址 , 具体 由 参数 peer 决定 。 

在 这 里 由 于 调用 时 将 参数 的 值 设 成 1， 所 以 取 的 是 对 方 地 址 。 函 数 unix_peer_get( ) 通 过 sock 结构 中 的 

指针 pair 取得 指向 对 方 sock 结构 的 指针 。 如 前 所 述 ， 与 newsock 配对 的 sock 结构 是 由 调用 connect( ) 

的 一 方 分 配 和 设置 的 ， 当 然 也 包括 指针 pair 的 设置 。 所 以 ， 在 调用 了 unix peer get( ) 以 后 ， 代 码 中 的 
KET sk 就 改 成 指向 对 方 的 sock 结构 了 。 


[sys socketcall( ) > sys_accept( ) > unix getname( ) > unix. peer get ( )] 


152 static | inline. unix socket * unix peer get(unix socket *s) 
153 { 

154 unix socket *peer; 

155 

156 unix state rlock(s); 
157 peer - unix peer(s); 
158 if (peer) 

159 sock, hold(peer) ; 
160 unix state runlock (s); 
161 return peer; 

162 } 


140 #define unix peer(sk) ((sk)—>pair) 
MZ, sock hold( ) 则 只 是 递增 sock 结构 中 的 使 用 计数 〈 见 sock.h): 
[sys_socketcall( ) > sys_accept( ) > unix_getname( ) > Sock_hold( )] 


967 /* Grab socket reference count. This operation is valid only 


968 when sk is ALREADY grabbed f.e. it is found in hash table 

969 or a list and the lookup is made under lock preventing hash table 
970 modifications. 

971 */ 

972 


973 static inline void sock_hold(struct sock *sk) 
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974 { 
975 atomic inc(&sk-?refcnt) ; 
976 } 


前 面 讲 过 , server 插口 必须 有 个 地 址 , 这 样 client 方才 能 通过 地 址 来 找到 server 插口 的 数据 结构 ， 
所 以 在 创建 了 插口 以 后 定 要 调用 bind( ) 将 其 “捆绑 ”到 一 个 地 址 上 。 可 是 ， 对 于 client 一 方 的 插口 来 
说 ， 它 只 能 主动 地 去 寻找 某 个 server 插口 ， 别 的 插口 是 不 会 来 寻找 它 的 。 尤 其 是 Unix 域 的 插口 ， 所 传 
递 的 报 文 都 是 在 同一 计算 机 中 而 无 需 穿越 网 络 。 所 以 实际 上 没有 必要 让 client 插口 也 有 个 地 址 , 当然 有 
也 无 妨 。 这 样 ， 在 unix_getname( ) 中 就 要 考虑 到 两 种 情况 ， 一 -种 是 sock 结构 所 属 的 插口 根本 就 没有 地 
址 (1095 行 )， 另 一 种 则 是 有 地 址 的 《1099 行 )。 

再 回 到 sys accept( ) 的 代码 中 。 最 后 一 件 事 就 是 为 新 创建 的 插口 也 分 配 一 个 打开 文件 号 以 及 相应 的 
file 结构 ， 并 返回 这 个 打开 文件 号 。 函 数 sock. map. fa ) 的 代码 读者 在 sys socket( ) 中 已 经 看 到 过 ， 这 里 
就 不 重复 了 。 





请 求 连接 


以 前 讲 过 ,“ 有 连接 ”模式 的 播 口 与 “无 连接 ”模式 的 插口 都 可 以 调用 库 函 数 connect )， 但 是 意义 
友人 不同 。 内 核 中 的 函数 sys_connect( ) 是 二 者 公用 的 ， 只 是 因 “ 安 装 ” 在 插口 上 的 proto ops 数据 结构 的 
不 同 而 通过 不 同 的 函数 指针 转 入 不 同 的 处 理 程序 。 函 数 sys_connect( ) 的 代码 在 文件 net/socket.c H: 


7.6 函数 Sys_connect( ) 


[sys_socketcall( ) > sys connect( )] 


1081 /* 

1082 * Attempt to connect to a socket with the server address. The address 
1083 * is in user space so we verify it is OK and move it to kernel space. 
1084 * 

1085 * For 1003. 1g we need to add clean support for a bind to AF UNSPEC to 
1086 * break bindings 

1087 * 

1088 * NOTE: 1003.1g draft 6.3 is broken with respect to AX. 25/NetROM and 
1089 * other SEQPACKET protocols that take time to connect( ) as it doesn't 
1090 * include the -EINPROGRESS status for such sockets 

1091 */ 

1092 

1093 asmlinkage long sys_connect (int fd, struct sockaddr *uservaddr, int addrlen) 
1094 { 

1095 struct socket *sock; 

1096 char address[MAX SOCK ADDR]; 

1097 int err; 

1098 

1099 sock = sockfd lookup(fd, &err); 

1100 if (!sock) 

1101 goto out; 

1102 err - move addr to kernel(uservaddr, addrlen, address); 
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if (err < 0) 
goto out put; 
err = sock->ops—>connect (sock, (struct sockaddr *) address, addrlen, 
sock >file->f flags); 


out put: 


sockfd put (sock) ; 


return err; 


如 前 所 述 ，socket 结构 中 的 指针 ops 指向 某 个 proto ops 数据 结构 ， 对 十 unix 域 的 插口 有 两 种 
proto ops 数据 结构 ， 分 别 用 于 “有 连接 ” 插口 和 “无 连接 ”插口 。 数 据 结 构 unix stream ops 中 的 指 
针 connect 指向 unix_stream_connect( ), 而 unix dgram ops 中 的 这 个 指针 则 指向 unix. dgram, connect( )。 

先 来 看 “有 连接 ”模式 的 插口 。 如 前 所 述 ， 只 有 client HOA AW COUP EL— x8 E. 38833. connect( ) 
向 --… 个 server 插口 提出 连接 请 求 ， 在 请 求 被 server 插口 接受 而 建立 起 连接 之 前 是 不 能 在 两 个 插口 之 间 
传递 数据 报 文 的 。 函 数 unix_stream_connect( ) 的 代码 在 net/unix/af unix.c 中 ， 我 们 分 段 往 下 看 : 


[sys_socketcall( ) > sys connect( ) > unix_stream_connect( )] 
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static int unix_stream_connect (struct socket *sock, struct sockaddr *uaddr, 


int addr len, int flags) 


struct sockaddr un *sunaddr=(struct sockaddr un *)uaddr; 
struct sock *sk = sock-?sk; 

struct sock *newsk - NULL; 

unix socket *other - NULL; 

struct sk buff *skb - NULL; 

unsigned hash; 

int st; 

int err; 

long timeo; 


err = unix mkname(sunaddr, addr len, &hash); 
if (err < 0) 

goto out; 
addr len = err; 


if (sock->passcred && !sk->protinfo. af unix. addr && 
(err = unix autobind(sock)) != 0) 
goto out; 

timeo = sock sndtimeo(sk, flags & 0 NONBLOCK); 

/* First of all allocate resources. 


If we will make it after state is locked, 
we will have to recheck all again in any case 
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879 */ 

880 

881 err = —ENOMEM; 

882 

883 /* create new sock for complete connection */ 
884 newsk = unix create! (NULL) ; 

885 if (newsk == NULL) 

886 goto out; 

887 

888 /* Allocate skb for sending to listening sock */ 
889 skb = sock wmalloc(newsk, 1, 0, GFP KERNEL); 
890 if (skb == NULL) 

891 goto out; 

892 


这 里 函数 unix. mkname( ) 的 作用 是 将 目标 揪 口 的 地 址 加 以 某 种 “规格 化 ”并 返 辐 其 长 度 。 如 果 这 
个 地 址 是 个 “抽象 地 址 ?， 则 还 要 计算 出 它 的 杂凑 值 ， 其 代码 我 们 已 经 在 介绍 sys socket( ) 时 看 到 过 
To Mi socket 数据 结构 中 有 个 标志 passcred， 意 为 “pass credentials”， 就 是 要 把 自己 的 “身份 ” 告 
诉 对 方 。 在 插口 创建 之 初 这 个 标志 为 0， 但 是 可 以 在 用 户 程序 中 通过 setsockopt( ) 将 其 设置 成 ]。 所 谓 
身份 ， 当 然 包 括 地 址 。 所 以 ， 如 果 播 口 没 有 地 址 却 又 得 把 身份 告诉 对 方 ， 则 必须 调用 unix_autobind( ) 
自动 生成 一 个 地 址 〈871 行 )。 

与 accept( )— E. connect( ) 也 是 阻塞 性 的 , 如 果 连 接 请 求 不 能 得 到 server 方 接受 就 会 进入 睡 乳 等 待 ， 
直到 server 方 接受 了 连接 请 求 ( 或 者 超过 了 着 定 的 等 待 时 间 ) 才 会 返回 。 不 过 也 可 以 把 参数 flags 中 的 
O NONBLOCK 为 标志 位 ， 使 得 在 连接 请 求 不 能 马上 得 到 接受 时 就 立即 返 同 。 这 里 的 sock_sndtimeo( ) 
是 个 inline KR, XF include/net/sock.h 中 : 


[sys socketcall( ) > sys connect( ) > unix, stream connect( ) > sock, sndtimeo( )] 


1249 static inline long sock sndtimeo (struct sock *sk, ini noblock) 
1250 { 

1251 return noblock ? 0 : sk->sndtimeo; 

1252  ] 


然后 ， 通 过 unix createl( ) 分 配 一 个 新 的 sock 数据 结构 ， 其 代码 我 们 已 经 在 介绍 sys_socket( ) 时 看 
到 过 。 这 个 新 的 sock 数据 结构 是 为 server 一 方 在 调用 accept( ) 时 创建 新 的 插口 而 准备 的 。 如 前 所 述 ， 
-个 插口 除了 有 一 个 socket 数据 结构 〈 实 际 上 是 inode 数据 结构 的 - -部 分 ) 外 ， 还 要 有 个 与 之 配套 使 
用 的 sock 结构 。 对 Unix 域 的 “有 连接 ”模式 插 岂 而 言 ， 这 个 数据 结构 起 由 client 一 方 在 这 里 分 配 的 ， 
并 将 其 地 址 newsk 通过 连接 请 求 报 文 传递 到 server 一 方 。 代 表 着 连接 请 求 的 sk. buff. 数据 结构 则 由 
sock_wmalloc( ) 分 配 并 初始 化 (sock.c): 


[sys_socketcall( ) > sys connect( ) > unix stream connect( ) > sock_wmalloc( )] 


654 /* 
655 * Allocate a skb from the socket's send buffer. 
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656 */ 

657 struct sk buff *sock_wmalloc (struct sock *sk, unsigned long size, 
int force, int priority) 

668 | 

659 if (force || atomic read(&sk-^»wmem alloc) < sk-^sndbuf) ( 

660 struct sk buff * skb - alloc skb(size, priority); 

661 if (skb) { 

662 skb set owner w(skb, sk); 

663 return skb; 

664 ] 

665 ] 

666 return NULL; 

667  ] 


代码 中 的 sk->wmem_alloc 是 sock 结构 中 的 一 个 计数 器 ， 有 肯 来 累计 为 本 插口 分 配 的 sk_buff 存储 空 
间 ， - 般 厅 应 超过 为 该 插 日 设置 的 限额 sk->sndbuf, 但 是 可 以 道 过 把 参数 force 设 成 1 米 打破 这 个 限制 。 
参数 size 为 随同 sk. buff 结构 发 送 的 数据 缓冲 区 的 大 小 ， 这 里 在 调用 时 设置 成 1， 不 过 实际 分 配 时 是 以 
16 个 字 节 为 单位 的 ， 所 以 实际 上 是 16 AFE. K% skb_owner_w( ) 对 分 配 到 的 sk buff 进行 “ 些 初 始 
化 (sock.h): 


[sys_socketcall( ) > sys connect( ) > unix_stream_connect( ) > sock wmalloc( ) > skb owner w()] 


1120 /* 

1121 * Queue a received datagram if it will fit. Stream and sequenced 
1122 * protocols can't normally use this as they need to fit buffers in 
1123 * and play with them. 

1124 * 

1125 * Inlined as it’s very short and called for pretty much every 

1126 * packet ever received 

1127 */ 

1128 

1129 static inline void skb_set_owner_w(struct sk buff *skb, struct sock *sk) 
130 1 

1131 sock hold(sk); 

1132 skb-^sk = sk; 

1133 skb-»destructor = sock wfree; 

1134 atomic add(skb-^truesize, &sk~>wmem alloc); 

1135. } 


这 里 使 报 文 缓冲 区 由 的 指针 sk 指向 为 server 方 分 配 的 sock 数据 结构 , 问 时 还 要 把 报 文 缓冲 区 中 的 
函数 指针 destructor 设置 成 指向 sock_wfree( ). 使 server 方 将 来 能 按 上 正确 的 途径 释放 这 个 缓冲 区 . SUR 
skb-»truesize 为 包括 数据 缓冲 区 在 内 的 实际 大 小 ， 其 初始 值 是 在 alloc_skb( ) 中 设置 的 。 

问 到 unix. stream. connect( ) 中 。 至 此 , 我 们 已 经 分 配 了 一 个 sock 结构 以 及 一 个 空白 的 sk, buff 结构 。 
ibB RETE FOE Caf_unix.c): 


[sys_socketcall( ) > sys connect( ) > unix. stream connect( )] 
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893 restart: 


894 /* Find listening sock. */ 

895 other-unix find other(sunaddr, addr len, sk-^type, hash, &err); 
896 if (!other) 

897 goto out; 

R98 

899 /* Latch state of peer */ 

900 unix state rlock(other); 

901 

902 /* Apparently VFS overslept socket death. Retry. */ 
903 if (other->dead) ( 

904 unix state runlock (other); 

905 sock put (other) ; 

906 goto restart: 

907 } 

908 

909 err = -ECONNREFUSED; 

910 if (other->state != TCP_LISTEN) 

911 goto out unlock; 

912 

913 if (skb queue len(&other—^receive queue) > other->max_ack backlog) | 
914 err = —EAGAIN; 

915 if (!timeo) 

916 goto out unlock; 

917 

918 timeo - unix wait for peer(other, timeo); 
919 

920 err = sock intr orrno(timeo); 

921 if (signal pending(current)) 

922 goto out; 

923 sock put (other) ; 

924 goto restart; 

925 } 

926 


函数 unix_find_other( ) 根 据 给 定 的 地 址 找到 日 标 插口 的 sock 数据 结构 ， 其 代码 也 在 af_unix.c P: 
[sys_socketcall( ) > sys connect( ) > unix stream connect( ) > unix, find other( )] 


588 static unix socket *unix find other(struct sockaddr un *sunname, int len, 


589 int type, unsigned hash, int *error) 
590 { 

591 unix socket *u; 

592 struct nameidata nd; 

593 int err = 0; 

594 

595 if (sunname-^sun path[0]) { 
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596 if (path init(sunname-^sun path, 

597 LOOKUP POSITIVE|LOOKUP FOLLOW, &nd)) 
598 err = path walk(sunname-^sun path, &nd); 
599 if (err) 

600 goto fail; 

601 err = permission (nd. dentry-^d inode, MAY WRITE); 
602 if (err) 

603 goto put fail; 

604 

605 err = -ECONNREFUSED; 

606 if (IS ISSOCK (nd. dentry->d_inode- >i_mode) ) 

607 goto put fail; 

608 u-unix find socket byinode(nd.dentry-^d inode); 
609 if (u) 

610 goto put fail; 

611 

612 path release (&nd) ; 

613 

614 err--EPROTOTYPE ; 

615 if (uc type !- type) { 

616 sock put (u) ; 

617 goto fail; 

618 } 

619 } else { 

620 err = ~ECONNREFUSED; 

621 u-unix find socket byname(sunname, len, type, hash) ; 
622 if (!u) 

623 goto fail; 

624 ] 

625 return u; 

626 

627 put_fail: 

628 path_release (&nd) ; 

629 fail: 

630 *error-err; 

631 return NULL; 

632 |} 


可 见 ， 对 于 常规 的 以 文件 路 径 名 为 代表 的 插口 地 址 ， 要 先 通 过 文件 系统 的 操作 path_init( ) 和 
path wak ) 在 文件 系统 中 找到 其 日 未 项 和 索引 节点 ， 并 在 内 存 中 建立 起 相应 的 dentry 结构 以 及 inode 
结构 。 然 后 ， 就 使 用 其 索引 节点 号 ， 通 过 unix_find_sock_byinode( ERAK unix, socket, table 中 找到 
相应 的 队列 和 sock 数据 结构 .对 于“ 抽象 地 址 ” 则 使 用 该 地 址 的 杂凑 值 通过 unix. find. socket. byname( ) 
在 unix, socket table 中 寻找 。 找 到 了 对 方 的 sock 结构 以 后 ，: :者 都 会 通过 sock. hold ) 将 结构 中 的 访问 
计数 refent 加 1， 表 示 这 个 结构 现在 多 了 -个 “用 户 ”。 

回 到 unix_stream_connect( ) 的 代码 中 (895 行 )。 找 到 了 server HRI sock 结构 以 后 ， 指针 other 
指向 这 个 结构 。 但 是 ， 在 对 这 个 sock 结构 进行 任何 操作 之 前 需要 确认 这 个 sock 结构 不 处 杆 正 被 撤销 的 
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过 程 中 。 虽 然 对 Unix 域 的 插口 而 谊 ，server 和 client 双方 都 在 同一 台 计 算 机 上 ， 但 是 在 SMP 多 处 理 器 
结构 下 两 个 进程 有 可 能 在 两 个 不 同 的 处 理 器 中 运行 (但 是 共用 内 存 )。 所 以 有 可 能 发 生 这 么 一 种 情况 ， 
就 是 当 client 方 的 进程 运行 到 这 里 ， 即 从 杂凑 表 的 队 刻 中 找到 了 server 插口 的 sock 结构 时 ， 恰 好 在 另 
一 个 处 理 器 中 运行 的 server 方 的 进程 已 经 在 关闭 、 撤 销 这 个 插口 了 。 如 果 椒 采取 有 效 的 措施 加 以 防范 ， 
就 可 能 出 现 严重 问题 : 当 client 方 进程 在 自 以 为 找到 了 server 插口 的 sock 结构 ， 并 且 通 过 other 指针 对 
其 操作 (例如 将 报 文 挂 入 它 的 receive_queue 队列 中 ) 时 ,事实 上 server 方 进程 已 经 释放 了 这 个 sock 结 
构 的 空间 。 那 么 ， 内 核 中 采取 了 什么 桩 的 措施 来 防止 这 种 情况 的 发 生 呢 ? 

(1) YE sock 结构 中 设置 了 一 个 访问 计数 器 refcnt。 繁 当 某 一 进程 着 入 到 这 个 结构 的 使 用 时 ， 或 者 
当 所 属 的 插口 建立 起 个 连接 时 , 就 要 通过 sock_hold( ) 将 这 个 计数 器 加 1. 前 面 我 们 提 到 过 ， 
当 client 方 进程 从 unix, socket, table 表 中 的 队列 里 找到 server 插口 的 sock 数据 结构 时 ， 就 会 
通过 sock_hold( ) 将 这 个 结构 中 的 访问 计数 refcnt 加 1, doe 已 经 在 前 一 节 中 看 到 过 了 。 
相应 地 ， 每 当 一 个 进程 结束 了 对 一 个 插口 的 使 用 时 ， 或 者 拆除 -个 连接 时 ， 都 要 通过 另 一 个 
inline 函数 sock. put( ) 将 相应 sock 结构 中 的 计数 器 refent wh 1. 只 有 在 这 个 计数 器 达到 了 0 时 ， 
才 人 允许 (并 且 必 须 ) 将 这 个 sock 结构 释放 : 


(2 


— 


986 /* Ungrab socket and destroy ii, if it was the last reference. */ 
987 static inline void sock put(struct sock *sk) 


988 f 

989 if (atomic dec and test (&sk->refcnt)) 
990 sk free(sk); 

991  ] 


[sock put()- sk_free( )] 


985 void sk free(struct sock *sk) 


586 { 

587 #ifdef CONFIG FILTER 

588 struct sk filter *filter; 
589 Bendif 

590 

591 if (sk-^destruct) 

592 sk~>destruct (sk) ; 

593 

594 #ifdef CONFIG FILTER 

595 filter = sk filter; 

596 if (filter) | 

597 sk filter release(sk, filter); 
598 sk->filter = NULL; 
599 } 

600 Sendif 

601 aa 


602 if (atomic read (&sk-^omem alloc)) 
printk(KERN DEBUG "sk frce: optmem leakage (%d bytes) detected. \n’, 
603 atomic read(&sk-^omem alloc)); 
604 
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605 kmem cache free(sk cachep, sk); 
606 } 


注意 592 行 对 destruct eK CB UH]. ox e EE ETT AE AG sock 数据 结构 时 设置 好 了 的 ， 用 
URBE KZ RU S ee 3 RI ER YE 605 行 的 kmem. cache, free( ) 则 将 给 定 的 sock 
结构 在 其 slab 中 加 以 释放 。 

G) 关闭 、 撤 销 .个 插口 时 ， 其 sock 结构 中 的 计数 refcnt 有 可 能 还 大 于 1， 表 示 还 有 用 户 ， 所 以 

不 能 马上 将 这 个 结构 释放 ， 而 只 能 将 其 refent 计数 减 1， 批 释放 该 结构 的 责任 留 给 最 后 将 这 
个 计数 减 到 0 的 亏 个 进程 。 但 是 ， 光 赁 计数 refcnt 不 足以 说 明 该 插口 在 逻辑 上 是 否 已 经 撤销 ， 
所 以 在 sock 结构 中 又 设置 了 一 个 标志 量 dead, X8 E A sock 结构 中 的 refent 还 个 是 0, 所 
以 还 不 能 把 数据 结构 最 后 释放 ， 但 实际 | 插口 已 经 不 存在 了 。 

(4) 光 是 对 sock 结构 的 使 用 和 释放 加 以 保护 还 人 不够， 还 要 防止 对 sock. 结构 的 使 用 (例如 报 文 的 
到 达 ) 和 撤销 在 时 间 上 相 重 耸 。 也 就 是 说 ， 这 二 者 在 时 间 上 必须 加 以 “ 串 行 化 ”。 这 样 ， 如 
果 插 口 的 撤销 在 前 ， 那 就 让 撤销 的 过 程 先 完成 ， 而 对 sock 的 使 用 则 就 此 打住 。 反 之 ， 如 果 对 
sock 结构 的 使 用 在 前 ， 尾 就 让 使 用 的 过 程 先 完成 ， 然 后 青 来 撤销 ， 因 为 在 撤销 的 过 程 中 可 能 
需要 对 使 用 的 后 果 【〈 例 如 链 入 到 receive, queue 队列 中 的 报 文 》 加 以 善后 处 理 。 为 此 日 的 ， 内 
核 中 设置 了 两 对 加 锁 / 解锁 操作 ， 即 unix_state_rlock( )/unix state runlock( ) 和 
unix. state. wlock( )/unix_state_wunlock( )。 当 -个 进程 要 读 取 sock 结构 中 的 状态 信息 特别 
是 dead) 时 ， 要 先 调用 unix_state_rlock( ) 加 锁 。 这 样 ， 如 果 另 一 个 进程 正 想 要 改变 sock 结构 
中 的 状态 信息 (例如 想 要 把 dead 变 成 1)， 就 要 在 一 个 循环 中 (并 不 睡眠 !) 等 待 解锁 后 才能 
继续 。 反 过 来 , 如果 一 个 进程 要 改变 sock 结构 中 的 状态 信息 ， 则 要 先 通过 unix_state_wlock( ) 
加 锁 。 这 样 ， 想 要 读 的 进程 就 会 在 一 个 循环 中 等 待 解锁 。 这 里 unix state rlock( ) 和 
unix_state_wlock( ) 是 互 锁 的 ， 如 果 unix_state_rlock( ) 先 成 功 了 ， 那 么 调用 unix, state wlock() 
的 进程 就 会 在 这 个 函数 中 循环 等 待 《所 以 叫 spinlock)， 太 之 亦 然 。 

以 上 这 些 措 施 防止 了 前 述 问题 的 发 生 。 在 unix stream connect( ) 的 代码 中 ， 读者 可 以 看 到 在 检查 
other-»dead 之 前 先 调用 了 unix state rlock( )。 如 果 此 时 server 方 进程 正在 撤销 该 插口 (及 其 sock 数据 
结构 ) 的 过 程 中 ， 并 且 赶 在 前 面 调用 了 unix_state_wlock( )， 则 当前 进程 就 会 在 unix_state_rlock( yr fi 
环 等 待 ， 直 至 撤销 sock 数据 结构 的 操作 完成 。 但 是 此 时 由 于 sock 结构 中 的 refent RAD 2 CIRCA 
当前 进程 在 从 杂凑 表 unix, socket. table 的 队列 中 找到 这 个 结构 时 已 经 递增 了 这 个 计数 )， 所 以 server 方 
进程 不 会 把 sock 结构 释放 。 如 果 当 前 进程 检测 到 other-»dead 非 0， 就 知道 这 个 播 口 实际 上 已 经 不 存在 
了 。 所 以 -方面 把 锁 打 开 ， -方面 调用 sock put( ) 将 其 recfnt 计数 减 1。 如 果 减 1 以 后 refent 变 成 了 0, 
就 担负 起 释放 这 个 数据 结构 的 责任 。 然 后 ， 就 转 同 标号 restart 处 ， 看 看 杂凑 表 的 队列 中 是 否 还 有 相同 
地 址 的 其 他 sock 数据 结构 。 当 然 ， 通 常会 因为 找 不 到 而 使 本 次 连接 请 求 天 折 〈 见 897 11). 

过 了 这 一 关 ， 进 而 茧 检查 日 标 插口 的 状态 。 内 有 处 于 TCP_LISTEN 状态 的 插口 才 允 许 接受 连接 请 
求 。 注 意 ， 这 与 sever 方 进 程 是 否 已 经 调用 了 accept( ) 或 者 正在 accept( ) 中 睡眠 等 待 连接 请 求 劾 关 。 

在 server HH sock 结构 中 已 经 准备 好 了 容纳 连接 请 求 报 文 的 队列 。 不 过 ， 这 个 队列 的 长 度 是 有 
限制 的 ， 在 sys_listen( ) 中 已 经 设置 好 了 这 个 队列 的 最 大 长 度 。 当 队列 长 度 超过 这 个 最 人 长 度 时 ， 跳 再 
不 能 把 新 的 连接 请 求 链 入 到 队列 中 了 。 此 时 client 方 进程 根据 预定 的 等 待 时 间 决 定 是 立即 出 错 返 同 或 是 
MCA Ae hy PLR EUR, EAT. 918 行 调用 unix_wait_for_peer( ) 进 入 睡眠 《af_unix.c): 


[sys_socketcall( ) > sys. connect( ) > unix_stream_connect( ) > unix_wait_for_peer( )] 
55. 
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830 static long unix wait for peer (unix socket *other, long timeo) 
831 { 


832 int sched; 

833 DECLARE WAITQUEUE (wait, current); 

834 

835 . Set current state(TASK INTERRUPTIBLE) ; 

836 add wait queue exclusive(&other-^protinfo.af unix.peer wait, &wait); 
837 

838 sched = (!other—>dead && 

839 ! Cother-^shutdown&RCV SHUTDOWN) && 

840 skb queue len(&other-?receive queue) > other-^max ack backlog) ; 
841 

842 unix state runlock(other); 

843 

844 if (sched) 

845 timeo = schedule timeout (timeo); 

846 

847 _ set current state(TASK RUNNING) ; 

848 remove wait queue(&other-^protinfo. af unix. peer wait, &wait); 

849 return timeo; 

850 } 


与 前 一 节 中 server 方 在 wait, for packet( ) 中 睡眠 等 待 相似 , 这 里 也 是 在 当前 进程 的 系统 空间 堆栈 上 
分 配 一 个 wait queue, t 数据 结构 ,将 其 挂 入 目标 插口 的 peer_wait 队列 ， 然 后 就 通过 schedule_timeout( ) 
进入 定时 的 睡 电 ， 醒 来 时 再 从 该 队 刻 中 脱 链 。 在 unix accepi ) 的 代码 中 我 们 看 到 ， 当 server 方 进程 从 
队列 中 接收 了 一 个 连接 请 求 ， 从 而 使 队列 长 度 有 所 下 降 时 ， 就 要 唤醒 一 个 〈 如 果 有 的 话 ) 正 等 待 着 要 
将 连接 请 求 挂 入 该 队列 的 进程 。 当 进程 被 唤醒 而 从 unix. wait for peer( ) 中 返回 时 ， 要 通过 sock_put( ) 
释放 目标 插口 ， 再 检查 是 徊 因为 接收 到 了 信和 号 而 被 贤 本。 如 果 是 就 出 错 返回 ， 提 前 结束 本 次 系统 调用 ; 
汗 则 就 转 回 到 标号 restart 处 ， 从 杂凑 表 中 的 队列 重新 开始 〈 见 924 行 )， 因 为 情况 可 能 已 经 改变 了 。 

为 什么 这 里 与 前 一 节 中 不 同 ， 在 接收 到 了 信号 而 被 唤醒 时 要 提前 结束 本 次 系统 调用 呢 ? 我 们 不 妨 
看 看 这 里 等 待 的 是 什么 。 如 前 所 述 ， 这 里 等 待 的 是 server 方 的 报 文 队列 中 出 现 空间 而 使 报 文 得 以 投递 ， 
可 是 那 并 个 意味 着 操作 的 完成 ， 本 次 系统 调用 要 到 连接 请 求 被 接受 时 才 会 完成 。 显 然 ， 那 并 不 是 在 一 
个 有 限 的 、 可 以 预测 的 短 时 间 内 能 够 完成 的 ， 所 以 只 好 使 系统 调用 提前 结束 ， 先 来 处 理 已 经 到 达 的 信 
»* 

过 了 这 一 关 ， 目 标 插口 ， 即 server 插口 “ 方 已 经 没有 问题 了 ， 但 是 client 播 口 自己 这 一 方 呢 ? 我 们 
继续 往 下 看 函数 unix_stream_connect( ) 的 代码 (af_unix.c)。 


[sys socketcall( ) > sys connect( ) > unix, stream. connect( )] 


927 /* Latch our state 

928 

929 Tt is tricky place. We need to grab write lock and cannot 
930 drop lock on peer. It is dangerous because deadlock is 
931 possible. Connect to self case and simultaneous 

932 attempt to connect are eliminated by checking socket 
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933 state. other is TCP LISTEN, if sk is TCP LISTEN we 
934 check this before attempt to grab lock. 
935 

936 Well, and we have to recheck the state after sockot locked. 
937 */ 

938 st = sk-^state; 

939 

940 switch (st) { 

941 case TCP CLOSE: 

942 /* This is ok... continue with connect */ 
943 break; 

944 case TCP ESTABLISHED: 

945 /* Socket is already connected */ 

946 err - -EISCONN; 

947 goto out unlock; 

948 default: 

949 err = -EINVAL; 

950 goto out unlock; 

951 } 

952 

953 unix state wlock (sk) ; 

954 

955 if (sk->state != st) { 

956 unix state wunlock (sk) ; 

957 unix state runlock(other); 

958 sock. put (other) ; 

959 goto restart; 

960 } 

961 


代码 中 940 行 的 switch 语句 对 client 方 插口 的 状态 进行 检查 ， 看 看 是 否 处 于 TCP_CLOSE 状态 。 
读者 也 许 要 问 ， 这 个 检查 为 什么 不 放 存 sys_connect( ) 或 者 unix stream connect( ) 一 开关 的 地 方 呢 ?” 那 
样 如 果 状 态 不 对 的 话 ，: 开 始 就 可 以 回头 了 ， 岂 不 是 可 以 省 去 这 么 多 麻烦 ? 答案 是 ， 即 使 在 -开始 时 就 
作 了 这 种 检查 ， 现 在 也 还 得 再 检查 ， 因 为 情况 可 能 中 途 有 改变 。 要 知道 ， 可 能 会 有 多 个 进程 (创建 了 
插口 的 进程 可 能 会 fork( ) 出 一 批 子 进 程 》 并 发 地 对 同一 个 插口 发 动 操作 ， 从 而 让 兄 “个 进程 抢 了 先 。 
另 一 方面 ， 个 client 方 的 进程 也 不 能 一 开始 就 把 sock 结构 锁 住 不 放 ， 内 为 在 unix_stream_connect( ) 
cH Ay BESS BEA ER EURA OT AE FRET, EAR ATTA? ) 所 以 ， 不管 怎样 ， 在 这 个 地 方 
总 是 需要 对 client 插口 的 状态 进行 检查 的 。 通 过 了 检查 以 后 ， 就 要 改变 其 状态 了 ， 所 以 调用 
unix_state_wlock( KRS CIL 952 行 )。 可 是 在 加 锁 成 功 以 后 还 得 再 检查 次 〈 见 955 行 )! 为 什么 
WE? 须知 unix_state_wlock( ) 中 可 能 隐藏 着 … 个 循环 等 待 ， 而 引起 循环 等 待 的 原因 是 另 一 个 进程 (在 为 
一 个 CPU 上 运行 ) 抢先 把 它 锁 住 了 ， 所 以 在 循环 等 待 的 前 后 这 个 sock 结构 的 状态 可 能 就 不 一 样 了 。 
这 一 段 代 码 〈938 一 960 行 ， 直 到 结束 ) 看 似 平常 ， 实 际 上 却 极 有 讲究 ， 对 二 进程 间 的 同步 与 二 斥 是 一 
段 很 好 的 教材 ， 建 议 读者 把 它 读 透 ， 并 且 多 问 几 个 为 什么 ， 上 青 自 己 来 解答 。 

接着 ， 就 要 来 设置 有 关 的 数据 结构 了 Cat_unix.c): 
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[sys. socketcall( ) > sys connect( ) > unix stream connect( )] 


062 /* The way is open! Fastly set all the necessary fields... */ 
963 

964 sock hold(sk); 

965 unix peer (newsk) =sk; 

966 newsk—>state=TCP_ESTABLISHED ; 

967 newsk->type=SOCK_STREAM; 

968 newsk—>peercred. pid = current >pid: 

969 newsk-»peercred. uid = current—>euid; 

970 newsk—>peercred, gid = current-^egid; 

971 newsk—->sleep = &newsk—>protinfo. af unix. peer wait; 

972 

973 /* copy address information from listening to new sock*/ 

974 if (other->protinfo. af unix. addr) 

975 { 

976 atomic_inc (Rother->protinfo. af unix. addr->refent) ; 

977 newsk-^protinfo. af unix. addr=other >protinfo. af_unix. addr; 
978 } 

979 if (other->protinfo. af unix, dentry) 1 

980 newsk-^protinfo.af unix. dentry = dget(other-Pprotinfo. af_unix. dentry) ; 
981 newsk—->protinfo. af_unix. mnt- mntget(other-^protinfo. af_unix. mnt); 
982 } 

983 

984 /* Set credentials */ 

985 sk->peercred = other-Ppeercred; 

986 

987 sock hold(newsk); 

988 unix peer(sk)-newsk; 

989 sock-?state=SS_CONNECTED; 

990 sk->statc=TCP_ESTABLISHED ; 

991 

992 unix state wunlock (sk); 

993 


这 里 涉及 的 数据 结构 有 这 么 儿 个 ， 指 针 sock 指向 client Hmi socket 结构 ， 指 针 sk $815] client fifi 
口 的 sock 结构 ， 指 针 other 指向 server 插口 的 socket 结构 ， 而 指针 newsk 则 指向 一 个 新 的 sock 结构 。 
这 个 新 的 sock 结构 准备 传 给 server 方 进程 , 以 供 在 accept( ) 中 新 创建 的 插口 配对 使 用 .这 里 的 unix_peer( ) 
是 个 宏 操 作 ， 其 定义 在 文件 af_unix.c 中 : 


140 Hdefine unix peer(sk) ((sk)->pair) 


所 以 ， 经 过 这 段 程序 以 后 ，newsk->pair 指向 sk， 而 sk->pair 指向 newsk〔 这 就 起 Unix 域 中 插口 间 
连接 的 主体 )。 现 在 二 者 已 经 挂 上 了 钩 ， 建 立 起 连接 ， 所 缺少 的 环节 就 是 让 newsk HR server 方 进程 在 
accept( ) FF RGB MAOH LAT. 59-75 p. client HA sock 结构 的 状态 也 变 成 了 
TCP_ESTABLISHED。 这 样 ， 如 果 有 田 一 个 进程 也 要 在 这 个 插 岂 上 进行 connect( ) 操 作 ， 就 会 让 上面 的 
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944 行 受到 阻拦 而 失败 返回 。 


代码 中 980 行 的 dget( ) 实 际 上 只 是 递增 dentry 结构 中 的 共享 计数 d_count, 我 们 已 经 在 “文件 系统 ” 


一 章 中 看 到 过 了 。981 行 的 mntget( ) 也 类 似 。 


我 们 尚未 将 连接 请 求 报 文 ， 即 sk buff 结构 挂 入 server 方 sock 结构 的 receive queue 队列 中 《代码 


中 的 指针 skb 指向 这 个 结构 )， 下 面 就 要 来 做 这 件 事 了 。 继 续 在 af_unix.c PETE: 


[sys_socketcall( ) > sys connect( ) > unix stream connect( )] 


994 

995 

996 

997 

998 

999 
1000 
1001 
1002 
1003 
1004 
1005 
1006 
1007 
1008 
1009 
1010 
1011 
1012 
1013 


/* take ten and and send info to listening sock */ 
skb queue tail(&other-^receive queue, skb) ; 

unix state runlock(other); 

other-»data ready(other, 0); 

sock, put (other) ; 

return 0; 


out unlock: 


out: 


} 


if (other) 
unix state_runlock (other) : 


if (skb) 
kfree skb(skb); 
if (newsk) 
unix release sock(newsk, 0); 
if (other) 
sock put (other); 
return err; 


iX skb queue tail( ) 是 个 inline 函数， 其 代 色 在 include/linux/skbuff.h 中 : 


[sys_socketcall( ) > sys connect( ) > unix stream. connect( )»skb queue tail( )] 


463 
464 
465 
466 
467 
468 
469 
470 
471 
472 
473 
474 
475 


/于 水 
* 
x% 
* 
* 
水 
* 
* 
* 
* 


*/ 


skb queue tail - queue a buffer at the list tail 
@list: list to use 
Qnewsk: buffer to queue 


Queue a buffer at the tail of the list. This function takes the 
list lock and can be used safely with other locking &sk buff functions 


safely. 


A buffer cannot be placed on two lists at the same time. 


static inline void skb queue tail(struct sk buff head *list, struct sk buff *newsk) 
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416 { 

4TT unsigned long flags; 

478 

479 spin_lock_irqsave (&list->lock, flags); 

480 __skb_queue_tail (list, newsk); 

481 spin_unlock_irqrestore (&list->lock, flags); 
482  ) 


[sys_socketcall( ) > sys connect( ) > unix. stream connect( ) > skb queue tail( ) >  skb queue. tail )] 


449 static inline void  skb queue tail(struct sk buff head *list, 
struct sk buff *newsk) 


450 i 

451 struct sk buff *prev, *next; 
452 

453 newsk-?list = list; 

454 list->qlent+; 

455 next = (struct sk buff *) list; 
456 prev = next->prev; 

457 newsk->next = next; 

458 newsk->prev = prev; 

459 next->prev = newsk; 

460 prev-?next = newsk; 

461 } 


最 后 ， 在 sock 结构 中 有 个 函数 指针 data_ready， 登 当 将 一 个 报 文 〈 无 论 控制 报 文 或 是 数据 报 文 ) 
链 入 到 个 sock 结构 的 receive queue 队列 中 以 后 , 都 要 通过 这 个 函数 指针 来 调用 一 个 预先 设置 好 的 函 
Bl (997 行 )， 这 种 情况 常 称 为 “call back”。 在 创建 插口 时 所 调用 的 吸 数 sock_init_data( ) 里 ， 函 数 指针 
data ready 被 设置 成 指 网 sock, def readable( )， 所 以 这 里 的 “call back” 就 是 对 这 个 函数 的 调用 ， 其 代 
码 在 net/core/sock.c 中 : 


[sys socketcall( ) > sys connect( ) > unix stream connect( ) > sock, def readable( )] 


1090 void sock def readable (struct sock *sk, int len) 


1091 { 

1092 read_lock (&sk->callback_lock) ; 

1093 if (sk->sleep && waitqueue_active(sk—>sleep)) 
1094 wake_up_interruptible(sk—>sleep) ; 

1095 sk wake async(sk, 1, POLL IN) ; 

1096 read _ unlock (&sk->callback lock); 

1097 } 


对 于 此 时 要 做 的 事情 ， 读 者 大 概 至 少 已 经 猜 对 了 : 半 ， 那 就 是 要 唤醒 可 能 正在 睡眠 中 等 待 着 连接 

请 求 的 server 方 进程 〈1094 行 )。 但 是 ， 另 一 半 ， 也 就 起 sock_wake_asyne( )， 是 干什么 用 的 呢 ? 让 我 

们 回顾 一 下 server 方 进程 是 怎样 通过 accept( ) 来 接受 连接 请 求 的 。 大 家 知道 ，accept( ) 是 一 个 server 插 

口 接受 连接 请 求 的 惟 途径 ，server 揪 口 是 不 能 主动 此 求 连接 的 。 同 时 ，accept( ) 的 操作 从 本 质 上 上 说 是 
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“同步 ”的 ， 如 果 调 用 accept( HIT MAGE REAR EINK, MEENE. WR, server 方 的 进程 可 以 通过 
O_NONBLOCK 标志 让 accept( ) 在 没有 连接 请 求 时 立即 返回 ， 但 这 样 一 来 ，server 方 进程 就 只 好 循 坏 地 
或 者 定 期 地 调用 accept ) 来 测试 是 否 有 连接 请 求 到 来 。 再 考虑 有 上 时候 server 方 进程 此 则 时 赂 看 好 儿 个 
server 揪 门 的 情况 ， 这 时 候 server 方 进程 就 只 好 将 O_NONBLOCK 标志 设 成 1 来 “ 轮 询 ”各 个 server 
插 门 了 。 但 是 ， 不 管 是 睡眠 也 好 ， 或 是 轮 询 也 好 ，server 进程 在 此 期 间 就 不 能 做 别 的 事情 了 。 所 以 ， 
O_NONBLOCK 标志 半 不 改变 accept( ) 的 同步 本 质 。 

那么 ， 有 没有 办 法 “异步 ”地 等 待 连接 呢 ? 就 是 说 使 server 方 进程 串 以 十 点 别 的 ， 到 有 连接 请 求 

到 来 时 就 通知 它 ， 让 它 到 那 时 候 再 来 调用 accept). 答案 是 肯定 的 。 我 们 以 前 讲 过 , 硬件 (包括 处 理 咒 ) 
层次 上 的 异步 通信 手段 起 中 断 ， 而 软件 层次 上 的 异步 通信 于 段 是 “信和 与 ”。 显 然 ， 我们 在 这 里 也 可 以 利 
用 信号 机 制 。 简 而 言 之 ， 就 是 让 内 核 在 有 连接 请 求 到 米 时 就 问 server VER AfA y M server Jj 
进程 则 半 上 时 可 以 处 理 别 的 事情 ， 只 是 在 接收 到 有 关 信 号 时 就 来 调用 accept( )。 EX k, HAERA 
的 连接 才 会 有 这 样 的 此 求 ， 异 步 操 作 忆 经 成 为 文件 系统 操作 的 “个 组 成 部 分 。 在 文件 操作 locu pHa 
设置 了 -条 命令 FIOASYNC， 让 有 关 进 程 《 必 须 是 文件 的 主人 ) 可 以 通过 这 条 命令 向 一 个 文件 挂 上 号 ， 
让 它 在 其 种 条 件 得 刘 满 足 时 就 向 该 进程 发 送 一 个 信号 。 为 了 这 个 目的 ， 在 插 站 的 socket 结构 中 设置 了 
-个 队列 fasync_list. “4 server 方 进程 希望 异步 地 等 待 连接 时 ， 就 通过 oct ) 的 FIOASYNC 命令 〈 插 
口 也 是 一 个 已 打开 文件 ) 将 一 个 fasync_struct 结构 挂 入 到 这 个 队列 中 。 另 一 方面 ， 我 们 以 前 也 讲 过 ， 
代表 着 一 个 插口 的 file 结构 中 有 个 指针 f op. TRIN) "^ file operations 结构 socket_file_ops。 这 个 结构 
中 的 指针 fasyne 指向 函数 sock_fasync( )， 当 server 方 进程 通过 ioctl( ) 发 出 FIOASYNC dp ET, A 
行 这 个 盟 数 米 完 成 上 述 将 一 个 fasync_struct 数据 结构 挂 入 到 这 个 队列 中 的 操作 。 

FALL, Æ “call back" PR Ae sock, def. readable( ) 由 的 另 一 件 事 就 是 : 通过 sk wake async( ) 给 可 能 山 
£c BA I fasync list 中 挂 上 号 的 进程 发 信号 ， 其 代 公 在 include/net/sock.h P: 


[sys_socketcall( ) > sys connect( ) > unix stream, connect( ) > sock. def readable( ) > sk wake async( )] 


1219 static inline void sk wake async(struct sock *sk, int how, int band) 
1220 í 

1221 if (sk-^socket && sk >socket->fasyne list) 

1222 sock wake async(sk-^socket, how, band); 

1223 } 


[sys_socketcall( ) > sys_connect( ) unix stream connect( ) > sock_def_readable( ) > sk wake async( ) > 
sock_wake_async( )] 


786 /* This function may be called only under socket lock or callback lock */ 
787 

788 int sock wake async (struct socket *sock, int how, int band) 

788 f 


790 if (sock || !sock->fasync_list) 
791 return 1; 

192 switch (how) 

193 { 

794 case 1: 

795 
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} 
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if (test bit(SOCK ASYNC WAITDATA, &sock->flags)) 
break; 
goto call kill; 
case 2: 
if (!test and clear bit(SOCK ASYNC NOSPACE, &sock->flags)) 
break; 
/* fall through */ 
case 0: 
call kill: 
__kill_fasyne (sock->fasync_list, SIGIO, band); 
break; 
case 3: 
__kill_fasyne(sock->fasyne list, STGURG, band); 
) 


return 0; 


这 里 调用 时 的 参数 how 为 1, band 为 POLL_IN。 我 们 把 这 段 代码 留 给 读 少 自己 阅读 。 其 中 函数 
__kill_fasyne( ) 的 代码 在 fs/fentl.c 中 ， 它 扫描 整个 fasync_list 队列 ， 向 每 个 挂 上 号 的 进程 发 出 信号 。 


[sys_socketcall( ) > sys connect( ) > unix stream connect( ) > sock def readable( ) > sk_wake_async( ) 
> sock_wake_async() > kill fasync( )] 


482 
483 
484 
485 
486 
487 
488 
489 
490 
491 
492 
493 
494 
495 
496 
497 
498 
499 


void | kill fasync(struct fasynce struct *fa, int sig, int band) 


{ 


} 


while (fa) { 
struct fown struct * Lown; 
if (fa->magic !- FASYNC MAGIC) { 
printk(KERN ERR “kill fasync: bad magic number in 
"fasynec struct!W ^); 


^ 


return; 

} 

fown = &fa->fa_Sile->f_ owner; 

/* Don’ t send SIGURG to processes which have not set a 
queued signum: STGURG has its own default signalling 
mechanism. */ 

if (fown-»pid && ! (sig == SIGURG && fown->signum == 0)) 

send sigio(fown, fa->fa_fd, band); 

fa = fa-»fa next; 


不 言 而 喻 ,如 果 要 异步 地 接受 连接 请 求 ， 则 server 方 的 进程 必须 事先 设置 好 相应 的 信号 处 理 程序 。 
至 此 ,sys_connect( ) 已 经 完成 了 它 的 任务 ( 除 sockfd, put( ) 以 外 )。 如果 server 方 进程 已 经 在 accept( ) 
中 等 待 ， 则 唤醒 以 后 就 会 来 补 上 缺失 的 一 环 ， 就 是 使 新 创建 的 socket 结构 与 通过 sk. buff 结构 传 过 来 的 
sock 447442 LE CA unix_accept( ) 代 码 中 的 1068 行 ， 注 意 那 里 的 指针 newsock 指向 由 accept( ) 新 创建 
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的 socket 结构 ， 而 指针 tsk 指向 由 sys_connect( ) 新 创建 的 sock 结构 )。 这 样 ， 就 完成 了 两 个 unix 域 插 
口 之 间 的 连接 。 如 果 server 方 进程 尚未 调用 accept( )， 则 当 它 调用 accept( ) 时 连接 请 求 已 经 在 server 插 
口 的 receive, queue 队列 中 等 待 ， 所 以 元 需 睡 眠 等 待 就 可 以 完成 这 种 连接 。 

再 来 看 “无 连接 ”模式 的 connect( ) 操 作 。 对 于 Unix 域 “ 无 连接 ”模式 的 插口 ， 所 用 的 proto. ops 
数据 结构 为 unix_dgram_ops， 而 相应 的 函数 指针 connect 则 指向 unix_dgram_connect( )。 

以 前 讲 过 , 既然 是 “无 连接 ”模式 的 插 山 , 本 来 就 没有 “建立 连接 ”这 说 ,之 所 以 也 有 个 connect, ) 
操作 ， 只 足 要 利用 它 来 将 本 来 每 次 发 送 报 文 时 都 要 重复 的 一 些 操作 集中 在 一 起 ， 以 避免 浪费 。 有 些 什 
么 “等 次 发 送 报 文 时 都 要 重复 的 操作 ” 呢 ? 

(1) 每 次 者 要 从 用 户 空间 把 对 方 的 插口 地 址 拷贝 到 系统 空间 中 。 

(2) 在 网 络 坏 境 下 ， 通 常 需要 根据 对 方 的 地 址 从 路 径 表 中 查 得 应 该 使 用 的 网 络 接口 ， 以 及 可 能 沉 

要 的 在 网 络 层 和 / 或 链 路 层 上 使 用 的 地 址 。 并 且 常 常 还 要 进行 从 符号 地 址 到 网 络 地 址 数值 的 
转换 。 

Q) 在 Unix 域 中 ， 则 通常 需要 根据 对 方 的 插口 地 址 从 文件 系统 中 打开 相应 的 文件 (节点 )， 然 后 

用 索引 节点 的 号 但 在 杂凑 表 的 某 个 队列 中 找到 对 方 的 sock 数据 结构 。 

就 每 一 次 报 文 发 送 来 说 ， 这 些 开 销 不 能 算 大 。 但 是 ， 如 果 发 送 成 千 上 万 个 报 文 到 同一 个 日 标 插 口 ， 

这 总 共 的 开销 就 不 能 小 看 了 。 下 面 ， 我 们 就 来 看 看 ，sys_connect( ) 对 于 Unix 域 “ 无 连接 ”模式 的 播 口 
ART tA. RA unxi_dgram_connect( ) 的 代码 在 net/unix/af_unix.c F: 


[sys_socketcall( ) > sys_connect( ) > unix dgram connect( )] 


770 static int unix dgram connect (struct. socket *sock, struct sockaddr *addr, 


771 int alen, int flags) 

7722 { 

773 struct sock *sk = sock~>sk; 

774 struct sockaddr_un *sunaddr=(struct sockaddr un*) addr ; 
775 struct sock *other; 

776 unsigned hash; 

777 int err; 

778 

779 if (addr->sa_family !- AF UNSPRC) { 

780 err = unix mkname(sunaddr, alen, &hash) ; 

181 if (err < 0) 

782 goto out; 

783 alen = err: 

784 

785 if (sock >passcred && !sk->protinfo. af_unix. addr && 
786 (err = unix autobind(sock)) !- 0) 

787 goto out; 

788 

789 other-unix find other (sunaddr, alen, sock->type, hash, kerr) ; 
790 if (lother) 

191 goto out; 

792 

793 unix state wlock(sk); 
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794 
795 err = —EPERM; 
796 if (!unix may_send(sk, other)) 
797 goto out uniock; 
798 } else { 
799 /* 
800 * 1003. 1g breaking connected state with AF UNSPEC 
801 */ 
802 other = NULL; 
803 unix state wlock(sk); 
804 } 
805 
806 /* 
807 * Tf it was connected, reconnect. 
808 */ 
809 if (unix peer(sk)) { 
810 struct sock *old peer - unix peer(sk); 
811 unix peer(sk)-other; 
812 unix state wunlock (sk); 
813 
814 if (other !- old peer) 
. 815 unix dgram disconnected(sk, old peer); 
816 sock put(old peer); 
817 } else { 
818 unix peer (sk)=other : 
819 unix state wunlock(sk); 
820 } 
821 return 0; 
822 
823 out unlock: 
824 unix state wunlock (sk); 
825 sock put (other); 
826 oul: 
827 return err; 
828 } 


BOR OAS it HERR” RAMO H accept ) 和 connect ) 操 作 的 代码 ， 对 于 这 里 所 调用 或 引用 
的 大 部 分 函数 和 宏 定 义 都 已 经 熟悉 了 。 事 实 上 ， 读 者 在 前 几 节 中 尚未 见 人 到 过 的 函数 只 有 一 个 ， 那 就 是 
unix_may_send( )， 其 代码 也 在 af_unix.c P: 


[sys_socketcall( ) > sys connect( ) > unix_dgram_connect( ) > unix may. send( )] 


140 H#define unix peer(sk) ((sk)->pair) 


141 

142 extern __ inline int unix our peer(unix socket *sk, unix socket *osk) 
143 { 

144 return unix peer(osk) == sk; 
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M5 |] 

146 

147 extern | inline . int unix may send(unix socket *sk, unix socket *osk) 
148 { 

149 return (unix peer(osk) == NULL || unix our peer(sk, osk)) ; 

150  ] 


也 就 是 说 ,unix_may_send( ) 检 查 对 方 插口 的 sock 结构 中 的 指针 pair 看 看 它 是 否 已 经 指向 盯 个 sock 
结构 ， 如 果 是 ， 就 进而 检查 它 所 指向 的 是 否 正 是 我 方 插口 的 sock 结构 。 如 果 对 方 sock 结构 小 的 指针 
pair 已 经 指向 了 另 -个 播 口 的 sock 结构 ， 那 就 只 好 就 此 打住 了 。 这 种 情况 下 ，unix_dgram_connect( ) 
返回 出 错 代码 一 EPERM， 表 示 不 允许 。 也 就 是 说 ， 对 方 插口 必须 尚 本 连接 到 别 的 插口 ， 改 变 对 方 打 口 
与 其 他 揪 口 的 连接 是 不 允许 的 。 可 是 ， 如 果 我 方 插口 原来 已 经 有 了 “连接 ” 则 允许 以 新 的 连接 代替 蛛 
有 的 连接 ( 见 809—816 行 )， 而 不 需要 特刊 将 原 有 的 连接 拆除 。 这 里 所 谓 “ 连 接 ” 只 不 过 是 让 我 方 sock 
结构 中 的 指针 pair 指向 对 方 的 sock 结构 。 注 意 ， 这 个 “连接 ”只 是 单 向 的 ， 对 方 插口 的 数据 绪 构 丝毫 
不 受 影 响 ， 对 方 进程 有 完全 的 自由 使 其 插 凯 指向 (或 日 “连接 到 ”其 他 插 凯 。 此 外 ,“ 无 连接 ” 插口 
也 不 像 “ 有 连接 ”插口 那样 有 个 “状态 机 ” 所 以 “无 连接 ”通信 和 有 时 也 称 作 “ 无 状态 ”通信 ; 对 方 插 
口 也 不 会 像 “ 有 连接 ”模式 的 server 插口 那样 生 下 :个 “和 蛋 ” 来 。 丰 因为 这 样 ，unix_dgram_connect( ) 
的 代码 比 unix stream connect ) 的 代码 要 简单 多 了 。 


77 报 文 的 接收 与 发 送 


择 口 上 的 报 文 接收 与 发 送 有 两 个 程序 设计 界面。 第 一 个 界面 是 为 插口 专 设 的 ， 从 用 户 程序 的 角度 
来 看 就 是 三 对 libe 库 函 数 ， 即 recv( )/send( )、recvfrom( )/sendto( ) 以 及 recvmsg( Ysendmsg( )， 但 是 最 终 
都 归结 于 个 统一 的 系统 调用 ， 在 内 核 中 的 入 店 为 sys_socketcall( )。 不 过 ， 除 特殊 的 应 用 外 《后 面 会 
讲 到 )， 这 些 库 函数 并 不 是 非得 成 对 地 使 用 。 也 就 是 说 ， 原 则 上 双方 都 可 以 自由 地 选择 使 用 一 者 之 ， 
但 是 send() 只 能 在 已 经 通过 connect( ) 建 并 连接， 或 确定 了 日 慰 插 口 以 后 才 可 使 用 。 另 一 方面 ， 从 语 
义 的 角度 来 说 ， 只 要 已 经 使 用 了 connect( ) 就 应 该 用 send( ) 而 不 是 sendto( )， 因 为 赋 然 日 标 已 经 傅 定 了 ， 
就 木 应 该 再 在 发 送 时 规定 晶 标 了 。 个 过 ， 尽 管 如 此 ， 用 sendto( ) 也 还 是 可 以 的 ， 内 不 过 要 把 调用 参数 
中 的 对 方 地 址 (指针 〉 设 成 NULL， 把 地 址 长 度 设 成 0。 读 省 在 前 面 已 经 看 到 过 ， 住 内 核 中 sys recv() 
实际 上 就 是 通过 sys recvfrom( ) 实 现 的 ， 而 sys_send( ) 则 是 通过 sys_sendto( ) 实 现 的 ， 巨 非 束 是 把 地 址 
指针 设 成 NULL， 把 地 址 长 度 设 成 0 调 已 。 此 外 ， 下 面 读 者 太 会 看 到 ， 实 际 上 三 个 用 于 接收 的 函数 最 
后 全 都 通过 sock recvmsg( ) 来 接收 报 文 ， 而 于 个 几 于 发 送 的 印 数 则 全 都 是 通过 sock. sendmsg( ) 米 发 送 
报 文 的 。 

第 一 个 界面 是 通过 常规 的 文件 操作 read( ) 和 write( ) 这 两 对 系统 调 几 来 进行 的 《还 有 readv( ) 和 
writev( )， 与 recvmsg( ) 和 sendmsg( ) 相 似 )。 读 者 不 妨 回 过 去 看 看 前 而 的 联系 图 〈 图 7.1)。 从 当前 进程 
的 task_struct 结构 开始 ， 通 过 插口 的 打开 文件 号 找到 相应 的 file 结构 ， 再 顺 着 file 结构 中 的 指针 f op, 
就 可 以 找到 这 个 “文件 ”的 file. operations 结构 socket_file_ops。 这 就 是 文件 操作 的 跳 转 表 , 是 在 socket.c 
中 定义 的 : 








114 static struct file operations socket file ops - I 
115 llseek: sock lseek, 
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116 
117 
118 
119 
120 
121 
122 
123 
124 
125 
126 


read: 
write: 
poll: 
ioctl: 
mmap: 
open: 
release: 
fasync: 
readv: 
writev: 


}; 
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sock_rcad, 

sock write, 

sock poll, 

sock ioctl, 

sock mmap, 

sock no open,  /* special open code to disallow open via /proc */ 
sock close, 

sock fasync, 

sock readv, 

sock writiev 


AEDS. BAHR sock read( ) 和 sock. write( ), YY eK BARES ABE net/socket.c 中 。 这 
里 要 提醒 一 下 ， 括 口 ， 经 创建 就 已 经 打开 了 《返回 打 开 文 件 号 )， 并 没有 一 般 文 件 那样 的 open SHE, 
所 以 指针 open 指向 -~ ' 个 函数 sock. no. open()« 

RL sock, write( ) 3 sys. sendto( ) 很 相似 ， 我 们 不 妨 比较 一 下 sock_write( ) 和 sys. sendto( ) 的 代码 。 
先 看 sock_write( ): 


[sys write( ) > sock write( )] 


571 
STZ 
913 
574 
575 
516 
577 
578 
579 
580 
581 
582 
583 
584 
985 
986 
587 
588 
080 
590 
591 
592 
593 
594 
595 
596 
597 
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/* 


* Write data to a socket. We verify that the user area ubuf..ubuf*size-l 


* is readable by the user process 


*/ 


static ssize t sock write(struct file *file, const char *ubuf, 


{ 


size_t size, loff_t *ppos) 


struct socket *sock; 
struct msghdr msg; 
struct iovec iov; 


if (ppos != &file—->f_pos) 
return -ESPIPE; 


if(size--0) 


/* Match SYS5 behaviour */ 


return 0; 


sock = socki lookup(file->f_dentry->d inode); 


msg. msg_name=NULL; 

msg. msg_namelen=0; 

msg.msg iov-&iov; 

msg.msg iovlen-l; 

msg. msg_control=NULL; 

msg. msg_controllen=0; 

msg.msg flags=! (file->f flags & O NONBLOCK) ? O : MSG DONTWAIT; 
if (sock->type ~= SOCK_SEQPACKET) 
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598 msg.msg flags |= MSG EOR; 

599 iov. iov base= (void *)ubuf; 

600 iov. iov len-size; 

601 

602 return sock sendmsg(sock, &msg, size); 
603  ] 


再 看 sys. sendto( ): 


[sys_socketcall( ) > sys. sendto( )] 


1159 /* 

1160 * Send a datagram to a given address. We move the address into kernel 
1161 * space and check the user space data area is readable before invoking 
1162 * the protocol. 

1163 */ 

1164 

1165 asmlinkage long sys sendto(int fd, void * buff, size t len, unsigned flags, 
1166 struct sockaddr *addr, int addr len) 

167  ( 

1168 struct socket *sock; 

1169 char address[MAX SOCK ADDR]; 

1170 int err; 

1171 struct msghdr msg; 

1172 struct iovec iov; 

1173 

1174 sock = sockfd lookup(fd, &err); 

1175 if (!sock) 

1176 goto out; 

1177 iov. iov base-buff; 

1178 iov. iov len-len; 

1179 msg. msg_name=NULL; 

1180 msg.msg iov-&iov; 

1181 msg.msg iovlen-l; 

1182 msg.msg control-NULL; 

1183 msg.msg controllen-0; 

1184 msg.msg namelen-addr len; 

1185 if (addr) 

1186 { 

1187 err = move addr to kernel (addr, addr len, address); 
1188 if (err < 0) 

1189 goto out put; 

1190 msg. msg name-address; 

1191 } 

1192 if (sock—>file->f_flags & O NONBLOCK) 

1193 flags |= MSG DONTWAIT; 

1194 msg.msg flags = flags; 
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1195 err = sock sendmsg(sock, &msg, len); 
1196 

1197 out put: 

1198 sockfd put (sock) ; 

1199 out: 

1200 return err; 

1201 } 


可 见 二 者 几乎 是 一 样 的 ， 最 后 都 是 调用 sock sendmsg( ) 来 完成 任务 。 同 样 的 相似 性 也 存在 于 
sock_read( ) sys recvmsg( ) 之 问 ， 并 且 二 者 都 通过 sock_recvmsg( ) 来 完成 任务 。 也 就 是 说 ， 两 个 界面 
凸 的 这 些 也 数 最 后 部 是 殊途同归 ， 都 归结 到 sock recvmsg( ) 和 sock. sendmsg( ) 两 个 函数 。 所 以 ， 两 个 
界面 其 实 没 有 多 人 区别 。 不 过 ， 从 语义 的 角度 来 说 ， 一 般 对 “有 连接 ” 播 口 倾向 于 使 用 read( Ywrite( ), 
而 对 “无 连接 ” 揪 口 则 通常 都 使 用 recvfrom( Ysendto( ) 等 函数 。 这 是 因为 在 “有 连接 ”模式 的 通信 中 将 
传递 的 数据 看 成 连续 的 “ 字 节 流 ” 而 不 保留 “ 报 文 ”的 边界 〈 所 以 其 类 型 称 为 SOCK_STREAM)， 与 
文件 操作 的 语义 比较 贴近 。 反 之 ,“ 无 连接 ”模式 的 通信 则 是 “面向 报 文 ”的 ， 所 以 保留 报 文 的 边界 。 

我 们 以 接收 方 为 例 进一步 说 明 这 两 种 模式 间 的 区 别 。 假 定 在 个 “无 连接 ”插口 的 receive queue 
队 询 中 已 经 有 两 个 报 文 在 等待 读 取 ， 每 个 报 文 都 含有 200 字 节 的 数据 。 然 后 ， 接 收 方 进程 通过 recv( ) 
来 接收 ， 缓 冲 区 的 大 小 为 150 字 季 。 册 于 缓冲 区 小 于 队列 中 第 一 个 报 文 的 大 小 ， 所 以 只 能 接收 150 iu 
字 节 ， 才 是 recv( ) 返 回 150， 即 实际 接收 到 的 字 节 数 。 此 时 虽然 第 一 个 报 文中 尚 有 SO 字 节 的 剩余 ， 但 
是 内 核 却 会 将 其 从 队列 中 说 链 并 释放 ， 剩 余 的 50 字 节 就 王 弃 了 。 这 是 因为 “无 连接 ”模式 的 通信 是 以 
报 文 为 单位 ， 而 不 是 以 实际 报 文中 的 字 节 为 单位 的 。 反 之 ， 如 果 缓冲 区 的 大 小 是 300 5758, IBZ BAR 
缓冲 区 大 于 第 一 个 报 文 的 实际 人 小 , 却 不 会 圭 到 第 二 个 报 文中 去 读 取 -一 部 分 ， 以 填 满 缓冲 区 ,所 以 recv( ) 
REI 200。 可 是 ， 如 果 插 山 是 “有 连接 ”模式 的 ， 那 就 不 同 了 。 人 在 第 一 种 情况 中 ， 剩 余 的 50 字 节 会 保 
留 下 来 供 下 一 次 继续 读 取 ， 而 在 第 -种 情况 下 则 会 在 读 取 了 第 .个 报 文中 的 200 字 节 之 后 再 到 第 二 个 
报 文 中 读 取 100 字 节 ， 而 将 第 二 个 报 文 中 剩余 的 100 字 季 留待 下 一 次 继续 读 取 ， 所 以 此 时 recv( ) 返 回 
300。 当 然 ,“ 有 连接 ”和 “无 连接 ”两 种 通信 模式 的 区 别 过 不 止 于 此 。 但 是 ， 对 Unix 成 的 插口 米 说 ， 
可 靠 性 的 问题 实际 上 并 不 存在 《因为 不 涉及 网 络 介质 )， 保 译 性 的 问题 也 不 存在 《〈 内 为 不 涉及 不 同 的 路 
径 )， 剩 下 的 就 是 偿 接 的 建立 以 及 诸 义 上 的 这 种 区 别 了 。 从 用 户 程序 设计 的 角度 来 看 ， 后 者 实际 上 更 为 
重要 。 举 例 来 说 ， 如 果 用 户 程序 未 经 建立 连接 就 试图 通过 一 个 “有 连接 ” 播 口 发 送信 息 ， 于 和 send( ) 
SERA URL Arm FORA RE TO. £A TU. MRE “SRE” BRL EH] read( )3K 
接收 ， 并 且 在 程序 设计 中 误 以 为 接收 的 内 容 是 连续 的 学 节 流 ， 则 系统 调用 本 身 并 不 会 出 错 返 回 ， 可 是 
韦 会 出 岗 一 些 似乎 是 英明 其 妙 的 毛病 而 又 不 容易 找到 原因 。 上 反 过 来 ， 将 互相 独立 的 报 文 作为 连续 的 字 
节 流 米 接收 也 会 造成 问题 。 

EIRA ËI sock. recvmsg( ) 和 sock. sendmsg ) 的 代 公 中 去 之 前 ,还 费 先 周 到 前 面 sys_sendto( ) 的 代码 
中 去 看 一 下 这 上 遇 个 函数 的 外 国 。 由 于 这 岗 个 函数 要 适应 EARS EROR EE, 所 以 是 按 其 中 最 复杂 化 
sys sendmsg( ) 和 sys recvmsg( ) 的 要 求 而 设计 的 。 因 此 ， 在 sys sendto( ) 中 要 先 使 用 传递 下 来 的 参数 ， 
组 装 起 一 个 “报头 ”， 即 msghdr 结构 ， 用 作 调 用 sock sendmsg( H LESH. HEX 


include/linux/socket.h: 


27 /* 
28 * As we do 4. 4BSD message passing we usc a 4. 4BSD message passing 
29 * system, not 4.3. Thus msg accrights(len) are now missing. They 
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* belong in an obscure libe emulation or the bin. 


*/ 

struct msghdr | 
void * msg name; /* Socket name */ 
int msg namelen; /* Length of name x/ 
struct iovec * msg iov; /* Data blocks */ 
__kernel_size_t msg_iovlen; /* Number of blocks */ 
void *msg control; /* Per protocol magic (eg BSD file 


descriptor passing) */ 
__kernel_ size t msg controllen; /* Length of cmsg list */ 
unsigned msg flags; 





* POSIX 1003. 1g - ancillary data object information 
* Ancillary data consits of a sequence of pairs of 
* (cmsghdr, cmsg_datal ]) 


struct emsghdr | 
kernel size t cmsg len; /* data byte count, including hdr */ 
int emsg level; /* originating protocol */ 
int cmsg_ type; /* protocol-specific type */ 





P 


这 里 msghdr 4444 FAY msg name, msg. namelen 以 及 msg_flags 分 别 对 应 于 sys, sendto( ) 的 参数 addr、 


addr len 以 及 flags。 指 针 msg control 可 以 指 同 个 附加 的 数据 结构 ， 用 来 提供 一 些 附加 的 拦 制 信息 ， 
其 类 型 取决 于 具体 的 规程 ，… 般 为 cmsghdr 数据 结构 加 cmsg_data[ ] 数 组 。 此 外 ， 更 重要 的 是 ， 结 构 中 
有 个 指针 msg iov 指向 “个 iovec 结构 数组 ， 其 定义 在 include/linux/uio.h FP, Mi msg_iovlen 则 为 该 数 
组 的 人 小 : 


struct iovec 
| 
void *iov base; /* BSD uses caddr t (1003. lg requires void *) */ 
kernel size t iov len; /* Must be size t (1003.1g) */ 





Fz 


数组 中 的 每 一 个 元 素 即 iovec 结构 ， 都 是 一 个 所 谓 “io 向 量 ” 由 指向 数据 缓冲 区 的 指针 iov base 


和 表示 缓冲 区 中 数据 长 度 的 iov len 构成 。 这 样 ， 由 报头 msghdr 结构 所 代表 的 报 文本 以 由 多 个 数据 组 
冲 区 构成 ， 还 可 以 包含 由 msg control 所 指向 的 附加 信和 总 〈 通 常 是 控制 信息 )。 上 述 各 个 数据 结构 之 问 
的 联系 如 图 7.3 所 示 。 
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图 7.3 报 文 数据 结构 联系 图 


所 以 ，msghdr 结构 代表 了 报 文 的 最 为 ”“ 般 的 形式 。 当 报 文 中 只 有 一 个 “io WE”, 即 只 有 一 个 数 
所 缓冲 区 ， 并 且 不 含有 控制 信息 时 ， 就 相当 于 普通 的 “缓冲 区 地 三 加 数据 长 度 ” 形 式 。 那 么 ， 为 什么 
在 报 广 的- 般 形 式 中 需要 能 容纳 多 个 数据 缓冲 区 呢 ? 计 我 们 考虑 一 下 在 网 络 环境 下 的 报 文 接收 ， 就 以 
Ethernet 为 例 吧 。 在 Ethernet 中 ， 一 个 报 文 (packet， 或 frame) 的 最 大 长 度 约 为 1500 字 节 ， 而 最 小 长 
度 只 有 数 十 字 节 。 当 开始 从 网 络 接收 报 文 时 ， 其 长 度 通 常 是 未 知 的 ， 要 到 接收 完毕 时 才能 知道 它 的 长 
度 。 男 一 方面 ， 为 了 提高 效率 ， 用 于 从 网 络 上 接收 报 文 的 缓冲 区 都 臣 预 先 分 配 好 在 一 个 “缓冲 池 ” 中 
各 用 的 ， 缓 冲 池 中 所 有 的 缓冲 区 都 基 有 相同 的 长 度 。 可 是 ， 每 个 缓冲 区 的 大 小 以 什么 为 准 呢 ? 如 果 都 
按 可 能 的 最 大 长 度 分 配 ， 那 就 必然 造成 很 大 的 浪费 ， 因 为 实际 上 :在 Ethernet 中 传递 的 报 文 多 数 是 100 
宁 节 以 下 的 。 如 果 减 少 缓冲 区 长度 ， 那 就 势必 有 时 候 得 用 好 儿 个 缓冲 区 才能 容纳 一 个 报 文 。 由 此 可 见 ， 
比较 合理 的 安排 就 是 类 似 于 msghdr 数据 结构 那样 的 设计 ， 选 择 适 中 的 缓冲 区 长 度 ， 以 多 个 缓冲 区 来 容 
AO 个 报 文 ， 允 许 在 最 后 一 个 缓冲 区 中 浪费 少量 的 空间 。 不 过 要 指出 ， 这 里 讲 的 使 用 多 个 缓冲 区 是 指 
在 接收 进程 《或 发 送 进 程 ) 与 揪 口 之 间 ， 而 不 古 指 插口 与 插口 之 问 的 报 文 缓冲 区 。 

看 了 sys sendto( )， 如 何 将 其 参数 组 装 成 “个 以 msghdr 结构 为 代表 的 报 文 的 ， 则 sys_recvfrom( ) 
如 何 将 其 还 原 就 是 不 言 而 喻 的 了 。 宙 我 们 在 前 向 已 经 看 到 过 sys send( ) 和 sys recv( ) 分 别 是 通过 
sys. sendto( ) 和 sys recvfrom( ) 实 坝 的 , 只 是 将 参数 中 的 指针 addr 设 成 NULL, 整数 addrlen 设 成 0 而 已 。 
"ET read( ) 和 write( )， 我 们 已 经 看 到 其 与 sock_write( ) 和 sys_sendto( ) 的 相似 性 。 





现在 可 以 来 看 sock, recvmsg( ) 利 sys_recvfrom( ) 的 代码 。 先 看 前 者 (net/socket.c): 


[sys_socketcall( ) > sys recvmsgt( )] 


514 int sock recvmsg (struct socket*sock, struct msghdr *msg, int size, int flags) 
515 { 

516 struct scm cookie scm; 

517 

518 memset(&scm, 0, sizeof(scm)); 

519 
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520 size = sock-^ops- recvmsg(sock, msg, size, flags, &scm); 
521 if (size >= 0) 

522 scm recv(sock, msg, &scm, flags); 

523 

524 return size; 

525 } 


+ Unix BR. RRO AWARE, AAA eh g eA E unix dgram recvmsg ( ) 或 者 
unix stream recvmsg( )« 

再 看 sys_recvfrom( ): 
{sys_socketcall( ) > sys recvfrom( )] 


1212 /* 

1213 * Receive a frame from the socket and optionally record the address of the 
1214 * sender. We verify the buffers are writable and if needed move the 
1215 * sender address from kernel to user space. 

1216 */ 

1217 

1218 asmlinkage long sys recvfrom(int fd, void * ubuf, size t size, unsigned flags 
1219 struct sockaddr *addr, int x*addr len) 

1220 | 

1221 struct socket *sock; 

1222 struct iovec iov; 

1223 struct msghdr msg; 

1224 char address[MAX SOCK ADDR]; 

1225 int err, err2; 

1226 

1227 sock 7 sockfd lookup(fd, &err); 

1228 if (!sock) 

1229 goto out; 

1230 

1231 msg.msg control-NULL; 

1232 msg. msg controllen-0; 

1233 msg.msg iovlen-l; 

1234 msg.msg iov-&iov; 

1235 iov.iov len*size; 

1236 iov. iov base-ubuf; 

1237 msg.msg name-address; 

1238 msg.msg namelen-MAX SOCK ADDR; 

1239 if (sock-^file-^f flags & O NONBLOCK) 

1240 flags |= MSG DONTWAIT; 

1241 err-sock recvmsg(sock, &msg, size, flags); 

1242 

1243 if (err >= 0 && addr !- NULL && msg. msg namelen) 

1244 { 

1245 err2=move_addr_to_user (address, msg. msg_namelen, addr, addr len); 
1246 if (err2<0) 


mu 


1247 
1248 
1249 
1250 
1251 
1252 
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err-err2; 
) 
sockfd put (sock); 
out: 
return err; 
] 


可 见 ， 实 际 上 sys recvfrom( ) 的 主体 就 是 sock. recvmsg( )， 其 代码 在 net/socket.c 中 : 


[sys. socketcall( ) > sys. recvfrom( ) > sock recvmsg( )] 


514 


515 
516 
517 
518 
519 
520 
521 
522 
523 
924 
525 


int sock recvmsg(struct socket *sock, struct msghdr *msg, int size, int flags) 


size = sock-^ops-^recvmsg(sock, msg, size, flags, &scm); 


{ 
struct sem cookie scm; 
memset (&scm, 0, sizeof (scm)): 
if (size >= 0) 
scm recv(sock, msg, &scm, flags); 
return size; 
} 


这 个 函数 的 代码 与 上 面 的 sys_reevmsg()-HE— FF. UT, SRE. SS—fqERE 
收报 文中 的 数据 以 及 附加 信息 ， 第 二 件 就 是 对 附加 信息 的 处 理 。 
接收 附加 信息 要 用 公 一 个 数据 结构 ， 那 就 是 scm_cookie 结构 ， 是 在 include/net/sem.h 中 定义 的 : 


/* Well, we should have at least one descriptor open 


* to accept passed FDs 8) 
*/ 
&define SCM MAX FD (OPEN MAX -1) 


struct scm fp list 
[ 


int count; 
struct file *fp[SCM MAX FD]; 


struct scm cookie 


{ 


struct ucred creds: 
struct scm fp list *fp; 
unsigned long seq; 


h 


/* Skb credentials */ 
/* Passed files */ 
/* Connection seqno */ 


SSRN CASH, REE AE. 种 是 对 方 进程 的 “身份 ”(credentials)。 数 
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据 结构 类 型 ucred 4 include/linux/socket.h 中 定义 的 : 


125 struct ucred { 


126 u32 pid; 
127 u32 uid; 
128 u32 gid; 
129}; 


另 - -种 就 是 有 关 打 开 文 件 的 信息 。BSD (以 及 Linux) 的 插口 机 制 允许 :个 进程 把 它 的 若 十 个 已 打 
开 文 件 的 访问 权 传 递 给 ， 或 者 说 “授予 ” 另 一 个 进程 。 一 个 进程 最 多 可 以 同时 打开 的 文件 个 数 取决 于 
一 个 常数 OPEN_MAX， 定 义 于 include/linux/limits.h FP: 


9 #define OPEN MAX 256 /* # open files a process may have */ 


可 是 ， 有 一 个 位 置 是 必须 保留 的 ， 那 就 是 代表 着 插口 本 身 的 那个 已 打开 文件 。 所 以 在 sem fd list 
结构 中 的 file 结构 指针 数组 fp[ ] 的 人 小 为 《OPEN_MAX 一 1)。 

首先 是 数据 部 分 的 接收 。 对 于 Unix 域 的 插口 ，sock->ops M48 E128 AY IS TAT FH unix_dgram_ops 
BY unix stream, ops. .者 的 recvmsg 指针 分 别 指向 unix_dgram_recvmsg( ) 和 unix_stream_recvmsg( )。 


我 们 先 来 看 比较 简单 的 unix_dgram_recvmsg( ) Caf. unix.c): 
[sys. socketcall( ) > sys recvmsg( ) > unix dgram recvmsg( )] 


1388 static int unix dgram recvmsg(struct socket *sock, struct msghdr *msg, int size, 


1399 int flags, struct scm cookie *scm) 
1400 { 

1401 struct sock *sk = sock->sk; 

1402 int noblock = flags & MSG_DONTWAIT; 

1403 struct sk buff *skb; 

1404 jnt err; 

1405 

1406 err = -EOPNOTSUPP; 

1407 if (flags&MSG OOB) 

1408 goto out; 

1409 

1410 msg-»msg namelen = 0; 

1411 

1412 skb = skb recv datagram(sk, flags, noblock, &err): 
1413 if (!skb) 

1414 goto out; 

1415 

1416 wake up interruptible(&sk-^protinfo. af unix. peer wait); 
1417 

1418 if (msg-^msg, name) 

1419 unix copy addr(msg, skb-^sk); 

1420 

1421 if (size > skb->len) 


.73 ， 
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1422 size = skb->len; 

1423 else if (size < skb->len) 

1424 msg->msg_flags |= MSG TRUNC; 

1425 

1426 err = skb copy datagram iovec(skb, 0, msg->msg_iov, size); 
1427 if (err) 

1428 goto out free; 

1429 

1430 sem-^creds = X*UNTXCREDS (skb) ; 

1431 

1432 if (! (flags & MSG _ PREK) ) 

1433 { 

1434 if (UNIXCB(skb). fp) 

1435 unix detach fds(scm, skb); 

1436 ] 

1437 else 

1438 { 

1439 /* It is questionable: on PEEK we could: 

1440 - do not return fds - good, but too simple 8) 

1441 - return fds, and do not return them on read (old strategy, 
1442 apparently wrong) 

1443 - clone fds (I choosed it for now, it is the most universal 
1444 solution) 

1445 

1446 POSIX 1003.1g does not actually define this clearly 
1447 at all. POSIX 1003.1g doesn't define a lot of things 
1448 clearly however! 

1449 

1450 */ 

1451 if (UNIXCB (skb). fp) 

1452 scm->fp = scm fp dup(UNIXCB (skb). fp); 

1453 } 

1454 err = size; 

1455 

1456 out_free: 

1457 skb free datagram(sk, skb) ; 

1458 out: 

1459 return err; 

1460 } 


BR flags 中 有 个 标志 位 MSG_OOB， 表 示 此 次 接收 的 目的 起 所 谓 “out-of-band” 报 文 。 在 “有 连 
接 ” 模 式 的 通信 中 ， 普 通 的 数据 报 文 在 发 送 时 都 编 上 序号 ， 接 收 时 就 按 次 序 接收 。 但 是 ， 有 些 报 文 是 
用 于 控制 日 的 例如 载 送 着 “^c” 的 报 义 》 而 需要 优先 传递 的 ， 此 种 “编外 ” 报 文 就 称 为 OOB 报 文 。 
可 是 ， 在 “无 连接 ”模式 中 每 个 报 文 都 是 独立 的 ， 也 无 所 谓 次 序 ， 根 本 不 存在 OOB 报 文 这 么 个 概念 ， 
所 以 对 “无 连接 ”插口 调用 sock recvmsg( ) 时 MSG_OOB 标志 位 不 应 该 为 1〈 见 1407 行 )。 
phi 3x skb recv datagram( ) 从 揪 口 的 接收 队 刘 中 摘 取 ， 或 者 等 待 着 从 该 队列 中 摘 吧 .个 载运 着 报 文 
.74. 
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的 sk_bu 作 结构， 读者 在 前 面 讲述 sys_accept( ) 的 一 节 中 已 看 到 过 其 代码 ， 此 处 就 不 重复 了 。 在 我 们 这 
个 情景 中 ， 假 定 队 列 中 已 经 有 报 文 存在 ， 所 以 当前 进程 不 需要 睡 肯 等 符 。 从 接收 队列 摘 取 个 报 文 以 
后 ， 队 列 中 就 多 出 了 一 个 报 文 的 位 置 ， 所 以 缕 响 醒 - 个 可 能 正信 睡眠 、 等 待 着 本 投递 报 文 的 进程 。 如 
果 msghdr 结构 中 的 指针 msg name 不 是 NULL, 也 就 是 说 接收 进程 为 对 方 ( 发 送 方 》 的 插口 地 址 准备 
好 了 一 个 缓冲 区 ， 就 要 将 对 方 的 插口 地 址 拷贝 到 一 个 临时 的 缓冲 区 中 (《 见 这 里 的 1419 行 和 
sys recvfrom( ) 代 码 中 的 第 1245 行 )， 为 下 一 步 将 其 拷贝 到 用 户 空 间 的 缓冲 区 作 好 准备 。 函 数 
unix, copy. addr( ) 的 代码 也 在 af. unix.c 中 : 


[sys_socketcall( ) > sys recvmsg( ) > unix dgram recvmsg( ) > unix_copy_addr( )] 


1387 static void unix copy addr(struct msghdr *msg, struct sock *sk) 
1388 { 


1389 msg-»msg namelen = sizeof (short) ; 

1390 if (sk->protinfo. af_unix. addr) { 

1391 msg-^msg namelen-sk-?protinfo. af unix. addr—>len; 
1392 memcpy (msg-^?msg name, 

1393 sk->protinfo. af unix. addr- >name, 

1394 sk->protinfo. af_unix. addr->len) ; 

1395 } 

13906  ] 


下 面 就 是 对 接收 长 度 的 处 理 了 (1421 一 1424 行 )。 如 果 缓 冲 区 的 大 小 ， 也 就 是 要 求 接收 的 数据 大 小 
超过 报 文 的 实际 长 度 ， 那 就 按 报 文 的 实际 长 度 接收 。 及 之 ， ty RET) TAR SCI SERIE. A LK 
缓冲 区 的 大 小 接收 ， 而 报 文中 剩余 的 数据 就 于 挤 了 ， 所 以 将 msg flags 中 的 MSG_TRUNC 标志 设 成 1， 
表示 报 文 被 截 尾 了 。 长 度 一 经 确定 ， 就 可 以 把 数据 从 sk_buff 结构 中 拷贝 到 由 msghdr 结构 中 的 :iovec[ J 
向 量 表 所 指示 的 缓冲 区 中 ， 函 数 skb_copy_datagram_iovec( ) 的 代码 在 net/core/datagram.c 中 : 


[sys_socketcall( ) > sys. recvmsg( ) > unix dgram recvmsg( ) > skb. copy. datagram, iovec ( )] 


200 /* 

201 * Copy a datagram to an iovec. 

202 * Note: the iovec is modified during the copy. 

203 */ 

204 

205 int skb copy datagram iovec(struct sk buff *skb, int offset, struct iovec **to, 
206 int size) 

201 { 

208 return memcpy toiovec(to, skb->h. raw + offset, size); 

209 } 


函数 memcepy_toiovect ) 的 代码 则 在 neUcore/iovec.c 中 : 


[sys_socketcall( ) > sys recvmsg( ) > unix. dgram recvmsg( ) > skb. copy. datagram iovec ( ) 
> memopy. toiovec( )] 
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76 — /* 


77 * Copy kernel to iovec. Returns ~EFAULT on error. 
78 * 

79 * Note: this modifies the original iovec 

80 */ 

81 


82 int memepy_toiovec (struct iovec *iov, unsigned char *kdata, int len) 
83 |{ 


84 int err = -EFAULT; 

85 

86 while(len»0) 

87 { 

88 if (iov->iov len) 

89 { 

90 int copy = min(iov-^iov len, len); 
9| if (copy to user(iov-^iov base, kdata, copy)) 
92 goto out; 

93 kdata*-copy; 

94 len--copy; 

95 iov-^iov len--copy; 

96 iov— iov baset=copy: 

97 } 

98 lovtt; 

99 } 

100 err = 0; 

101 out: 

102 return err; 

103} 


对 于 Unix AL, - ALARA, (ER Rk ot recvmsg( ) 玉 把 报 文 接 收 到 车 
干 个 较 小 的 缓冲 区 中 。 

除 报 文中 的 数据 外 ， 还 要 把 sk buff 结构 中 载 送 的 有 关 对 方 号 份 的 信息 也 拷贝 到 前 而 准备 下 的 
scm cookie 结构 中 去 。 注 意 ， 畏 数 unix dgram recvmsg( ) 中 第 1430 行 的 赋值 语句 所 做 的 是 整个 cred 
结构 的 复制 ， 对 UNIXCREDS 的 有 关 定 义 在 af_unix.h rf: 


28 struct unix skb parms 


29 | 

30 struct ucred creds; /* Skb credentials */ 

3l struct scm fp list *fp: /* Passed files */ 

32. Hh 

33 

34 #define UNIXCB (skb) (* (struct unix_skb_parms*)& ((skb)—>cb)) 


35 #define UNIXCREDS (skb)  (&UNIXCB((skb)). creds) 


在 sk. buff 结构 中 有 个 48 字 节 的 字符 数组 cb[ ]， 可 以 根据 不 同 网 域 或 不 同 应 用 的 需要 来 载 送 -- 些 
附加 信息 。 企 这 里 ， 用 它 来 传递 一 个 unix skb parms 结构 ， 其 内 容 包 括 发 送 方 的 身份 信息 以 及 一 个 指 
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向 要 授权 接收 方 使 用 的 已 打开 文件 表 的 指针 。 

至 此 ， 报 文中 的 数据 都 已 经 拷贝 到 了 用 户 空 间 的 缓冲 区 中 ， 附 加 的 信息 也 拷贝 到 了 痢 时 的 
scm cookie 结构 中 ， 从 “接收 ”的 基 度 来 说 ， 主 归 的 任务 已 经 完成 了 。 但 是 ， 如 果 sk buff 结构 中 载 送 
着 对 已 打开 文件 的 访问 授权 的 话 ， 那 就 还 有 点 事 要 做 。 当 一 个 进程 把 对 它 的 若干 已 打开 文件 的 访问 权 
发 送 给 另 一 个 进程 时 ， 要 把 对 这 些 文件 访问 权 的 描绘 也 接收 下 来 。 另 一 方面 ， 如 果 这 些 己 打开 文件 代 
RE Unix 域 插口 ， 则 发 送 者 要 为 每 个 这 样 的 已 打开 文件 记 下 ，: 笔 账 ， 说 明 对 它 的 使 用 权 开 在 传送 的 途 
中 。 而 对 方 在 接收 到 这 些 授权 后 则 此 负责 “ 销 账 ”。 以 前 讲 过 ， 用 户 进 程 可 以 把 调用 参数 flags 中 的 
MSG_PEEK 标志 和 置 成 1， 表示 从 是 “ 偷 看 ”一 下 接收 队列 中 的 第 一 个 报 文 ， 而 并 不 真 的 接收 这 个 报 文 。 
所 以 skb. recv. datagram( ) 在 这 种 情况 下 并 不 将 报 文 从 队列 中 摘除 , 而 只 是 将 该 报 文 的 共享 计数 users 加 
1 后 便 返 回 指 向 该 sk_buff 结构 的 指针 。 所 以 ， 在 这 山 种 情况 站， 对 报 文中 载 送 的 访问 授 权 所 作 的 处 理 
也 有 所 不 同 。 如 果 接 收 方 在 调用 recv( ) 等 函数 时 的 MSG_PEEK 标志 位 为 0， 也 就 是 涪 正 式 “ 接 收 ” 了 
这 些 授 权时 ， 就 要 调用 unix_detach_fds( ) 来 销 账 。 这 个 盟 数 的 代码 在 af_unix.c H: 


[sys_socketcall( ) > sys, recvmsg( ) > unix dgram, recvmsg( ) > unix, detach fds ( )] 


1111 static void unix detach fds (struct scm cookie *scm, struct sk buff *skb) 


1112 { 

1113 int i; 

1114 

1115 scm-»fp = UNIXCB(skb). fp; 

1116 skb->destructor - sock wfree; 

1117 UNIXCB(skb). fp = NULL; 

1118 

1119 for (j=scm->fp—>count-1; i>=0; i--) 
1120 unix notinflight (sem->fp->fpLil) ; 
121  ] i 


这 里 一 方面 将 sk. buff 结构 中 的 sem. fp. list 指针 ( 也 在 前 述 的 cb 所 载 送 的 unix_skb_parms 结构 中 
也 拷贝 到 sem cookie 结构 中 ， 并 为 缓冲 区 的 县 放 准 备 下 一 个 函数 sock_wfree( )。 另 一 方面 就 通过 
unix notinflight( ) 来 销 账 ， 表 示 该 项 授权 已 不 再 在 “飞行 中 ” 其 代码 在 nevunix/garbage.c H: 


[sys socketcall( ) > sys. recvmsg( ) > unix_dgram_recvmsg( ) > unix_detach_fds ( ) > unix, notinflight( )] 


130 void unix notinflight (struct file *fp) 


131 34 

132 unix socket *s-unix get socket (fp); 

133 if(s) 4 

134 atomic dec(&s-^protinfo. af unix. inflight) ; 
135 atomic dec(&unix tot inflight); 

136 } 

137} 


这 里 的 unix_get_socket( ) 从 给 定 的 file 结构 出 发 找到 其 inode 结构 ， 如 果 该 node 结构 代表 着 一 个 
Unix 域 插 口 ， 就 返回 指向 其 sock 结构 inode 结构 的 一 部 分 ) 的 指针 ， 代 码 亦 在 garbage.c 中 : 
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[sys_socketcall( ) > sys recvmsg( ) > unix dgram recvmsg( ) > unix detach fds()» unix notinflight( ) 


> unix get socket( )] 


95 extern inline unix socket *unix get socket (struct file *filp) 
96 i 


97 unix socket * u sock - NULL; 

98 struct inode *inode = filp->f_dentry—>d_inode; 
99 

100 /* 

101 * Socket ? 

102 */ 

103 if (inode && inode-^i sock) { 

104 struct socket * sock = &inode->u. sockei i; 
105 struct sock * s = sock-?sk; 

106 

107 /* 

108 * PF UNTX ? 

109 */ 

110 if (s && sock->ops && sock ops family == PF UNIX 
111 u sock = s; 

112 } 

113 return u_sock; 

114 } 


如 果 接 收 方 只 是 看 一 下 ， 而 并 不 真正 接收 呢 ? 代码 的 作者 在 unix dgram recvmsg( ) 的 代 代 中 加 了 
注解 ， 说 POSIX 1003.1g 对 此 没有 作出 规定 ， 所 以 这 里 采取 了 为 scm. cookie 结构 复制 一 份 scm_fp_jist 
结构 〈 而 不 是 其 指针 ) 的 做 法 。 当 然 ， 这 时 候 不 能 把 账 销 掉 ， 因 为 对 这 些 已 打开 文件 的 访问 权 仍 在 弟 
区 的 途中 。 

最 后 ， 将 sk_buff 结构 所 占 的 缓冲 区 释放 掉 〈1457 行 )。 

回 到 sock recvmsg( ) 的 代码 中 《521 行 )， 下 一 件 事 就 是 对 接收 到 的 附加 信息 (如果 有 的 话 ) 的 处 
#7. Inline 函数 scm recv( ) 的 代码 在 include/net/sem.h 中 ; 


[sys_socketcall( ) > sys recvfrom( ) > sock recvmsg( ) > sem, recv( )] 


45 static | inline void sem recv(struct socket *sock, struct msghdr *msg, 
46 struct scm cookie *scm, int flags) 
47 { 

48 if (!msg->msg control) 

4g { 

50 if (sock~>passcred |! scem->fp) 

51 msg->msg_flags |= MSG CTRUNC; 

52 scm destroy (scm) ; 

53 return; 

54 } 

55 

56 if (sock->passcred) 
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57 put cmsg(msg, SOL_SOCKET, SCM_CREDENTIALS, sizeof (scm->creds), &scm->creds); 
58 

59 if (!scm->fp) 

60 return; 

61 

62 scm detach fds(msg, scm); 

63 } 


如 果 接 收 进程 在 其 msghdr 结构 中 没有 为 控制 信息 (附加 信息 ) 准备 好 缓冲 区 ， 那 就 没有 什么 事 可 
干 了 ， 所 以 把 scm cookie 结构 “销毁 ”就 完事 了 (52 行 )。 所 请 把 scm cookie 结构 “销毁 ”， 实际 上 
是 指 把 依附 于 这 个 结构 的 缓冲 区 释放 。 至 于 sem, cookie 结构 本 身 ， 是 作为 sock_recvmsg( ) 的 局 部 量 存 
在 于 堆栈 中 ， 所 以 不 存在 释放 空间 的 问题 。 这 里 要 指出 ， 只 有 在 通过 recymsg( ) 进 入 sys_recvmsg( ) 时 ， 
才 有 可 能 在 msghdr 结构 中 为 控制 信息 准备 缓冲 区 ， 因 为 这 个 函数 的 参数 之 “是 个 msghdr 结构 指针 ; 
其 他 的 函数 都 在 程序 中 国定 将 msghdr 结构 内 的 指针 msg control 设 成 NULL。 所 以 ， 只 有 通过 recvmsg( ) 
才能 接收 到 对 方 的 身份 消息 ， 也 只 有 通过 recvmsg( ) 才 能 接收 对 方 传递 过 来 的 已 打开 文件 的 访问 授权 。 

函数 put cmg ) 将 有 关 的 附加 信息 在 这 里 是 有 关 对 方 身份 的 信息 〉 递 交 到 用 户 空间 去 ， 其 代码 
在 net/core/sem.c 中 ， 有 兴趣 的 读者 可 白 行 阅读 。 

如 果 在 scm, cookie 结构 中 包含 有 对 已 打开 文件 的 访问 授权 ， 那 就 要 把 这 些 已 打开 文件 《由 发 送 进 
程 打开 〉 纳 入 到 接收 进程 的 已 打开 文件 表 中 。 相 对 来 说 ， 这 就 要 复 林 一 点 了 ，scm_detach_fds( ) 的 代码 
也 在 scm.c f: 


[sys_socketcall( ) > sys recvfrom( ) > sock recvmsg( ) > scm recv( ) > scm, detach fds( )] 


203 void scm detach fds (struct msghdr *msg, struct scm cookie *scm) 
204 | 


205 struct cmsghdr *cm = (struct cmsghdr*)msg-^msg control; 

206 

207 int fdmax - 0; 

208 int fdnum = scm->fp~>count; 

209 struct file **fp = scm->fp->fp; 

210 int *emfptr; 

211 int err = 0, i; 

212 

213 if (msg->msg controllen > sizeof (struct cmsghdr)) 

214 fdmax = ((msg->msg_controllen ~ sizeof (struct cmsghdr)) 
215 / sizeof (int)); 

216 

217 if (fdnum < fdmax) 

218 fdmax = fdnum; 

219 

220 for (i-0, emfptr-(int*)CMSG DATA(cm); i<fdmax; i++, cmfptr++) 
221 { 

222 int new fd; 

223 err = get unused fd( ); 

224 if (err < 0) 
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225 break; 

226 new fd = err; 

221 err = put user(new fd, cmfptr); 

228 if (err) 1 

229 put unused fd(new fd); 

230 break; 

231 } 

232 /* Bump the usage count and install the file. */ 
233 get_file(fp[i]); 

234 fd install(new fd, fp[i]); 

235 ] 

236 

237 if (i > 0) 

238 { 

239 int cmlen = CMSG LEN(i*sizeof(int)); 

240 if (lerr) 

241 err = put user(SOL SOCKET, &cm->cmsg level); 
242 if (lerr) 

243 err = put user(SCM RIGHTS, &cm-»cmsg type); 
244 if (terr) 

245 err = put user(cmien, &cm->cmsg len); 

246 if (lerr) { 

247 cmlen = CMSG SPACE(i*sizeof(int)); 

248 msg-^»msg control += cmlen; 

249 msg-»msg controllen -= cmlen; 

250 } 

251 } 

252 if (i < fdnum || (fdnum && fdmax <- 0)) 

253 msg-^msg flags |= MSG CTRUNC; 

254 

255 /* 

256 * All of the files that fit in the message have had their 
257 * usage counts incremented, so we just free the list. 
258 */ 

259 . scm destroy (scm); 

260 } 


代码 中 的 fdmax 表示 接收 方 msghdr 结构 中 用 来 接收 这 些 已 打开 文件 指针 的 缓冲 区 容量 ; 而 fdnum 
则 是 通过 报 文 传递 过 来 的 已 打开 文件 指针 的 个 数 ,此 项 信息 已 经 在 一 个 临时 的 sem, cookie 数据 结构 中 。 
显然 ， 这 两 个 数值 只 能 以 较 小 者 为 准 。 读 者 在 前 面 已 经 看 到 过 ， 在 scm_cookie 结构 中 有 个 指针 fp, 48 
向 一 个 scm fp list 结构 ， 而 这 个 结构 中 则 有 -个 file 结构 指针 数组 ， 数 组 中 的 每 个 元 素 都 是 指针 ， 指 
向 发 送 进 程 的 一 个 已 打开 文件 的 fle 结构 。 现 在 ， 发 送 方 已 经 将 这 个 指针 传 过 米 了 ， 接 收 方 要 做 的 就 
是 把 它 “ 安 装 ” 到 它 自己 的 已 打开 文件 表 中 。 这 样 做 了 以 后 ， 两 个 进程 就 可 以 共享 这 个 已 提 开 文件 了 。 
当然 ， 共 享 的 双方 必须 在 同 - 台 计算 机 上 。 

代码 中 从 220 行 开始 的 for 循环 就 是 对 传 过 来 并且 在 缓冲 区 容量 之 内 的 每 个 指针 做 这 件 事 。 首 先 当 
然 是 在 当前 进程 的 打开 文件 表 中 找到 一 个 空闲 位 置 ， 其 下 标 即 是 新 的 打开 文件 号 new_fd。 然 后 ， 室 操 
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作 put. user ) 把 这 个 新 的 打开 文件 号 写 入 到 用 户 空 间 中 准备 好 的 缓冲 区 中 〈msg->msg_control 指向 这 块 
缓冲 区 )。 前 面 我 们 讲 到 缓冲 区 的 容量 问题 ， 就 是 指 用 户 空 间 中 的 这 块 缓冲 区 是 否 足 够 于 用 来 返 呵 这 些 
新 的 打开 文件 号 。 一 旦 把 传 过 来 的 指针 安装 在 接收 进程 的 打开 文件 表 中 ， 柑 应 的 file 结构 就 多 了 一 个 
用 户 ， 所 以 要 通过 get_file( ) 递 增 其 共享 计数 。 最 后 ， 就 是 把 这 个 指针 “安装 ”到 接收 进程 〈 就 是 当前 
进程 ) 的 打开 文件 表 中 了 ， 而 new. fd 则 指明 了 在 表 中 的 位 置 。 

前 面 讲 过 ，msg->msg_control 指向 几 户 空间 的 块 缓 冲 区 ， 这 块 缓冲 区 实际 上 站 由 :个 cmsghdr 
结构 加 上 一 个 数据 部 分 〈 用 来 返 叫 新 增 的 打开 文件 号 ) 构成 的 。 只 要 接收 并 安装 了 全 少 一 个 新 的 已 打 
开 文 件 ， 就 要 设置 cmsghdr 结构 中 的 头 部 信息 ,包括 实 际 使 用 的 数据 部 分 的 长 度 cmlen。 最 后 ， 还 些 调 
用 __scm_destroy( )， 将 依附 于 scm cookie 结构 的 动态 分 册 的 存储 空间 在 这 里 是 sem, fp. list 结构 ) TEE 
放 掉 。 

进程 闻 对 已 打开 文件 的 这 种 访问 授权 ， 在 某 些 应 用 中 是 很 有 意义 的 。 以 插口 的 使 用 为 例 ， 我 们 以 
前 讲 过 ,“ 有 连接 ”插口 的 典型 运用 是 :在 accept( ) 产 生 了 一 个 新 的 已 经 建立 起 连接 的 捅 口 以 后 ,就 fork( ) 
一 个 子 进 程 ， 让 了 进程 去 为 client 方 提 供 服 务 ， 而 父 进程 本 身 则 又 进入 accept ) 等 待 新 的 连接 请 求 。 不 
管 怎么 说 ， 动 态 地 fork( ) 一 个 子 进 程 的 代价 终究 还 是 不 小 的 。 现 在 有 了 跨 进 程 的 访问 授权 ， 就 可 以 预 
先 创建 若干 个 子 进 程 , 一 旦 accept( ) 产 生 了 一 个 新 的 插口 , 就 可 以 把 对 该 择 口 的 访问 权 传 给 某 个 空闲 的 
子 进 程 ， 让 它 去 提供 服务 。 这 样 ， 就 可 以 省 去 了 因 每 次 都 fork( ) 一 个 新 进程 而 引起 的 延迟 。 

在 上 面 这 个 情景 中 ， 我 们 假定 在 接收 方 的 receive queue 队列 中 已 经 有 报 文 在 等 待 ， 所 以 接收 进程 
ARTE skb_recv_datagram( ) 中 睡眠 等 待 。 如 盯 接 收 队列 中 没有 报 文 ， 那 接收 进程 就 需 旨 睡眠 等 入 ， 
等 到 有 报 文 到 达 时 才 被 唤醒 ， 这 种 情景 读者 在 人 前面 讲述 accept( ) 和 connect( ) 时 已 经 看 到 过 了 。 

再 来 看 Unix 域 “ 无 连接 ”插口 的 报 文 发 这。 

与 sock, recvmsg( ) 相 对 应 的 函数 是 sock_sendmsg(), HC TE XCfF. net/socket.c 中 


[sys socketcall( ) > sys sendmsg( ) > sock sendmsg( )] 


501 int sock_sendmsg (struct socket *sock, struct msghdr *msg, int size) 
502 { 


503 int err; 

504 struct scm cookie scm; 

505 

506 err = scm send(sock, msg, &scm); 

507 if (err >= 0) { 

508 err = sock->ops—>sendmsg (sock, msg, size, &scm) ; 
509 scm destroy (&scm) ; 

510 } 

511 return err; 

512} 


首先 是 对 发 送 者 身份 以 及 附加 控制 信息 的 处 理 ，inline 函数 scm. send( ) 的 代码 在 include/net/scm.h 
中 。 与 接收 报 文 时 相似 ， 只 有 在 通过 sendmsg( ) 进 入 sys_sendmsg( ) 时 才 有 中 能 随同 报 文 发 送 这 些 附 加 
信息 ， 因 为 这 个 函数 的 参数 之 -是个 msghdr 结构 指针 ， 其 他 的 消 数 都 在 程序 中 国定 将 msghdr 结构 内 
的 指针 msg control 设 成 NULL. 


[sys.socketcall( ) > sys sendmsg( ) > sock_sendmsg( )] 
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33 static __inline__ int sem send(struct socket *sock, struct msghdr *nsg, 
34 struct scm cookie *scm) 
35 { 

36 memset (scm, 0, sizeof (kscm) ) ; 

37 scm-?creds. uid = current-^uid; 

38 scm->creds. gid = current—>gid; 

39 scm-?creds. pid = current-?pid; 

40 if (msg-^msg controllen <= 0) 

41 return 0; 

42 return __scm_send(sock, msg, scm); 

43. ] 


[sys socketcall( ) > sys sendmsg( ) > sock sendmsg( ) > __ scm send( )] 


114 int | scm send(struct socket *sock, struct msghdr *msg, struct scm cookie *p) 
115 { 


116 struct cmsghdr *cmsg; 

117 int err; 

118 

119 for (cmsg = CMSG FIRSTHDR(msg); cmsg; cmsg = CMSG NXTHDR(msg, cmsg)) 
120 { 

121 err = -EINVAL; 

122 

123 /* Verify that cmsg_len is at least sizeof(struct cmsghdr) */ 
124 /* The first check was omitted in <= 2.2.5. The reasoning was 
125 that parser checks cmsg_len in any case, so that 

126 additional check would be work duplication. 

127 But if cmsg level is not SOL SOCKET, we do not check 

128 for too short ancillary data object at ali! Oops. 

129 OK, let’s add it.. 

130 */ 

131 if (cmsg->cmsg len € sizeof(struct cmsghdr) || 

132 (unsigned long) (((char*)cmsg - (char*)msg—>msg_ control) 
133 + emsg-^cmsg len) > msg-?msg controllen) 

134 golo error; 

135 

136 if (cmsg-^cmsg level !- SOL SOCKET) 

137 continue; 

138 

139 switch (emsg-^cmsg type) 

140 { 

141 case SCM RIGHTS: 

142 err=scm_fp_copy(cmsg, &p-^fp): 

143 if (err«0) 

144 goto error; 

145 break; 

146 case SCM_CREDENTIALS: 

147 if (emsg-^cmsg len != CMSG_LEN(sizeof (struct ucred))) 
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148 goto error; 

149 memcpy (&p-^creds, CMSG DATA (cmsg), sizeof(struct ucred)); 
150 err = scm check creds (&p-^creds); 
151 if (err) 

152 goto error; 

153 break; 

154 default: 

155 goto error; 

156 } 

157 } 

158 

159 if (p-^fp && !p->fp->count) 
160 { 

161 kfree(p-fp) : 

162 p->fp = NULL; 

163 } 

164 return 0; 

165 

166 error: 

167 scm destroy (p) ; 

168 return err; 

169 |] 


读者 可 以 对 照 前 面 的 sem. recev( ) 和 白 行 阅读 这 段 代 公 。 
把 附加 信息 搭 挂 到 报 文 上 以 后 ， 就 要 通过 具体 的 发 送 函数 把 报 文 发 送出 去 了 。 对 寺 Unix 域 的 无 连 
接 插 口 ， 这 个 函数 是 unix_dgram_sendmsg( )。 这 个 函数 比较 大 ， 我 们 分 段 阅读 : 


[sys_socketcall( ) > sys sendmsg( ) > sock. sendmsg( ) > unix dgram sendmsg( )] 


145 — /s 

1146 * Send AF UNIX data. 

1147 */ 

1148 

1149 static int unix dgram sendmsg (struct socket *sock, struct msghdr *msg, int len, 
1150 struct scm cookie *scm) 

151  ( 

1152 struct sock *sk = sock~>sk; 

1153 struct sockaddr un *sunaddr-msg-?msg name; 
1154 unix socket *other - NULL; 

1155 int namelen = 0; /* fake GCC */ 

1156 int err; 

1157 unsigned hash; 

1158 struct sk buff *skb; 

1159 long timeo; 

1160 

1161 err - -EOPNOTSUPP; 

1162 if (msg-^msg flags&MSG OOB) 
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1163 goto out ; 

1164 

1165 if (msg->msg_namelen) { 

1166 err = unix mkname(sunaddr, msg-^msg namelen, &hash); 
1167 if (err < 0) 

1168 goto out; 

1169 namelen = err; 

1170 } else { 

1171 sunaddr = NULL; 

1172 err = -ENOTCONN; 

1173 other = unix peer. get (sk); 

1174 if (tother) 

1175 goto out; 

1176 ] 

1177 

1178 if (sock->passered && !sk—protinfo. af_unix. addr && 
1179 (err = unix autobind(sock)) != 0) 
1180 goto out; 

1181 

1182 err = —EMSGSIZE; 

1183 if ((unsigned) len > sk—->sndbuf - 32) 
1184 goto out; 

1185 


首先 ,“ 无 连接 ” 捅 口 不 支持 “编外 ”的 OOB HX, HA KH MSG DONTWAIT 和 
MSG_NOSIGNAL 以 外 的 任何 标志 位 。 如果 在 调用 参数 中 提供 了 对 方 地 址 , 那 就 先 通过 unix_mkname( ) 
将 其 “规格 化 ”后 备用 。 如 果 没 有 提供 对 方 地 址 呢 ? 那 就 是 假定 已经 调用 过 connect), WEBER T 3X8 fy H 
标 插 口 的 路 径 ， 所 以 通过 unix peer get( ) 就 可 以 获得 指向 对 方 sock 结构 的 指针 。 可 是 ， 要 是 实际 上 并 
没有 调用 过 connect( WE? 那 当 然 不 能 再 入 前 走 了 ， 所 以 此 时 的 出 错 代码 为 一 ENOTCONN。 此 外 ， 如 
果 插 口 的 可 选项 passcred 规定 要 随 报 文 传递 与 插口 身份 有 关 的 信息 〈 注 意 与 发 送 进程 身份 的 区 别 》， 而 
又 从 未 通过 bind ) 为 其 指定 一 个 地 址 ， 那 就 旧 通 过 unix autobind( ) 为 其 白 动 生成 一 个 。 插口 的 发 送 报 
文 缓冲 区 大 小 记录 在 其 sock 结构 的 sndbuf 字段 中 ,但 是 此 保留 32 宁 节 用 于 控制 目的 ， 所 以 1183 473. 
此 检查 报 文 的 长 度 。 这 里 要 注意 ， 虽 然 在 报 文 发 送 之 前 和 接收 之 后 可 以 采用 iovec[ ] 把 报 文 分 散 存放 在 
多 个 缓冲 区 中 ， 但 是 在 发 送 的 过 程 中 总 是 住 同 一 个 缓冲 区 中 。 这 …- 来 是 对 网 络 报 文 的 模拟 ， 二 来 也 是 
因为 通过 iovec[ ] 提 供 的 缓冲 区 起 在 用 户 空 间 ， 而 不 是 在 系统 空间 。 我 们 继续 往 下 看 : 


[sys socketcall( ) > sys_sendmsg( ) > sock sendmsg( ) > unix dgram sendmsg( )] 


1186 skb-sock alloc send skb(sk, lon, 0, msg-^msg flags&MSG DONTWAIT, &err) ; 
1187 if (skb--NULL) 

1188 goto oul; 

1189 

1190 memcpy (UNTXCREDS (skb), &scm->creds, sizeol(struct ucred)); 

1191 if (scm->fp) 

1192 unix attach fds(scm, skb); 
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1193 

1194 skb->h. raw = skb->data; 

1195 err = memcpy fromiovec(skb_put (skb, len), msg—>msg iov, len); 
1196 if (err) 

1197 goto out free; 

1198 

1199 timeo = sock sndtimeo(sk, msg-?msg flags & MSG_DONTWAIT) ; 
1200 


接着 ， 就 是 为 报 文 的 发 送 分 配 个 sk buff 结构 ， 包 括 所 需 的 缓冲 区 。 函 数 sock. sendmsg( ) 在 通过 
插口 proto_ops 的 结构 调用 unix_dgram_sendmsg( ) 之 前 ， 先 弓 装 了 个 临时 的 sem. cookie 结构 ， 其 中 
的 信息 来 自 更 上 层 的 已 组 装 、 或 者 发 送 进程 作为 参数 传递 过 来 的 msghdr 结构 中 。 现 在 载 送 报 义 的 
sk buff 结构 和 缓冲 区 已 经 分 配 好 ， 所 以 把 这 些 信息 先 拷贝 进去 〈 见 1190 一 1195 行 )。 这 里 的 
. wnix attach fds( ) 处 理 对 已 打开 文件 的 访问 授权 ， 前 面 已 经 讲 到 过 了 ， 其 代码 也 在 af_unix.c 中 : 


[sys_socketcall( ) > sys. sendmsg( ) > sock. sendmsg( )» unix dgram sendmsg( ) > unix, attach fds( )] 


1135 static void unix attach fds (struct scm cookie *scm, struct sk buff *skb) 


1336 ( 

1137 int i; 

1138 for (i=sem—>fp->count-1; i570; i--) 
1139 unix inflight(sem-fp-^fp[i]); 
1140 UNIXCB(skb). fp = scm->fp; 

1141 skb-^destructor = unix destruct fds; 
1142 sem->fp = NULL; 

1143 } 


同样 ， 如 果 所 授权 的 已 打开 文件 代表 着 Unx RU, WE Rib BK. RATA 
前 面 的 unix_notinflight( ) 阅 读 unix_inflight( ) 的 代码 Cnet/unix/garbage.c?: 


[sys socketcall( ) > sys. sendmsg( ) > sock sendmsg( )» unix dgram sendmsg( ) > unix, attach fds( ) 
» unix, inflight( )] 


116 /* 
117 * Keep the number of times in flight count for the file 
118 * descriptor if it is for an AF UNTX socket. 


119 */ 

120 

121 void unix_inflight (struct file *fp) 

122 { 

123 unix socket ¥s=unix_get_socket (fp); 

124 if(s) { 

125 atomic inc(&s-protinfo. af unix. inflight); 
126 atomic inc(&unix tot inflight); 

127 } 

1288] 
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然后 ， 再 将 报 文中 的 数据 从 用 户 空间 的 缓冲 区 中 拷贝 到 依附 于 sk_buff 结构 的 缓冲 区 中 。 根 据 
msghdr 结构 中 的 具体 设置 ， 用 户 空间 中 的 数据 有 可 能 分 散在 若干 个 缓冲 区 中 ， 但 是 依附 于 sk_buff 结 
构 的 缓冲 区 却 只 有 一 个 ， 其 大 小 应 是 用 户 空间 中 各 个 缓冲 区 中 数据 长 度 的 总 和 。 函 数 
memcpy. fromiovec( ) 与 我 们 前 面 看 到 过 的 memcpy. toiovec( ) 相 似 ， 只 是 拷贝 的 方向 相反 。 

此 外 ，inline 函数 skb_put( )， 根 据 数 据 的 总 长 度 调整 sk_buff 结构 中 的 指针 skb->tail 和 当前 数据 长 
HE skb->len, 而 返回 skb->tail 的 初 值 , 也 就 是 缓冲 区 的 起 点 (1195 行 ), 这 段 代码 在 include/linux/skbuff.h 
中 : 


[sys_socketcall( ) > sys sendmsg( ) > sock sendmsg( ) > unix dgram sendmsg( ) > skb_put( )] 


694 /*x 

695 * skb put - add data to a buffer 

696 x @skb: buffer to use 

697 * @len: amount of data to add 

698 * 

699 * This function extends the used data area of the buffer. If this would 
700 * exceed the total buffer size the kernel will panic. A pointer to the 
701 * first byte of the extra data is returned. 

702 */ 

103 


104 static inline unsigned char *skb_put (struct sk buff *skb, unsigned int len) 
705 { 


706 unsigned char *tmp=skb->tail; 

707 skb->taii+=len; 

708 skb->len+=len; 

709 if (skb—-tail>skb->end) { 

710 skb_over_panic(skb, len, curreni text addr( )); 
711 ) 

712 return tmp; 

713 } 


最 后 ， 还 雪 通 过 一 个 inline 函数 sock_sndtimeo( ) 确 定 对 发 送 过 程 的 时 间 限 制 ; 


1249 static inline long sock sndtimeo (struct sock *sk, int noblock) 
1250 { 

1251 return noblock ? 0 : sk->sndtimeo: 

1252} 


DATA LAPSE RDU, SEERA ICA sk buff ARAH - 侧 去 了 。 我 们 继 
续 往 下 看 : 


[sys socketcall( ) > sys sendmsg( ) > sock sendmsg( ) > unix dgram sendmsg( )] 


1201 restart: 
1202 if (lother) { 
1203 err = -ECONNRESET; 
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1204 if (sunaddr == NULL) 


1205 goto out free; 

1206 

1207 .other = unix find other(sunaddr, namelen, sk->type, hash, &err): 
1208 if (other==NULL) 

1209 goto out free; 

1210 } 

1211 

1212 unix state rlock(other); 

1213 err - —EPERM; 

1214 if (lunix may send(sk, other)) 
1215 goto out unlock; 

1216 

1217 if (other-»dead) { 

1218 /* 

1219 * Check with 1003.1g - what should 
1220 * datagram error 

1221 */ 

1222 unix_state_runlock (other) ; 
1223 sock put (other) ; 

1224 

1225 err = 0; 

1226 unix state wlock (sk) ; 

1227 if (unix_peer(sk) == other) { 
1228 unix peer (sk) =NULL: 

1229 unix_state_wunlock (sk) ; 
1230 

1231 unix dgram disconnected(sk, other); 
1232 sock put (other); 

1233 err - -ECONNREFUSED; 

1234 } else { 

1235 unix state wunlock(sk); 
1236 } 

1237 

1238 other = NULL; 

1239 if (err) 

1240 goto out free; 

1241 goto restart; 

1242 ] 

1243 

1244 err = -EPTPE; 

1245 if (other-^shutdown&RCY SHUTDOWN) 
1246 goto out unlock; 

1247 


如 果 插 口 在 本 次 发 送 之 前 已 经 通过 connect( ) 建 立 了 通 向 目标 揪 口 的 路 答 ， 孝 么 此 时 指针 other 已 
经 指向 对 方 的 sock 结构 ， 否 则 即 为 NULL. 或 者 ， 虽然 以 前 书 经 调用 过 connect( )， 但 是 在 本 次 发 送 时 
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义 给 定 了 个 地 址 ， 此 时 other 也 是 0 CAL 1165 行 )。 所 以 ， 指 针 other 为 NULL 时 需要 奖 时 通过 
unix find other( ) 找 到 对 方 的 sock 结构 。 这 个 函数 我 们 在 connect( ) 一 节 中 已 经 看 到 过 了 。 找 到 了 对 方 
以 后 ， 还 此 通过 unix may. send( ) 测 试 一 下 是 否 允许 从 我 方 插 山 向 对 方 插 口 发 送 ， 测试 的 准则 是 对 方 并 
没有 通过 connect ) 把 路 径 设置 成 通 向 “第 二 者 ” unix_may_send( ) 的 代码 我 们 也 已 经 在 讲述 “无 连接 ” 
插口 的 connect( ) 时 看 到 过 了 。 

虽然 找到 了 对 方 插口 ， 人 得 是 这 个 插口 却 并 不 一 定 还 活着 。 我 们 在 讲述 “有 连接 ”插口 的 connect( ) 
时 已 经 讨论 过 这 方面 的 问题 ， 回 过 头 友 看 一 下 会 助 于 理解 1217 一 1242 行 的 这 一 段 代码 。 在 寻找 对 方 
插口 的 sock 结构 的 过 程 中 ， 丙 数 unix find other( ) 和 unix peer get( ) 是 二 者 必 经 其 一 的 ， 而 这 二 者 都 
直接 或 间接 地 调用 sock_hold( ) 递 增 了 对 方 插口 的 使 用 计数 。 所 以 1223 行 的 sock_put( ) 就 是 与 这 者 之 
一 配对 的 ， 也 就 是 将 对 方 插口 的 使 用 计数 递减 ， 如 果 减 后 达到 了 0 就 将 其 sock 结构 所 占 的 空间 释放 。 
如 果 本 次 发 送 的 目标 只 是 临时 的 ， 滥 么 这 就 可 以 了 ， 下 面 就 转 人 到 restart 处 看 看 是 否 还 能 找到 具有 相同 
地 址 的 其 他 插 剖 (原来 的 插口 撤销 后 可 能 又 重新 建立 了 )， 不 过 通常 此 时 unix_find_other( ) 会 失败 而 出 
错 返 回 。 可 是 ， 如 果 这 个 日 标 是 以 前 通过 conet) EK, MLET. MEELES WA- 
sock_put( ), 因为 当初 在 建立 起 通 向 目标 的 路 径 时 也 曾 对 日 标 插口 的 sock 结构 调用 过 一 次 sock_hold(), 
现在 要 把 它 抵消 。 其 次 ， 既 然 是 原先 通过 connect( ) 建 立 的 比较 稳固 的 伙伴 关系 (虽然 是 无 连接 模式 )， 
而 现在 对 方 已 经 “去 世 ”， 那 就 不 像 对 临时 给 定 的 地 址 - 样 需要 再 找 找 有 无 相同 地 址 的 插口 了 ， 所 以 直 
接 就 将 出 错 代码 设置 成 一 ECONNREFUSED， 并 转 全 out, free 处 返回 。 

现在 只 剩 下 最 后 一 个 可 能 的 障碍 了 ， 那 就 是 HH 标 插 门 可 能 已 经 通过 shutdown( ) 将 接收 报 文 的 功能 
关闭 了 《但 是 插口 并 未 撤销 )。 注 意 在 这 种 情况 下 返回 的 出 错 代 码 为 一 EPJPE。 

全 此 ， 所 有 的 关卡 才 已 经 通过 了 ， 下 而 就 要 将 报 文 〈 即 sk buff 结构 》 挂 入 日 标 插口 的 sock 结构 
里 的 接收 队列 中 。 

冉 在 unix dgram sendmsg( ) 中 继续 往 下 看 (af_unix.x): 


[sys socketcall( ) > sys_sendmsg( ) > sock_sendmsg( ) > unix. dgram sendmsg( )] 


1248 if (unix peer(other) !- sk && 

1249 skb queue len(&other-^reccive queue) > other—>max_ack backlog) { 
1250 if (!Itimeo) { 

1251 err = -EAGATN; 

1252 goto out unlock; 

1253 } 

1254 

1255 timeo = unix wait for peer(other, timeo); 
1256 

1257 err = sock intr errno(timeo); 

1258 if (signal pending(current)) 

1259 goto out free; 

1260 

1261 goto restart; 

1262 ] 

1263 

1264 skb queue tail(&other-^receive queue, skb); 
1265 unix state runlock(other); 
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1266 other->data ready(other, len); 
1267 sock put (other); 

1268 return len; 

1269 

1270 out unlock: 

1271 unix state runlock (other); 
1272 out free: 

1273 kfree skb(skb); 

1274 out: 

1275 if (other) 

1276 sock put (other) ; 

1277 return err; 

1278 .] 


下 面 就 是 将 一 个 “无 连接 ”模式 报 文 挂 入 接收 队列 的 过 程 ， 这 与 “有 连接 ”模式 中 将 “个 “连接 
请 求 ” 报 文 挂 入 server 插口 接收 队列 的 过 程 很 相似 。 所 以 ， 我 们 这 里 就 不 重复 了 ， 读 者 可 以 跟前 面 
sys, connect( ) 的 代码 对 照 阅 读 。 

看 完了 “无 连接 ”模式 的 报 文 接收 与 发 送 ， 我 们 再 来 看 看 “有 连接 ”模式 下 的 报 文 接收 与 发 送 。 

与 unix_dgram_recvmsg( ) 相 对 应 , Unix 域 “ 有 连接 ”模式 的 报 文 接收 是 通过 unix_stream_recvmsg( ) 
完成 的 。 这 个 函数 的 代码 也 在 af_unix.c 中 : 


[sys_socketcall( ) > sys recvmsg( ) > unix. stream recvmsg( )] 


1149 static int unix_stream_recvmsg (struct socket *sock, struct msghdr *msg, 
int size, 

1500 int flags, struct scm cookie *scm) 

1501 { 

1502 struct sock *sk = sock->sk; 

1503 struct sockaddr un *sunaddr=msg->msg_name; 

1504 int copied = 0; 

1505 int check_creds = 0; 

1506 int target; 

1507 int err = 0; 

1508 long timeo; 

1509 

1510 err = -EINVAL; 

1511 if (sk->state != TCP ESTABLISHED) 

1512 goto out; 

1513 

1514 err = -EOPNOTSUPP; 

1515 if (flags&MSG OOR) 

1516 goto oul; 

1517 

1518 target = sock rcvlowat(sk, flags&MSG WAITALL, size); 

1519 timeo = sock rcvtimco(sk, flags&MSG DONTWALT) ; 
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1520 
1521 msg->msg_namelen = 0; 
1522 


以 前 讲 过 ,“ 无 连接 ”模式 的 插口 是 “无 状态 ”的 ， 而 “有 连接 ”模式 的 插 趾 则 是 “有 状态 ”的 ， 
其 sock 结构 中 的 state 就 是 用 来 实现 种 “有 限 状 态 机 ”所 以 这 里 要 检查 对 方 插 口 是 否 处 于 可 以 接收 
数据 报 文 《而 不 是 连接 请 求 ) 的 状态 ， 实 际 上 就 是 要 检查 连接 是 否 已 经 建立 好 。 

以 前 我 们 也 讲 过 , “有 连接 ”模式 的 通信 支持 所 谓 “ 编 外 ” 即 OOB 报 文 的 传递 ， 这 种 报 文 在 传递 
中 具有 较 高 的 优先 级 ， 但 是 ， 那 只 是 就 一 般 而 言 ， 它 实际 上 站 为 网 络 环境 ， 特 别 是 速度 比较 慢 的 网 络 
环境 而 设计 的 。 对 Unix 不 的 播 口 来 说 , 收发 双方 都 在 局 一 台 机 器 上 ,实际 上 并 没有 这 种 需要 , 所 以 Unix 
域 的 “有 连接 ” 搬 口 并 不 支持 这 种 报 文 。 

调用 参数 中 的 size 表示 接收 缓冲 区 的 大 小 ， 也 就 是 想 此 接收 的 字 节 数 。 如 前 所 述 ,“ 有 连接 ”模式 
的 接收 是 跨越 报 文 边 界 的 。 我 们 以 前 曾 通过 一 个 例子 来 说 明 ， 当 接收 队列 中 有 两 个 报 文 ， 而 第 一 个 报 
文中 的 数据 并 没有 将 接收 缓冲 区 填 满 时 ， 就 会 继续 从 第 二 个 报 文中 读 取 数据 。 可 是 ， 当 时 我 们 没有 进 
一 步 说 时 ， 如 果 队 列 中 只 有 一 个 报 文 ， 而 又 不 能 将 接收 缓冲 区 填 满 的 话 ， 那 又 当 如 何 ? 这 时 候 接收 进 
程 是 继续 等 竺 新 报 文 的 到 来 ， 还 是 返回 一 个 只 是 部 分 填 满 的 缓冲 区 ? 现在 就 要 回 答 这 个 问题 了 。 这 里 
FEMS HAT ibe target， 就 是 表示 对 数据 量 的 最 低 要 求 。 如 果 接 收 了 以 列 中 已 经 没有 报 文 了 ， 但 是 已 
经 接收 到 缓冲 区 中 的 字 节 数 还 低 于 这 个 最 低 要 求 ， 那 就 要 睡眠 等 待 ， 和 否则 就 返回 了 《虽然 不 无 遗憾 )。 
通常 ， 这 个 最 低 要 求 是 1。 促 是 接收 进程 可 以 在 参数 flags 中 设置 一 个 MSG_WAITALL， 表 示 “ 不 达 目 
的 决 不 收兵 ”。 所 以 在 1518 行 中 通过 sock. revlowat( ) 决 定 这 个 数值 ， 然 后 设置 当前 的 县 标 target. 


[sys_socketcall( ) > sys recvmsg( ) > unix, stream recvmsg( ) > sock rcvlowat( )] 


1254 static inline int sock rcvlowat (struct sock *sk, int waitall, int len) 
1255 { 

1256 return (waitall ? len : min(sk-^revlowat, lon) ? : 1; 

1257 } 


另 一 方面 ， 也 要 通过 sock revtimeo( ) 确 定 对 发 送 过 程 的 时 间 限 制 ， 这 我 们 已 经 在 前 面 看 证 过 了 了。 
再 继续 往 下 看 : 


[sys_socketcall( ) > sys recvmsg( ) > unix_stream_recvmsg( )] 


1523 /* Lock the socket to prevent queue disordering 
1524 * while sleeps in memcpy tomsg 
1525 */ 

1526 

1527 down (&sk-^protinfo.af unix. readsem) ; 
1528 

1529 do 

1530 { 

1531 int chunk; 

1532 struct sk_buff *skb; 

1533 
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1534 skb=skb_dequeue (&sk->receive_queue) ; 

1535 if (skb--NULL) 

1536 { 

1537 if (copied >= target) 

1538 break; 

1539 

1540 /* 

1541 * POSIX 1003. lg mandates this order. 
1542 */ 

1543 

1544 if ((err = sock error(sk)) != 0) 

1545 break; 

1546 if (sk->shutdown & RCV SHUTDOWN) 

1547 break; 

1548 err = -EAGAIN; 

1549 if (!timeo) 

1550 break; 

1551 up (&sk-^»protinfo.af unix. readsem) ; 
1552 

1553 timeo = unix stream data wait (sk, timeo); 
1554 

1555 if (signal pending(current)) ( 

1556 err = sock intr errno(timeo); 

1557 goto out; 

1558 ) 

1559 down (&sk-^protinfo. af unix. readsem) ; 
1560 continue; 

1561 } 

1562 

1563 if (check_creds) { 

1564 /* Never glue messages from different writers */ 
1565 if (mememp(UNIXCREDS(skb), &scm-^creds, sizeof (scm->creds)) != 0) { 
1566 skb_queue_head (&sk->receive_queue, skb); 
1567 break; 

1568 } 

1569 ) else 1 

1570 /* Copy credentials */ 

1571 scm-^»creds = *UNIXCREDS (skb) ; 

1572 check creds = 1; 

1573 } 

1574 

1575 /* Copy address just once */ 

1576 if (sunaddr) 

1577 { 

1578 unix copy addr(msg, skb->sk) ; 

1579 sunaddr = NULL; 

1580 } 

1581 
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1582 chunk = min(skb-^len, size); 

1583 if (memepy toiovec(msg-^msg iov, skb->data, chunk)) { 
1584 skb queue head(&sk-^receive queue, skb); 
1585 if (copied == 0) 

1586 copied = -EFAULT; 

1587 break; 

1588 } 

1589 copied += chunk; 

1590 size — chunk; 

1591 

1592 /* Mark read part of skb as used */ 

1593 if (!(flags & MSG PEEK)) 

1594 { 

1595 skb pull(skb, chunk); 

1596 

1597 if (UNIXCB(skb). fp) 

1598 unix detach fds(sem, skb}; 

1599 

1600 /* put the skb back if we didn’t use it up.. X*/ 
1601 if (skb->len) 

1602 { 

1603 skb_queue_head(&sk—>receive queue, skb): 
1604 break; 

1605 } 

1606 

1607 kfree skb(skb); 

1608 

1609 if (sem->fp) 

1610 break; 

1611 } 

1612 else 

1613 { 

1614 /* It is questionable, see note in unix dgram recvmsg. 
1615 */ 

1616 if (UNIXCB (skb). fp) 

1617 scm-^fp = sem fp dup(UNIXCB(skb). fp) ; 
1618 

1619 /* put message back and return */ 

1620 skb queue head(&sk-^receive queue, skb); 
1621 break; 

1622 } 

1623 } while (size); 

1624 

1625 up (&sk->protinfo. af_unix. readsem) ; 

1626 out: 

1627 return copied ? : err: 

1628} 
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读 首 已 经 看 到 ， 这 里 的 主体 是 一 个 do while 循环 。 在 循环 中 ， 每 次 从 接收 队列 中 摘 下 一 个 sk. buff 
结构 ， 然 后 就 从 报 文中 读 瞩 数据 和 附加 信息 ， 直 全 缓冲 区 已 经 填 满 〈size XRT OO: 或 者 接收 队列 中 
已 经 没有 报 文 ， 而 接收 的 最 低 要 求 又 己 满 中 ( 见 1538 行 )。 如 果 缓 冲 区 已 经 填 满 而 报 文 中 尚 有 数据 剩余 
则 将 剩余 部 分 退 品 接收 队列 〈1603 行 )， 以 备 下 一 次 再 米 继 续 接收 。 肥 之， 如 果 缓 六 区 未 满 而 接收 队 人 证 
中 已 经 没有 报 文 ， 则 视 最 低 要 求 是 否 己 经 满足 而 决定 是 睡眠 等 待 还 是 返回 。 这 整个 过 程 涉 及 队 州 操作 ， 
所 以 不 允许 受到 打扰 。 同 时 ， 所 需 的 时 间 义 相对 较 长 ， 不 能 单纯 地 靠 加 锁 spin_lock》 米 保护 ， 所 以 
需要 通过 内 核 信 号 量 加 以 保护 ， 这 个 内 核 信 号 量 束 在 口 标 插口 的 sock AA! CH 1527、1551、1559 
以 及 1625 112. 

循环 体 中 所 调用 的 通 数 以 及 其 他 各 种 “要 索 ” 大 部 分 都 已 经 谋 前 面 出 现 过 ， 所 以 我 们 基本 [把 这 
一 段 代 码 贸 给 读者 作为 练习 ， 只 是 对 其 中 的 几 个 函数 及 当量 略 作 说 明 。 

首先 ，inline ei skb_dequeue( ) 从 给 定 队列 (在 这 蛙 是 插口 的 接收 队列 》 的 及 端 摘 下 一 个 报 文 ， 
即 sk_bu 作 数据 结构 ( 见 1534 行 )»。 如 果 调 川 参数 flags 中 的 MSG_PEEK 为 1， 则 在 从 报 文 路 读 取 了 数 
据 和 附加 信息 以 后 要 通过 skb_queue_head( ) 将 已 经 脱 链 的 报 文 退 还 到 接收 队列 中 的 前 端 CAL 1620 行 )。 
要 注意 的 是 ， 这 种 “ 偷 看 ”以 一 个 报 文 为 限 。 也 就 是 说 ， 不 管 报 文 缓冲 区 多 大 ， 也 不 符 最 低 归 求 的 数 
值 target 多 大 ,看 了 从 队列 中 摘 下 的 第 一 个 报 文 并 将 它 退回 以 后 就 结束 了 《〈 见 1621 行 )。 这样 的 处 理 使 
程序 得 以 简化 《否则 还 得 准备 下 一 个 临时 的 队列 )， 道 型 上 也 讲 得 过 去 (因为 是 “ 偷 看 ” 嘛 )。 

另外 ， 还 有 几 个 地 方 也 此 用 到 skb_queue_head( )。 一 是 当 接收 缓冲 区 已 经 填 满 而 sk_buff 中 的 数据 
尚 有 剩余 时 (1603 行 )， 这 里 的 skb->len 为 报头 中 剩余 的 数据 量 ，: : 症 当 通过 memcpy_toiovec( ) 将 报 
文中 的 数据 挡 贝 到 用 户 空间 中 的 缓冲 区 时 出 了 错 ( 见 158371588 行 )。 例 如 ， 妆 是 接收 进程 的 页 而 映 
射 表 中 绥 冲 区 所 在 的 页 面 为 “ 写 保护 ”， 那 当然 就 失败 了 ， 此 时 memepy_toiovec( JJR]PI —EFAULT, m 
正常 则 返 轩 0。 个 过 这 并 不 一 定 意味 着 整个 接收 操作 的 大 败 , 因为 有 可 能 在 此 之 前 已 经 成 功 地 接收 了 
些 数据 。 所 以 ， 此 时 此 看 变量 copied 的 数值 ， 它 反映 着 山 经 将 多 少数 据 撕 贝 人 到 了 用 户 空间 。 还 有 -种 
情况 ， 就 是 接收 缓冲 区 尚未 填 满 ， 所 以 就 企图 从 队 旭 中 的 下 个 报 文中 青 取 一 些 数据 ， 可 足 却 发 现 这 
下 一 个 报 文中 的 千 份 信息 与 前 一 个 中 的 不 闻 ， 也 就 是 说 下 个 报 文 是 来 自 另 一 个 发 送 进程 〈《 见 1563— 
1568 行 )。 在 这 种 情况 下， 当然 不 应 该 将 来 自 两 个 不 同 进程 的 报 义 “粘贴 ” 在 一 起 ， 所 以 也 要 把 下 个 
报 文 退还 到 接收 队列 中 。 

读者 也 许 感 剑 奇 怪 ， 既 然 外 “有 连接 ”模式 ， 那 就 只 有 通过 已 经 建立 了 连接 的 打 口 才能 发 送 报 文 ， 
怎么 又 可 能 会 有 来 白 其 他 进程 的 报 文 昵 ” 其 实 很 简单 ， 连 接 是 建立 在 两 个 插口 之 间 ， 而 个 是 岗 个 进程 
之 间 的 。 拥 有 已 经 建立 好 连接 的 插 日 的 进程 ， 既 可 以 fork ) 出 若干 个 子 进程 ， 也 可 以 将 对 这 个 插口 的 
访问 通过 sendmsg( ) 授 权 给 马 一 个 进程。 

接收 了 一 .个 报 文 并 读 取 了 所 载 送 的 倍 息 以 后 ， 要 通过 kfree_skb( ) 释 放 报 文 的 缓冲 区 (1607 行 )， 这 
AS inline 函数 的 代码 在 include/linux/skbuff.h FP: 








[sys. socketcall( ) > sys recvmsg( ) > unix. stream recvmsg( ) > kfree_skb( )] 


209 /* 

210 * |f users--l, we are the only owner and are can avoid redundant 
211 * atomic change. 

212 */ 

213 

214 fk 
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215 * kfree skb - free an sk buff 
216 * @skb: buffer to free 


217 * 

218 * Drop a reference to the buffer and free it if the usage count has 
219 * hit zero. 

220 */ 

221 

222 static inline void kfree skb (strucl sk buff *skb) 

223 { 

224 if (atomic_read(&skb—->users) == 1 || atomic dec and test (&skb >users)) 
225 __kfree_skb(skb) ; 

226 } 


IXE kfree_skb( ) 的 代码 在 net/core/skbuff.c 中 : 
[sys socketcall( ) > sys recvmsg( ) > unix stream recvmsg( ) > kfree skb( ) > __kfree_skb( )] 


272 void | kfree skb(struct sk buff *skb) 


213 { 

214 if (skb list) { 

215 printk (KERN WARNING "Warning: kfree skb passed an skb still ^ 
276 ^on a list (from *p). m^, NET CALLER(skb)) ; 
271 BUG( ) ; 

278 } 

279 

280 dst_release(skb—->dst) ; 

281 if (skb->destructor) { 

282 if (in irg( )) { 

283 printk (KERN WARNING "Warning: kfree_skb on hard IRQ %p\n”, 
284 NET_CALLER (skb) ) ; 

285 } 

286 skb-^destructor (skb) ; 

287 } 

288 #ifdef CONFIG NETFILTER 

289 nf_conntrack_put (skb—>nfct) ; 

290 #endif 

29] skb headerinit(skb, NULL, 0); /* clean state */ 

292 kfree skbmem(skb); 

2903  ] 


x^ e 3 Uo VE LETRA EF ELS ye. RARE USUS a AEG. RRA: 
ADR sk buff 结构 中 的 函数 指针 destructor. 2g dE O, MEZARA AM. WA, RESI 
unix stream recvmsg( )， 这 个 指针 是 什么 呢 ? MAMA BE, iE sock_wfree( )， 是 由 发 送 报 文 的 
一 方 安排 好 了 的 。 

最 后 ， 就 是 “有 连接 ”模式 的 报 文 发 送 了 ， 这 是 由 af_unix.c 中 的 函数 unix_stream_sendmsg( ) 完 成 
的 。 
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[sys_socketcall( ) > sys_sendmsg( ) > sock sendmsg( ) > unix, stream, sendmsg( )] 


1281 static int unix stream sendmsg (struct socket *sock, struct msghdr *msg, int len, 


1282 struct scm cookie *scm) 
1283 { 

1284 struct sock *sk = sock-?sk; 

1285 unix_socket *other = NULL; 

1286 struct sockaddr un *sunaddr=msg->msg_name; 
1287 int err, size; 

1288 struct sk buff *skb; 

1289 int limit=0; 

1290 int sent-0; 

1291 

1292 err = -EOPNOTSUPP; 

1293 if (msg->msg flags&MSG OOB) 

1294 goto out err; 

1295 

1296 if (msg-^msg namelen) | 

1297 err = (sk->state==TCP ESTABLISHED ? -EISCONN : -EOPNOTSUPP) ; 
1298 goto out err; 

1299 ) else { 

1300 sunaddr - NULL; 

1301 err = —ENOTCONN; 

1302 other = unix peer_get (sk); 

1303 if (lother) 

1304 golo out err; 

1305 } 

1306 

1307 if (sk->shutdown&SEND_SHUTDOWN) 

1308 goto pipe err; 

1309 


如 前 所 述 ， 在 Unix 域 中 虽然 是 “有 连接 ”模式 也 不 支持 OOB 报 文 。 并 且 除 MSG_DONTWAIT 和 
MSG NOSIGNAL 以 外 所 有 的 标志 位 部 不 允许 使 用 。 另 一 方面 ， 既 然 是 “有 连接 ”模式 的 发 送 ， 就 不 
允许 指定 接收 方 地 址 。 通 过 unix peer get( ) 取 得 对 方 插口 的 sock 结构 指针 other 以 后 , 这 里 并 没有 检验 
它 是 否 还 活着 ， 以 及 是 否 已 经 关闭 了 报 文 接收 。 这 是 为 什么 呢 ? 下 面 读 者 就 会 看 到 ， 整 个 发 送 过 程 症 
通过 一 个 循 坏 来 完成 的 ， 对 这 两 个 条 件 的 检查 在 每 次 循环 中 部 要 进行 ， 而 不 是 只 检查 一 次 。 不 过 ， 倒 
是 要 先 检查 一 下 发 送 方 插口 本 身 是 否 已 经 关闭 报 文 发 送 〈 见 1307 行 )。 再 往 下 看 : 


[sys socketcall( ) > sys sendmsg( ) > sock. sendmsg( ) > unix_stream_sendmsg( )] 


1310 while(sent € len) 

1311 { 

1312 /* 

1313 * Optimisation for the fact that under 0.01% of X messages typically 
1314 * need breaking up. 
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1315 */ 
1316 
1317 size=len-sent; 
1318 
1319 /* Keep two messages in the pipe so it schedules better */ 
1320 if (size > sk-^sndbuf/2 - 16) 
1321 size = sk-^sndbuf/2 - 16; 
1322 
1323 /* 
1324 * Keep to page sized kmalloc( )’s as various people 
1325 * have suggested. Big mallocs stress the vm too 
1326 * much. 
1327 */ 
1328 
1329 if (size > PAGE SIZE- 16) 
1330 limit = PAGE STZE-16; /* Fall back to a page if we can’ t 
grab a big buffer this instant */ 
1331 else 
1332 limit = 0; /* Otherwise just grab and wait */ 
1333 
1334 /* 
1335 * Grab a buffer 
1336 */ 
1337 a 
1338 skb = sock alloc send skb(sk, size, limit, 
msg-^»msg flags&MSG DONTWAIT, &err); 
1339 
1340 if (skb==NULL) 
1341 goto out err; 
1342 
1343 /* 
1344 * If you pass two values to the sock alloc send_skb 
1345 x it tries to grab the large buffer with GFP BUFFER 
1346 * (which can fail easily), and if it fails grab the 
1347 * fallback size buffer which is under a page and will 
1348 * succeed. [Alan] 
1349 */ 
1350 size = min(size, skb tailroom(skb)); 
1351 
1352 memcpy (UNIXCREDS (skb), &scm->creds, sizeof(struct ucred)); 
1353 if (sem— fp) 
1354 unix attach fds(scm, skb); 
1355 


1356 if ((err = memcpy, fromiovec(skb put(skb, size), msg-^msg iov, size)) !- 0) 
1357 kfree skb(skb); 

1358 goto out err; 

1359 } 

1360 
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1361 unix state rlock(other); 

1362 

1363 if (other->dead |: (other >shutdown & RCV_SIIUTDOWN) ) 
1364 goto pipe err free; 

1365 

1366 skb queue tail(&other-^receive queue, skb); 
1367 unix state runlock(other); 

1368 other->data_ready(other, size); 

1369 sentt-size; 

1370 } 

1371 sock put (other); 

1372 return sent; 

1373 

1374 pipe err. free: 

1375 unix state runlock (other); 

1376 kfree skb(skb); 

1377 pipe err: 

1378 if (sent==0 && !(msg-?msg flags&MSG NOSIGNAL)) 
1379 send sig(SIGPIPE, current, 0) ; 

1380 err - -EPIPE; 

1381 out err: 

1382 if (other) 

1383 sock put (other); 

1384 return sent ? : err; 

1385 } 


为 什么 “有 连接 ”模式 的 报 文 发 送 要 通过 一 个 循环 来 完成 ， 而 在 “无 连接 ”模式 中 就 不 需要 循环 
WE? 这 又 跟 一 者 的 语义 有 关 。 

“无 连接 ”模式 十 面 向 报 文 的 ， 必 须 维 持 报 文 的 边界 。 用 户 《〈 进 程 ) 父 下 米 一 块 数据 ， 不 管 多 大 
(只 要 不 超过 极限 ) 也 旧 在 一 个 报 文中 发 送出 去 。 至 于 用 户 交 下 来 的 数据 块 大 小 是 和 理 合 埋 ， 混 是 用 己 
的 事 。 如 果 用 户 交 下 来 的 数据 块 太 大 ， 则 立 划 失 败 返 问 。 

而 “有 连接 ”模式 就 不同 了 。“ 有 连接 ”模式 是 面向 字 节 流 的 ， 所 以 可 以 在 发 送 方 将 “个 大 报 文 分 
割 成 攻 干 较 小 的 报 文 来 发 送 。 这 样 比较 有 利于 改善 报 文 传递 的 效率 ， 也 减轻 了 用 户 的 负 护 。 孝 么 ， 如 
果 用 户 交 下 的 报 文 太 大 ， 把 它 分 割 成 多 大 才 是 合适 的 呢 ? 或 者 说 ， 多 大 的 报 文才 堪 要 分 割 呢 ? 代码 中 
把 这 个 界线 定 为 sk->sndbuf 的 一 半 (16 字 节 保留 用 十 头 部 结构 ,在 下 面 的 讨论 中 我 们 部 把 它 略 去 不 计 )。 
插口 的 sock 结构 中 有 个 参数 sndbuf, 是 可 以 通过 setsockopt( ) 设 置 和 改变 的 。 这 个 参数 人 致 上 次 定 了 插 
口 在 正常 条 件 下 可 以 占用 作为 发 送 缓冲 区 的 总 的 存储 区 大 小 。 那 么 ， 为 什么 是 这 个 值 的 一 半 呢 ? 答案 
是 ， 把 它 分 成 两 半 来 用 有 利 十 提高 效率 。 这 样 ， 就 叮 以 使 得 当 发 送 方 在 准备 后 半 时 ， 接 收 方 书 经 在 
接收 前 一 半 了 。 通 过 对 两 个 缓冲 区 的 循环 使 用 和 流通 ， 就 可 以 形成 一 个 “流水 线 ”， 从 向 提 高 效率 。 在 
网 络 环境 下 或 者 发 送 方 和 接收 方 在 两 个 不 同 处 理 器 上 运行 时 ， 这 种 效果 就 尤为 突出 。 可 是 ， 有 时候 由 
于 系统 中 资源 使 用 和 周转 的 限制 ， 这 个 值 的 一 半 也 还 是 太 大 测 一 时 分 瑟 不 到 所 需 的 缓冲 区 ， 这 上 时候 已 
么 办 呢 ? 当然 可 以 睡眠 等 待 ， 但 是 更 好 的 办 法 是 退 而 求 其 次 ， 分 配 : 块 再 小 一 些 的 绥 冲 区 ， 这 样 电 然 
更 有 利于 资源 的 周转 和 在 这 种 “ 首 境 ”下 效率 的 提高 。 不 过 ， 小 到 -个 页 面 以 下 就 不 合适 了 ， 因 为 以 
页 面 为 单位 分 配 空间 比较 简单 ， 效 率 也 较 高 。 这 就 是 代码 第 1330 行将 变量 limit 设置 成 (PAGE_SIZE 
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一 16) 的 道理 。 这 个 变量 的 作用 ， 要 与 sock_alloc_send_skb( MUTE AR KBAR. EX Be BEER 
码 在 net/core/sock.c P: 


[sys socketcall( ) > sys sendmsg( ) > sock sendmsg( ) > unix stream sendmsg( ) > sock, alloc, send skb( )] 


741 /* 

742 * Generic send/receive buffer handlers 

743 */ 

744 

745 struct sk buff *sock alloc send skb(struct sock *sk, unsigned long size 
746 unsigned long fallback, int noblock, int *errcode) 
TAT { 

748 int err: 

749 struct sk_buff *skb; 

750 long timeo; 

751 

752 timeo = sock sndtimeo(sk, noblock); 

753 

754 while (1) { 

755 unsigned long try_size = size; 

756 

757 err = sock error(sk): 

758 if (err != 0) 

759 goto failure; 

760 

761 /* 

762 * We should send SIGPIPE in these cases according to 
763 * 1003.1g draft 6.4. If we (the user) did a shutdown( ) 
164 * call however we should not 

765 * 

766 * Note: This routine isnt just used for datagrams and 
767 * anyway some datagram protocols have a notion of 

768 * close down. 

769 */ 

770 

77) err = -EPIPE; 

772 if (sk-^shutdown&SEND SHUTDOWN) 

773 goto failure; 

774 

775 if (atomic_read(&sk->wmem alloc) < sk->sndbuf) | 

776 if (fallback) { 

T /* The buffer get won't block, or use the atomic queue. 
778 * It does produce annoying no free page messages still. 
779 */ 

780 skb = alloc skb(size, GFP BUFFER) ; 

781 if (skb) 

782 break; 
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783 try size - fallback; 

784 } 

785 skb = alloc skb(try size, sk-^allocation); 
786 if (skb) 

787 break; 

788 err = -ENOBUFS; 

789 goto failure; 

790 } 

791 

792 /* 

793 * This means we have too many buffers for this socket already. 
794 */ 

795 

796 set bit(SOCK ASYNC NOSPACE, &sk-^socket-^flags); 
197 set bit(SOCK NOSPACE, &sk->socket—>f lags) ; 
798 err = -EAGAIN; 

799 if (!timeo) 

800 goto failure; 

801 if (signal pending(current)) 

802 goto interrupted; 

803 timeo = sock wait for wmem(sk, timeo); 

804 } 

805 

806 skb set owner w(skb, sk); 

807 return skb; 

808 

809 interrupted: 

810 err = sock_intr_errno(timeo) ; 

811 failure: 

812 *errcode = err; 

813 return NULL; 

814 ] 


这 个 函数 先 试 着 按 size 大 小 分 配 空间 (注意 755 行将 try. size 设置 成 size)， 分 配 时 的 优先 级 别 为 
GFP_BUFFER。 如 果 行 ， 就 万 事 大 古 了 。 不 行 的 话 ， 就 要 看 参数 fallback。 要 是 fallback 为 0， 那 就 或 
者 通过 sock_wait_for_wmem( ) 睡 眠 等 待 , 或 者 失败 返回 ,， 具体 取决 十 参数 noblock. nf 5, £65 fallback 
TE ORI, 那 就 再 试 着 按 fallback 的 大 小 再 分 配 “次 ,这 一 次 分 配 的 优先 级 曾 则 改 成 sk-»allocation, 38 
常 是 比 GFP_BUFFER 高 一 些 (事实 上， 在 sock_init_data( ) 中 将 这 个 优先 级 设置 成 GFP_KERNEL)， 而 
fallback 则 通常 比 size 要 小 。 这 样 ， 第 二 次 分 配 成 功 的 希望 就 相当 大 了 。 当 然 ， 还 有 可 能 再 失败 ， 孝 就 
要 睡眠 等 待 或 失败 返回 了 。 换 言 ， 当 fallback 为 0 时 的 空间 分 配 是 硬性 的 ， 成 就 成 ， 不 成 就 不 成 ; 出 
fallback 为 非 0 时 的 空间 分 配 则 是 软 性 的 ， 能 按 size 的 大 小 分 配 最 好 ， 不 成 就 退 而 求 其 次 ， 按 fallback 
的 大 小 进行 分 配 。 具 体 的 缓冲 区 分 屿 由 sock_wmalloc( ) 进 行 ， 其 代码 也 在 sock.c 中 : 


[sys_socketcall( ) > sys. sendmsg( ) > sock sendmsg( ) » unix stream, sendmsg( ) 
> sock alloc, send. skb( ) > sock wmalloc( )] 
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654 [x 

655 * Allocate a skb from the socket's send buffer. 

656 */ 

657 struct sk buff *sock wmalloc(struct sock *sk, unsigned long size 
int force, int priority) 

658 | 

659 if (force || atomic read(&sk-^»wmem alloc) < sk->sndbuf) | 

660 struct sk buff * skb = alloc skb(size, priority); 

661 if (skb) | 

662 Skb set owner w(skb, sk): 

663 return skb; 

664 ] 

665 } 

666 return NULL: 

667  ] 


T8115 sock 结构 中 有 个 整数 wmem_alloc, WRAD F es REGE CREER “Op BEE YDS py 
功 时 就 由 这 里 的 skb_set_owner_w( ) 将 分 配 得 的 实际 人 小 加 到 wmem_alloc 中 ， 而 释放 时 则 从 中 减 去 。 
这 个 函数 虽然 小 ， 却 起 着 很 重要 的 作用 ， 共 代码 在 include/net/sock.h 中 : 


[sys_socketcall( ) > sys sendmsg( ) > sock_sendmsg( ) unix stream sendmsg( ) > sock alloc send, skb( ) 
> sock wmalloc( ) > skb set owner. w( )] 


1125 /* 

1126 * Queue a received datagram if it will fit. Stream and sequenced 
1127 * protocols can’t normally use this as they need to fit buffers in 
1128 * and play with them. 

1129 * 

1130 * Inlined as it's very short and called for pretty much every 

1131 * packet ever received 

1132 */ 

1133 

1134 static inline void skb set owner w(struct sk buff *skb, struct sock *sk) 
1135 { 

1136 sock hold(sk); 

1137 skb->sk = sk; 

1138 skb->destructor = sock wfree; 

1139 atomic_add(skb->truesize, &sk->wmem alloc) ; 

1140 ) 


注意 这 里 将 sk. buff i 88620 IE 4| destructor BARRIS [i sock wfree( )。 这 样 ， 报 文 的 接收 方 
在 释放 这 个 数据 结构 时 就 会 先 调用 这 个 函数 。 
局 到 unix_stream_sendmsg( ) 的 代码 中 的 第 1338 行 ， 这 里 的 调用 参数 limit 就 是 上 出 的 fallback. 所 
以 ， 当 size 小 于 “个 页 面 时 limit 为 0， 此 时 对 缓冲 区 分 配 的 要 求 是 硬性 的 ， 办 为 不 能 比 ÁN VETE HS 
了 。 可 是 ， 当 size 大 于 一 个 页 面 时 ， 则 limit 的 大 小 为 一 个 页 向， 此 时 就 可 以 “讨价还价 ”了 ，。 读者 个 
妨 回 过 去 看 一 下 unix dgram sendmsg( ) 的 代 但 ， 那里 对 缓冲 区 分 配 的 于 求 起 便 性 的 ， 这 是 因为 “无 连 
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E" 模式 的 报 文 发 送 不 允许 改变 报 文 的 边界 。 通 过 sock_alloc_send_skb( ) 分 配 了 缓冲 区 以 后 ， 缓 冲 区 的 
实际 大 小 可 以 调用 skb_tailroom( ) 来 获取 。 

从 这 申 往 下 的 代码 ， 读 者 应 该 已 经 很 熟悉 了 。 不 过， 不 知 读者 看 了 以 后 是 否 感 觉 到 有 些 异 样 ? 我 
们 在 unix. stream. connect( ) 中 和 unix_dgram_sendmsg( ) I Ab AB, 在 将 报 文 疆 入 接收 队列 之 前 要 测试 
队列 长 度 ， 如 果 其 长 度 达 到 了 某 个 限额 就 要 睡眠 等 待 。 可 是 ， 在 这 里 友 没有 看 到 。 这 是 为 什么 ? 难道 
“有 连接 ” 横 式 的 报 文 发 送 就 不 存在 这 个 问题 吗 ? 是 的 ，Unix 域 “ 有 连接 ”模式 的 报 文 发 送 确实 不 存 
在 使 对 方 的 接收 队列 过 长 的 问题 。 我 们 知道 ， 连 接 是 建立 于 捅 口 之 间 ， 而 不 是 进程 之 间 。 同 时 ， 我 们 
已 经 看 到 ， -个 插口 可 以 用 作 发 送 缓 冲 区 的 空间 大 小 是 有 限制 的 。 当 发 送 方 插 门 将 缓冲 区 用 光 取决 
THE sock 结构 中 的 sndbuf)， 也 即 全 部 非 入 到 接收 方 插口 的 接收 队列 中 去 以 后 ， 就 再 也 分 配 不 到 缓冲 
K, 而 只 好 在 sock_alloc_send_skb( ) 中 睡眠 等 待 了 。 等 待 什么 呢 ? 等 待 接收 方 进程 从 队 询 中 接收 报 文 而 
将 缓冲 区 释放 出 米 。 那 时 候 ， 接 收 方 就 会 在 释放 报 文 的 sk buff 结构 是 通过 其 函数 指针 调 诈 
sock_wfree( )， 其 代码 在 net/core/sock.c "H: 


[sys socketcall( ) > sys recvmsg( ) > unix_stream_recvmsg( ) > kfree_skb( ) > . kfree skb() 
> sock_wfree( )] 


631 /* 

632 * Write buffer destructor automatically called from kfree skb. 
633 */ 

634 void sock wfree(struct sk buff *skb) 

635 f 

636 struct sock *sk = skb->sk; 

637 

638 /* In case it might be waiting for more memory. */ 
639 atomic sub(skb-^truesize, &sk-^wmem alloc); 

640 sk->write space(sk); 

641 sock, put (sk) ; 

642 ] 


这 里 调整 了 sk->wmem_alloc 的 数值 ， 因 为 发 送 方 插口 实际 占用 的 缓冲 区 减少 了 。 而 sock 结构 中 
的 另 一 个 函数 指针 write space 则 在 创建 插口 时 CL unix createl( ) 的 代码 ，482 (T) 设置 成 指向 
unix write space( )， 这 个 也 数 将 可 能 因 分 配 不 到 报 义 缓冲 区 市 将 正在 睡 胀 等 待 的 发 送 方 进程 唤醒 ， 其 
代码 在 net/unix/at_unix.x 中 : 


[sys_socketcall( ) > sys recvmsg( ) > unix stream recvmsg( ) > kfree_skb( ) > ___kfree_skb( ) 
> sock_wfree( ) > unix write space( )] 


299 static void unix write space (struct. sock *sk) 


30 d 

301 read lock(&sk ?callback lock); 

302 if (unix writable(sk)) ( 

303 if (sk sleep && waitqueue active (sk-^sleep)) 
304 wake up interruptible(sk-^sleep); 

305 sk wake async(sk, 2, POLL OUT); 
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306 ! 
307 read unlock(&sk-»callback lock); 
308  ] 


当 睡 眠 中 的 发 送 方 进程 被 唤醒 ， 再 次 试图 分 配 报 文 缓冲 区 时 ， 就 能 成 功 了 。 

最 后 还 要 强调 指出 ， 发 送 方 /接收 方 的 关系 与 client/server 两 方 的 关系 完全 越 两 码 事 。 前 者 是 对 一 个 
具体 的 报 文 而 言 的 ， 而 后 者 仪 与 连接 的 建立 有 关 ， 一 且 建 立 了 连接 以 后 ， 任 何 … 方 都 可 以 是 一 个 报 文 
的 发 送 方 。 


78 插口 的 关闭 


插口 的 关闭 ， 即 撤销 ， 丰 道 过 文件 系统 界 而 的 close 系统 调用 完成 的 。 读 者 不 妨 回 想 : 一 下 前 面 讲 过 
的 数据 结构 之 间 的 联系 ， 看 看 从 插口 的 打开 文件 号 和 当前 进程 的 task_struct 结构 开始 ， 怎 样 才能 找到 
插口 的 文件 操作 跳 转 表 〈 数 据 结构 socket_file_ops). AR HAT ee AIH Et release 指向 sock_close( ), 
其 代码 在 net/socket.c '}: 


[sys_close( ) > filp_close( ) > fput( ) > sock_close( )] 


692 int sock close(struct inode *inode, struct file *filp) 
693 { 

694 /* 

695 * It was possible the inode is NULL we were 

696 * closing an unfinished socket 

697 */ 

698 

699 if (!inode) 

700 { 

701 printk (KERN DEBUG “sock close: NULL inode\n”): 
702 return 0; 

703 } 

704 sock fasyne(-l, filp, 0); 

705 sock_release (socki_lookup (inode) ) ; 

706 return Q; 

707 ] 


首先 是 对 插口 的 fasyne list 的 处 理 。 我 们 在 讲述 connect( ) 时 讲 到 过 ，server 方 进程 中 以 异步 地 等 
待 来 自 client 播 口 的 连接 请 求 。 实 际 上 ,连接 请 求 只 是 一 个 特例 ， 异 步 接收 同样 也 适用 于 普通 报 文 的 接 
收 。 在 socket 结构 中 有 个 fasync_list 队 询 ， 如 果 想 要 在 一 个 server 插 门 上 异步 等 待 连接 请 求 ， 或 者 从 
一 个 插口 异步 地 接收 报 文 ， 就 可 以 通过 ioctl( ) 系 统 调用 分 配 一 个 fasync_struct 数据 结构 ,并 将 其 挂 入 插 
口 的 fasync list 队列 。 现 在 插口 既然 要 撤销 了 ， 当 然 要 把 fasync_list 队列 中 的 fasync_struct 结构 全 都 释 
Jm. PAM sock fasync( ) 的 代码 也 在 socketc 中 ， 由 于 代码 比较 简单 ， 我 们 就 不 详 述 了 。 接 着 ， 看 
sock release( )， 其 代码 也 在 socket.c F: 
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[sys_close( ) > filp_close( ) > fput( ) > sock close( ) > sock release( )] 


416 fk 

477 * sock release - close a socket 

478 * @sock: socket to close 

419 * 

480 * The socket is released from the protocol stack if it has a release 
48] * callback, and the inode is then releascd if the socket is bound to 
482 * an inode not a file. 

483 */ 

484 

485 void sock release (struct socket *sock) 

486 { 

487 if (sock-^ops) 

488 sock~>ops—>release (sock) ; 

489 

490 if (sock->fasync_list) 

491 Drintk(KERN ERR "sock release: fasync list not empty!\n”); 
492 

493 sockets in use[smp processor, id( ) ]. counter-~; 

494 if (!sock->file) | 

495 iput (sock->inode) ; 

496 return; 

497 } 

498 ^ sock-^file-NULL; 

499  ] 


用 十 Unix 域 插口 的 两 个 proto. ops 结构 ， 即 unix. stream, ops 和 unix_dgram_ops， 其 中 的 release T 
针 都 指向 unix release( )， 其 代码 在 af_unix.c 中 给 出 : 


[sys_close( ) > filp_close( ) > fput( ) > sock. close( ) > sock release( ) > unix release( )] 


525 static int unix release(siruct socket *sock) 


520 (1 

521 unix socket *sk - sock-^sk; 

528 

529 if (Isl) 

530 return 0; 

531 

532 sock->sk = NULL; 

533 

534 return unix_release_sock (sk, 0); 
535 } 


函数 unix_release_sock() 的 代码 也 在 同 … 文 件 af_unix.c 路， 我 们 分 两 段 来 看 ; 


[sys_close( ) > filp_close( ) > fput( ) > sock. close( ) > sock release( ) > unix release( ) 
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> unix release sock( )] 


353 static int unix release sock (unix socket *sk, int embrion) 
354 | 

355 struct dentry *dentry; 

356 struct vfsmount *mnt; 

357 unix socket *skpair; 

358 struct sk buff *skb; 

359 int stato; 

360 

361 unix remove socket (sk); 

362 

363 /* Clear state */ 

364 unix state wlock(sk); 

365 sock orphan(sk); 

366 sk-^shutdown = SHUTDOWN MASK; 

367 dentry = sk-^protinfo. af unix.dentry; 

368 sk-^protinfo. af unix. dentry=NULL; 

369 mnt = sk->protinfo. af unix. mnt; 

370 sk->protinfo. af unix. mnt=NULL: 

371 state = sk—>state; 

372 sk-^state = TCP CLOSE; 

373 unix state wunlock (sk) ; 

374 

375 wake up interruptible all(&sk-^protinfo. af unix.peer wait); 
376 

371 skpair-unix peer (sk): 

378 

379 if (skpair!=NULL) { 

380 if (sk-^type--SOCK STREAM) { 

381 unix state wlock(skpair); 

382 skpair—>shutdown=SHUTDOWN MASK; /* No more writes*/ 
383 if (!skb queue, empty (&sk-^receive queue) {| embrion) 
384 Skpair-^err = ECONNRESET; 

385 unix state wunlock(skpair); 

386 Skpair-^state change (skpair) ; 

387 read lock(&skpair-^callback lock); 
388 sk wake async(skpair, 1, POLL HUP); 
389 read unlock(&skpair ?callback lock); 
390 } 

391 sock put (skpair); /* It may now die */ 
392 unix_peer(sk) = NULL; 

393 j 

394 


以 前 我 们 讲 过 , 内核 中 有 个 杂凑 表 unix, socket. table[ ], 每 个 插口 的 sock 4M EU dE Ae eH B 
一 个 队列 中 ， 而 Unix 域 sock 结构 中 的 protoinfo.af_unix.list 则 指向 该 队列 的 头 部 。 现 在 ， 第 … 件 事 就 
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是 通过 unix_remove_socket( ) 将 插口 的 sock 结构 从 杂凑 表 的 队列 中 脱 链 ， 其 代 但 在 neUunix/af_unix'c 
中 : 


[sys_close( ) > filp close( ) > fput( ) > sock close( ) > sock release( ) > unix release( ) 
> unix release sock( ) > unix remove, socket( )] 


233 static __ inline void unix remove socket (unix socket *sk) 
234 { 

235 write lock(&unix table lock); 

236 . unix remove socket (sk) ; 

237 write unlock(&unix table lock); 

238 ] 


[sys close( ) > filp_close( ) > fput( ) > sock _close( ) > sock release( ) > unix release( ) > nix release sock() 
> unix remove socket()». unix remove socket( )] 


203 static void |, unix remove socket (unix socket *sk) 
2004 | 

205 unix socket **list = sk->protinfo. af unix. list; 
206 if (list) { 

207 if (sk->next) 

208 sk->next~>prev = sk-?prev; 

209 if (sk->prev) 

210 sk->prev—>next = sk->next; 

211 if (*list == sk) 

212 *list = sk-^next; 

213 sk-^protinfo.af unix.list = NULL; 

214 sk-»prev = NULL; 

215 sk->next = NULL; 

216 __sock_put (sk) ; 

217 } 

218} 


下 面 ， 就 要 通过 sock_orphan( ) 改 变 sock 44 if] — se BUA EGRET P^ (sock.h)。 


[sys. close( ) > filp close( ) > fput( ) > sock close( ) > sock_release( ) > unix_release( ) > nix_release_sock( ) 
> unix remove, socket( )] 


998 /* Detach socket from process context. 


999 * Announce socket dead, detach it from wait queue and inode. 

1000 * Note that parent inode held reference count on this struct sock, 
1001 * we do not release it in this function, because protocol 

1002 * probably wants some additional cleanups or even continuing 

1003 * to work with this socket (TCP). 

1004 */ 

1005 static inline void sock orphan(struct sock *sk) 

1006 { 
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1007 write lock bh(&sk-^callback lock); 
1008 sk->dead = 1; 

1009 sk->socket = NULL; 

1010 sk->sleep = NULL; 

1011 write_unlock_bh(&sk->callback lock); 
1012  ) 


首先 就 是 把 dead ER 1. Sex MEO CART, RENTER SKE MIE 
状态 信息 的 检测 。 接 着 ,就 把 sock 结构 中 指向 相应 socket 结构 的 指针 设 成 了 NULL。 这 里 write lock bh( ) 
EDERE, XF include/linux/spinlock.h 中 : 


20 #define write lock bh(lock) \ 
do { local bh disable( ); write lock (lock): } while (0) 


MAB POLS E, xx Hn T idet. eE- ER unix release sock( ) 中 通过 
unix state wlock( JI] Eb, Hem I Eg EC af. unix.c 中 给 出 : 


39 "define unix state wlock(s) write lock (&(s)—>protinfo. af. unix. lock) 


每 一 把 “ 锁 ”， 在 锁 上 时 都 可 以 有 两 个 状态 ， 即 “ 读 ” 和 “ 写 ”。 这 里 的 锁 是 sock 结构 中 的 
protoinfo.af_unix.lock。 注 意 ，write_lock( ) 并 不 是 “ 锁 上 防 写 ”， 而 是 “为 当 而 锁 ”。 几 是 要 改变 sock 结 
构 中 任何 内 容 时 ， 都 要 将 这 把 锁 锁 上 全 “ 写 ” 状 态 。 同 时 ， 哪 怕 内 是 要 读 sock 结构 中 的 内 容 ， 也 得 要 
MA DEME “OE” RAR ARE “RA. HH, REA MERE, BALMER (在 不 同 
的 处 理 器 上 运行 ， 下 同 ) 就 都 不 能 读 〈 当 然 也 不 能 写 )， 而 只 能 在 write lock( )BR read. lock( ) 中 等待 解 
锁 《〈 并 不 睡眠 号 。 反 之 ， 只 要 至 少 有 一 个 进程 在 读 ， 其 他 的 进程 就 不 能 写 ， 而 只 好 在 write lock( ) 中 等 
符 解 锁 ， 但 是 却 可 以 顺利 遂 过 read lock( )。 只 有 这 样 ， 才 能 保证 任何 进程 都 不 会 在 改变 内 容 的 中 途 从 
中 读 出 。 可 是 ， 改 变 sock 结构 内 容 的 过 程 往往 需要 比较 长 的 时 间 ， 而 仅仅 要 读 sk-»dead 的 内 容 就 没有 
必要 等 所 有 的 改变 都 完成 ， 所 以 就 为 这 个 目的 专门 设置 了 另外 de: IRR sock 结构 中 的 
callback_lock。 几 是 需要 读 sk->dead 的 内 容 时 , MAEM EHH dm. 但 是 哪 一 把 都 可 以 , 即 “ 写 ” 
状态 或 “ 读 ” 状 态 都 可 以 。 

完成 了 对 sock 结构 的 改变 以 后 ， 就 可 以 唤 柄 正在 睡眠 中 等 待 着 此 使 用 该 插口 的 进 称 了 。 这 样 的 进 
程 有 两 种 ， 一 种 是 等 待 着 报 文 的 到 达 ， 田 一 种 则 是 等 待 着 将 报 文 桂 入 本 插口 的 接收 队列 中 。 这 些 进程 
被 唤醒 以 后 都 会 再 “次 检测 sk->dead， 当 发 现 这 个 插口 已 经 死亡 时 就 会 出 错 返 加。 

在 讲述 connect( ) 的 时 候 ， 读 者 已 经 看 到 在 sock 结构 中 有 个 指针 pair, TT af unixc 中 对 函数 
unix, peer( ) 的 定义 就 起 : 


139 #define unix peer (sk) ((sk)-»pair) 


已 经 建立 起 连接 的 两 个 “有 连接 ”模式 插口 互相 通过 这 个 指针 指向 对 方 的 sock i. UT XE 

接 ” 模式 的 插口 ， 则 为 之 调用 了 connect( ) 的 插口 通过 这 个 指针 单 向 地 指向 对 方 的 sock 结构 。 同 时 ， 只 

X ”个 插口 的 这 个 指针 非 0, 则 它 就 是 对 方 插口 的 一 个 用 户 , 而 对 方 插口 的 用 户 计数 就 包含 了 这 个 插口 ， 

所 以 要 通过 sock put( ) 递 减 对 方 的 用 户 计数 〈 见 391 行 )， 并 且 将 这 个 指针 清 0。 由 于 “有 连接 ”模式 

插口 的 “连接 ”是 双向 的 ， 此 时 还 要 对 连接 的 对 方 也 作 一 些 处 埋 (380—390 行 )。 首 先 杰 切断 对 方 继续 
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向 我 方 发 送 报 文 的 功能 。 其 次 ， 如 果 我 方 的 接收 队列 中 还 有 报 文 ( 作 unix_release( ) 中 调用 
unix_release_sock( ) 时 的 调用 参数 embrion 为 0)， 就 此 告知 对 方 ， 把 对 方 sock 结构 中 的 出 错 代码 err 设 
成 ECONNRESET。 这 样 ， 如 果 有 进程 正在 系统 调用 中 对 其 进行 某 些 操 作 ， 就 会 出 错 返 四， 省 则 下 一 次 
为 对 方 插口 而 进入 系统 调用 时 也 会 出 错 返 回 。 内 核 代码 中 有 个 inline PM sock_error( )， 定 义 于 
include/net/sock.h FP: 


1191 /* 

1192 * Recover an error report and clear atomically 
1193 */ 

1194 

1195 static inline int sock error(struct sock *sk) 
1196 { 

1197 int err=xchg(&sk->err, 0) ; 

1198 return -err; 

1199  ] 


这 个 inline 函数 一 方面 将 sk->err 的 内 容 读 入 变量 err 中 ， 一 方面 将 sk->err 清 0。 在 插口 操作 的 - 
些 关键 函数 和 关键 路 径 上 都 安排 了 对 sock 结构 中 的 这 个 出 错 代码 的 检测 。 例如 ， 在 
sock. alloc. send. skb( ) 的 while 循环 中 以 及 在 unix_stream_recvmsg( ) 的 do, while 循环 中 都 安排 了 这 样 的 
检测 。 

此 外 ，sock 结构 中 还 有 个 函数 指针 state change, 4E sock 结构 初始 化 时 设 ek fH IH 
sock def wakeup( ). 4:34 一 个 插口 的 状态 改变 时 ， 就 此 通过 这 个 指针 调用 相应 的 函数 ， 以 唤醒 可 能 正 
在 睡 限 等 待 该 插口 改变 状态 的 进程 。 现在， 一 对 互相 连接 的 插口 中 有 一 个 已 经 关闭 了 ， 这 当然 中 起 男 
一 方 的 状态 改变 ， 所 以 要 调用 这 个 函数 “386 行 )。 

最 后 ,还 要 通过 sk wake async( ) 向 所 有 正在 对 方 插口 上 异步 操作 的 进程 发 出 SIGIO £55. E21] 
在 对 方 插口 上 进行 一 次 操作 ， 从 而 待 知 该 插口 的 状态 改变 。 

继续 往 下 看 函数 unix_release_sock( ) 代 码 的 余下 部 分 : 


[sys close( ) > filp close( ) > fput( ) > sock. close( ) > sock, release( ) > unix release( ) 
> unix release sock( )] 


395 /* Try to flush out this socket. Throw out buffers at least */ 
396 

397 while((skbzskb dequeue(&sk- receive queue) ) !=NULL) 

398 { 

399 if (state--TCP LISTEN) 

400 unix release sock(skb-^sk, 1); 

401 /* passed fds are erased in the kfree skb hook */ 
402 kfree skb(skb): 

403 } 

404 

405 if (dentry) { 

406 dput (dentry) ; 

407 mntput (mnt) ; 
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408 ] 

409 

410 Sock put (sk) ; 

411 

412 /* ——- Socket is dead now and most probably destroyed ———- */ 
413 

414 /* 

415 * Fixme: BSD difference: In BSD all sockets connected to use get 
416 * ECONNRESET and we die on the spot. In Linux we behave 
417 * like files and pipes do and wait for the last 

418 * dereference 

419 * 

420 * Can i we simply set sock—->err? 

421 

422 * What the above comment does talk about? —-ANK (980817) 
423 */ 

424 

425 if (atomic read(&unix tot inflight)) 

426 unix gc( ); /* Garbage collect fds */ 

427 

428 return 0; 

429. |] 


如 果 插 口 的 接收 队列 中 有 报 文 ， 当 然 要 逐个 把 它们 摘 下 来 释放 。 读 者 已 经 在 的 一 节 中 看 到 过 函数 
kfree_skb( ) 的 代码 。 但 是 当 播 口 的 状态 为 TCP_LISTEN 时 是 个 特殊 情况 ， 因为 此 时 接收 队列 中 的 报 文 
都 足 连 接 请 求 。 对 方 已 经 为 server 插 山 创建 杂 -- 个 sock 结构 ,就 等 着 server 方 进程 通过 accept( ) 为 server 
插口 创建 一 个 新 的 socket 结构 ， 并 使 它们 互相 拌 上 钩 。 现 看 server 插口 既然 撤销 了 ， 就 此 把 所 有 这 些 
Hi client 方 创建 好 的 sock 结构 也 撤销 ， 押 以 这 里 对 其 递归 调用 unix, release, sock( )。 

我 们 知道 ， 通 过 bind( ) 为 插口 指定 一 个 常规 的 、 文 件 名 形式 的 “地 址 ” 时 ， 要 在 文件 系统 的 日 录 
树 中 创 一 个 节点 ， 并 使 sock 结构 中 的 指 外 protinfo.af_unix.dentry 指向 内 存 中 代表 着 这 个 目录 项 的 
dentry 结构 ， 同 时 也 递增 了 这 个 结构 中 的 使 用 计数 。 现 在 ， 如 果 这 个 dentry 结构 存在 ( 克 405 行 )， 就 
要 通过 dput( ) 递 减 它 的 使 用 计数 ， 要 是 递减 到 了 0 就 此 将 数据 结构 释放 。 对 日 录 项 所 在 文件 系统 的 安 
装 “ 连 接 件 ”也 是 -一 样 ， 要 通过 mntput( ) 递 减 其 使 用 计划 数 ， 要 是 递减 到 了 0 就 要 将 此 文件 系统 拆除 。 

XJ sock 结构 本 身 也 此 递减 其 使 用 计数 。 同 样 ， 如 果 递 减 到 了 0 就 要 将 此 结构 释放 。 如 果 递 减 后 不 
AE OWE? 那 就 说 明 有 别 的 进程 还 在 使 用 这 个 结构 。 这 是 可 能 的 ， 毕 资 对 sock 结构 所 山 的 锁 在 373 行 处 
就 号 解除 了。 但 是 ， 不 管 是 谁 ， 对 此 结构 调用 的 最 后 -次 sock_put( ) 总 会 将 其 释放 。 

最 后 ， 还 有 个 重要 的 事情 要 做 。 以 前 讲 过 ， 可 以 通过 sendmsg( ) 把 对 已 打开 文件 的 访问 授权 给 其 他 
进程 。 发 送 报 文 的 - 方 要 在 unix_attach_fds( ) 中 通过 unix_inflight( ) 将 这 些 已 打开 文件 记 下 账 ， AO 
这 些 已 打开 文件 的 访问 授权 已 经 在 发 送 的 过 程 路 ， 即 所 谓 “inflight” (在 飞行 小 )。 而 接收 方 则 在 接收 
到 这 些 授权 以 后 要 在 unix_detach_fds( ) 中 通过 unix. notinflight( SW". Pr DA, 当 全 局 量 unix_tot_inftight 
韭 0 时， 就 表示 有 这 样 的 授权 尚 在 “飞行 ”中 ， 述 没有 被 其 月 标 进 程 所 接收 。 同 时 ， 当 通过 sendmsg( ) 
发 送 对 已 打开 文件 的 授权 时 ,在 scm_send( ) 中 会 通过 fget( ) 递 增 相 应 file 结构 中 的 共享 计数 ,表示 从 这 
一 刻 起 这 个 已 打开 文件 已 经 多 了 -个 “用 户 ”% 在 日 标 进 程 接收 介 这 个 报 文 前 , 这 个 所 谓 用 户 就 是 内 核 。 
然后 , 当日 标 进程 接收 环 这 个 报 文 时 , 要 通过 sem. recv ) 调 用 scm detach. fds( )。 在 里面 先 通过 get. file( ) 
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有 
递增 相应 file 结构 中 的 共 训 计数， 表示 接收 进程 也 成 了 这 个 已 打开 文件 的 用 户 ， 随 后 又 通过 
__scm_destroy( ) 递 减 这 个 file 结构 中 的 共享 计数 ， 表 示 内 核 不 再 是 这 个 已 打开 文件 的 用 户 了 。 一 日 载 
送 着 文件 访问 授权 的 报 文 被 接收 方 进程 所 接收 ， 共 享 这 个 已 打开 文件 的 用 户 就 痢 是 进程 了 ， 或 迟 或 嘻 
这 些 进程 总 会 关闭 这 个 文件 , 而 最 后 关闭 这 个 文件 的 进程 会 将 共享 计数 减 至 0 而 最 终 真正 将 其 “关闭 ”。 

可 是 ， 有 两 种 情况 半 特 别 加 以 考虑 。 

第 一 种 情况 是 我 们 这 个 插口 的 接收 队列 中 有 一 个 或 及 个 报 文 载 送 着 这 样 的 文件 访问 授权 。 显 然 ， 
由 于 正在 关闭 这 个 插口 ， 这 些 报 文 都 要 被 丢弃 了 。 介 是， 所 谓 “ 丢 弃 ” 绝 不 是 简单 地 释放 缓冲 区 了 事 ， 
因为 对 载 送 着 文件 访问 授权 的 报 文 还 得 负 起 递减 相应 file 结构 中 的 共享 计数 的 责任 ， 否 则 这 些 文件 水 
远 也 不 可 能 真正 关闭 。 我 们 回 过 去 看 一 下 前 面 的 402 行 ， 接 收 队列 中 的 报 文 〈《 即 sk buff 结构 ) 是 通过 
kfree_skb( ) 释 放 的 ,我 们 已 在 前 一 节 中 看 过 它 的 代码 。 它 最 终 会 通过 sk_bu 作 结构 中 的 函数 指针 destructor 
调用 -个 函数 。 这 个 函数 - 般 都 指向 sock wfree( )， 但 是 当 报 文 载 送 着 文件 访问 授权 时 则 指向 
unix_destruct_fds( )， 这 是 在 发 送 报 文 时 由 unix_attach_fds( WEW. PAZ unix_destruct_fds( ) 的 代码 在 
af unix.c T: 


[sys. close( ) > filp. close( ) > fput( ) > sock close( ) > sock release( ) > unix. release( ) > unix release sock( ) 
> kfree, skb( ) > __kfree_skb( ) > unix destruct fds( )] 


1123 static void unix destruct fds (struct sk buff *skb) 


14 { 

1125 struct scm cookie scm; 

1126 memset(&scm, 0, sizeof(scm)); 

1127 unix detach fds(&scm, skb); 

1128 

1129 /* Alas, it calls VFS */ 

1130 /* So fscking what? fput( ) had been SMP-safe since the last Summer */ 
1131 scm destroy (&scm) ; 

1132 sock wfree(skb); 

1133 ] 


先 看 这 里 的 unix_detach_fds()， 这 也 在 af unix P: 


[sys_close( ) > filp_close( ) > fput( ) > sock close( ) > sock release( ) > unix, release( ) > unix release sock( ) 
> kfree_skb( ) >  kfree skb()- unix destruct fds()- unix detach fds( )] 


1111 static void unix_detach_fds (struct scm cookie *scm, struct sk buff *skb) 
112 { 





1113 int i; 

1114 

1115 scm >fp = UNIXCB (skb). fp; 

1116 skb->destructor = sock wfree; 

1117 UNIXCB(skb). fp = NULL; 

1118 

1119 for (i=sem->fp—>count-1; i>=0; i--) 
1120 unix notinflight (scm fp ^fp[i]); 
1121 } 
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这 个 函数 的 作用 有 三 点 ， 先 古 使 scm cookie 结构 中 的 指针 fp 指向 随同 sk buff 结构 发 送 过 来 的 
scm, fp list 结构 ， 其 次 将 sk, buff 结构 中 的 函数 指针 destructor 恢复 成 指向 sock_wfree: 再 就 是 为 每 个 
授权 访问 的 文件 通过 unix_notinflight( )“ 销 账 ”"。 但 是 ， 至 此 还 没有 触及 相应 file 结构 中 的 共享 计数 ， 
那 是 在 scm destroy( ) 中 完成 的 ， 有 关 的 代码 在 scm.h 和 sem.c H: 


[Sys. close( ) > filp_close( ) > fput( ) > sock. close( ) > sock release( ) > unix release( ) > unix release sock( ) 
> kfree_skb( ) > kfree skb()» unix_destruct_fds( ) > scm destroy( )] 


27 static | inline _ void scm destroy (struct scm cookie *som) 
28 i 

29 if (scm && scm->fp) 

30 ..Scm destroy (scm): 

31 | 


[sys close( ) > filp close( ) > fput( ) > sock close( ) > sock release( ) > unix release( ) > unix release, sock( ) 
> kfree_skb( ) >  kfree skb( ) > unix_destruct_fds( ) > scm destroy( ) > __scm_destroy( )] 


101 void , sem destroy (struct scm cookie *scm) 
102 { 
103 struct scm fp list *fpl = scm— fp; 
104 int i; 
105 
106 if (fpl) ( 
107 scm-^fp = NULL; 
108 for (i=fpl—->count-1; i>=0; i--) 
109 fput (fpl—>fp[i]): 
110 kfree(fp1); 
111 } 
112 } 
如 前 所 述 ， 这 里 的 fput( ) 递 减 相 应 file 结构 中 的 共享 计数 。 当 然 ， 如 果 递 减 后 成 为 0 就 将 此 文件 最 


第 二 种 情况 就 更 加 复杂 了 ， 那 就 是 我 们 刚 从 将 要 关闭 的 插口 发 送 了 .个 报 文 ， 将 对 此 插口 的 访问 
授权 给 对 方 ， 但 是 该 报 文 尚 在 “飞行 ” 中， 还 没有 被 对 方 接收 ， 而 这 一 边 的 插口 倒 要 关闭 了 。 下 面 我 
们 道 过 两 个 情景 来 说 明 可 能 存在 的 问题 。 
假定 有 两 个 进程 A 和 B， 还 有 两 个 Unix 域 插口 sa 和 sb; 并 且 A 是 sa 惟一 的 用 户 ,而 B 是 sb 惟 
一 的 用 户 。 先 米 看 第 -个 情景 : 
(1) A 通过 sa 发送 一 个 报 文 到 sb， 把 对 sa 的 访问 授权 给 B， 因 此 已 经 递增 了 sa 的 file 结构 中 的 
ASW. BAR AEA RI sb 的 接收 队列 中 , 所 以 A 的 sendmsg( HEEL RDI], nf 
fe, BAFE sb 上 接收 报 文 ， 所 以 该 报 文 还 在 sb 的 接收 队列 中 等 待 被 接收 ， 对 插口 sa 的 访 
问 授权 还 在 “飞行 ”中 。 

Q) Beat, A 通过 close( ) 关 闭 sa。 内 核 递 碱 sa 的 file 结构 中 的 芯 享 计数 ， 但 是 由 于 在 递减 前 的 计 
数 为 2， 所 以 递减 后 并 未 到 达 0。 因 此 ， 系 统 调用 close( ) 至 此 就 完成 了 ， 并 未 对 sa 执行 
sock_close( )。 可 是 ， 进 程 A 却 从 此 失去 了 与 sa 的 联系 。 
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(3) B 没有 从 sb BGR, 但 是 却 关 闭 了 sb。 由 丁 在 此 之 前 sb 的 file 结构 中 的 共享 计数 为 1， 所 
以 递减 后 达到 了 0， 因 此 内 核对 sb 执行 sock_close( )。 在 执行 sock_close( ) 的 过 程 中 ， 内 核对 
sb 接收 队列 中 的 每 个 报 文 都 执行 kfree_skb( )。 当 对 上 述 由 A 发 出 的 都 个 报 文 执行 kfree_skb( ) 
时 ， 在 scm destroy ) 中 会 对 sa 的 file 结构 调用 fput( )。 这 时 候 ，sa 的 file 结构 的 共享 计数 就 
变 成 了 0， 从 而 引起 sock close( ) 对 sa 的 执行 而 将 其 最 终 关闭 撤销 了 。 最 后 ，sb 插口 本 身 也 
最 终 地 关闭 、 撤 销 了 。 

当然 ， 如 果 B BRT EPRI, MSA B 就 成 了 sa 的 惟一 用 户 。 最 后 B 终究 要 关闭 sa， 那 时 sa 也 
最 终 得 到 关闭 和 撤销 。 插口 的 sa 和 sb 之 闻 的 这 种 关系 可 以 推广 到 更 多 个 插口 而 形成 一 条 链 , 但 是 最 终 
这 条 链 中 的 所 有 播 口 都 能 正常 地 关闭 和 撤销 。 所 以 ， 这 个 情景 没有 什么 问题 。 

再 来 看 第 二 个 情景 : 

(1) A 通过 sa 发 送 一 个 报 文 到 sb, 把 对 sa 的 访问 授权 给 Bo 该 报 文 已 经 挂 入 到 sb 的 接收 队列 中 ， 

但 尚未 被 接收 ， 所 以 对 sa 的 访问 授权 还 在 “飞行 ”中 。 

(2) B 也 通过 sb 发 送 -个 报 文 到 sa， 把 对 sb 的 访问 授权 给 A。 同 样 地 ， 该 报 文 已 经 持 入 全 sa 的 

接收 队列 中 ， 但 尚未 被 接收 ， 所 以 对 sb 的 访问 授权 也 还 在 “飞行 ”中 。 

Q) A 通过 close( ) 关 闭 sa, 但 是 因 对 sa 的 共享 计数 递减 后 未 达到 0 而 不 能 对 sa 执行 sock_close( )， 

可 是 进程 A SHG sa 之 间 的 联系 却 己 经 切断 了 。 

(4) B 也 通过 close( ) 关 闭 sb。 同 样 地 ， 央 对 sb 的 共享 计数 递减 后 未 达到 0 而 个 能 对 sb 执行 

sock_close( )， 可 是 进程 B 与 插口 sb 之 间 的 联系 也 已 经 切断 了 。 

如 果 不 采取 措施 的 话 ， 那 么 A 发 出 的 报 文 就 会 永远 留 在 sb 的 接收 队列 中 ， 而 B 发 出 的 报 文 则 会 
KRME sa 的 接收 队列 中 。 两 个 插 屿 的 共享 计数 都 是 1， 却 没有 一 个 进程 能 访问 到 这 两 个 插口 的 任何 
一 个 。 插 口 本 身 是 不 能 “生活 自理 ”的 ， 它 自己 不 会 关闭 和 搬 销 自己 。 于 是 ， 这 两 个 插口 ， 也 就 是 有 
关 的 数据 结构 ， 连 同 接收 队列 中 的 所 有 报 文 都 已 成 了 “废料 ” 但 却 要 永远 占 着 位 置 不 放 。 同 样 ， 择 口 
sa 和 sb 之 间 的 这 种 关系 也 可 以 推广 到 更 多 个 插口 。 如 果 说 在 前 一 种 情景 所 涉及 的 插口 构成 “个 链 的 话 ， 
那么 在 这 个 情景 中 所 构成 的 是 一 个 坏 ， 而 区 唱 也 正在 于 此 。 这 种 现象 与 “ 死 锁 ” 的 表现 虽然 不 同 ， 原 
FEA St FOIE AY 

对 这 一 类 问题 的 对 策 无 非 是 “ 防 ” 与 “化 ”两 个 学 。 所 谓 “ 防 ”就 是 防止 这 种 现象 的 发 生 ; 而 “化 ” 
则 普 先 杰 能 检测 到 这 种 现象 的 发 生 , 然后 就 来 化 解 。 其 体 到 上 述 问 题 ,“ 防 ”是 很 难 的 , 所 以 只 好 在 “化 ” 
字 上 做 文章 。 为 此 目的 ， 内 核 中 设计 了 一 个 专门 用 来 解决 这 个 问题 的 “废料 收集 ”机 制 ， 上 县 体 就 古 由 
前 面 unix_release_sock( ) 代 码 中 426 行 处 调用 的 unix. ge ) 实 现 的 。 这 个 函数 的 代码 在 net/unix/garbage.c 
中 ， 我 们 分 段 阅 读 : 


[sys_close( ) > filp close( ) > fput( ) > sock. close( ) > sock. release( ) > unix release( ) > unix release, sock( ) 
»unix gc()] 


166 /* The external entry point: unix gc( ) */ 


167 

168 void unix gc(void) 

169 { 

170 static DECLARE MUTEX (unix gc sem); 
171 int 1; 

172 unix socket *s; 

173 struct sk buff head hitlist; 


dH. 
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struct sk buff *skb; 


/* 
* Avoid a recursive GC. 


*/ 


if (down trylock (&unix gc sem)) 
return; 


read lock(&unix table lock): 


forall unix sockets(i, s) 
{ 
s->protinfo. af_unix. gc_tree-GC ORPHAN: 
} 
/* 
* Everything is now marked 


*/ 


/* Invariant to be maintained: 
- everything unmarked is either: 
-— (a) on the stack, or 
-- (b) has all of its children unmarked 
~ everything on the stack is always unmarked 
- nothing is ever pushed onto the stack twice, because: 
—- nothing previously unmarked is ever pushed on the stack 


*/ 


/* 
* Push root set 


*/ 


forall unix sockets(i, s) 


{ 
/水 
* If all instances of the descriptor are not 
* in flight we are in use 
*/ 
if(s-^socket && s-^socket-^filo && 
file count (s—>socket—>filc)>atomic read(&s—^protinfo.af unix. inflight)) 
maybe unmark and push(s); 


“废料 ”收集 的 过 程 是 不 容许 两 个 进程 同时 进行 的 ， 所 以 要 通过 内 核 信号 量 unix gc sem 把 它 保 


护 起 来 。 男 一 方面 ， 在 这 个 过 程 中 要 扫描 和 处 理 杂 凌 表 unix_socket_table[ ] 中 的 所 有 队列 ， 所 以 在 此 期 
间 也 不 窜 许 为 作 何 其 他 日 的 来 变动 这 些 队 列 ， 内 此 还 要 将 整个 unix_socket_table[ ] 加 上 锁 。 代 码 中 的 
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forall unix socket( ) 是 个 宏 定 义 ， 其 定义 在 include/linux/af_unix.h F: 


16 #define forall unix sockets(i, s) \ 
17 for (i=0; i<-UNIX HASH SIZE; i++) \ 
18 for (s-unix socket tablelil; s; s=s—>next) 


显然 ， 这 是 针对 杂凑 表 中 所 有 的 队列 ， 扫 措 队 刻 中 的 所 有 sock 结构 。 那 么 ， 扫 描 这 些 sock 结构 十 
HAS? 第 一 趟 扫描 时 把 所 有 的 sock 结构 都 标志 成 GC. ORPHAN. hate UL, Sea BT radii Ol ap ct 
经 成 了 前 述 “ 生 活 不 能 自理 ”的 “孤儿 ” Unix 域 插 口 的 sock 结构 中 专 为 废料 收集 而 设置 了 一 个 指针 
profile.af_unix.gc_tree。 只 有 Unix 域 插口 才 支 持 对 已 打开 文件 的 授权 ， 所 以 只 有 Unix RO AIR 
料 收集 的 问题 。 常 数 GC_ORPHAN 的 定义 也 在 garbage.c P: 


85 /* Internal data structures and random procedures: */ 

86 

87  fidefine GC HEAD ((unix socket *) (-1)) 

88 . üdefine GC ORPHAN — ((unix socket *) (-3)) 

89 

90 static unix socket *gc current-GC HEAD; /* stack of objects to mark */ 
91 

92 atomic_t unix tot inflight = ATOMIC INIT(0) ; 


这 里 我 们 同时 列 出 了 其 他 几 个 定义 。 其 中 unix tot inflight 就 是 当前 正在 “飞行 ”中 的 已 打开 文件 
访问 授权 的 个 数 。 和 出 指针 gc current 则 在 废料 收集 的 过 程 中 用 来 构筑 一 个 “后 进 先 出 ”队列 。 

顺 使 提 一 下 ， 我 们 是 在 函数 unix release sock( ) 的 末尾 处 调用 unix ge( ) 的 。 此 时 我 们 要 关闭 并 撤 
销 的 插口 本 身 己 经 与 杂凑 表 无 关 ， 它 的 sock 结构 仁 刚 进入 unix release sock( ) 时 就 已 经 通过 
unix remove. socket( ) 从 杂凑 表 的 队列 中 摘除 了 。 事 实 上 ,“ 瞩 料 收 集 ” 与 止 欲 撤销 的 播 口 本 身 无 关 ， 只 
不 过 是 乘机 让 和 它 承 担 一 点 义务 ， 作 出 :点 贡献 而 已 。 

第 一 趟 扫描 将 所 有 的 插口 都 假定 为 “孤儿 ”， 当然 不 见得 就 符合 事实 ， 所 以 第 二 趟 扫描 就 此 来 加 以 
甄别 了 。 根 据 什 么 准则 来 甄别 呢 ? 那 就 是 比较 揪 口 的 file 结构 中 的 共享 计数 和 sock 结构 中 的 另 一 个 计 
数 器 protoinfo.af_unix.inlight。 我 们 以 前 看 到 过 ， 当 将 对 ~ 个 揪 门 的 访问 授权 通过 sendmsg( RIAA A 
一 个 进程 时 ， 要 调用 unix_inflight( ) 递 增 该 插口 的 sock 结构 中 的 这 个 计数 器 ， 以 及 全 局 性 的 计数 器 
unix tot infliight， 而 在 对 方 接收 了 这 个 报 文 时 则 时 调 用 unix_notinflight( ) 递 减 这 两 个 计数 器 。 当 然 ， 对 
插口 的 file 结构 中 的 共享 计数 也 要 作 类 似 的 处 理 。 刀 果 我 们 比较 这 两 个 计数 器 的 大 小 ， 则 可 以 得 到 如 
下 的 结论 ; 

(1) 文件 共享 计数 > 授权 报 文 计数 ， 正 常 。 说 明 除 正在 “飞行 ”中 的 授权 报 文 外 至 少 还 有 一 个 

用 户 ， 而 这 个 用 户 必然 是 一 个 进程 。 所 以 ， 这 个 插口 不 是 “孤儿 ”。 
(2) 文件 共享 计数 = 授权 报 文 计数 : 不 正常 。 这 个 插口 已 经 没有 真 焉 意义 上 的 “用 彤 ”了 ， 所 
以 可 能 是 “孤儿 ”。 

(3) 文件 共享 计数 < 授权 报 文 计数 : 不 可 能 发 生 。 

在 第 二 趟 扫描 中 ， 凡 遇 正 常 的 sock 结构 就 通过 其 指针 protinfo.af_unix.gc_tree 将 其 链 入 到 队列 
gc cument 的 前 部 , 或 者 说 将 其 推 入 “堆栈 ”gc_current。 实 现 这 -操作 的 水 数 代 码 如 下 ( 风 garbage.c) : 


[sys_close( ) > filp_close( ) > fput( ) > sock_close( ) > sock_release( ) > unix release( ) > unix release sock() 
. H3 . 
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»unix gc()» maybe unmark and push( )] 


156 extern inline void maybe unmark and push(unix socket *x) 


157 { 

158 if (x->protinfo. af_unix. gc_tree != GC ORPHAN) 
159 return; 

160 sock_hold(x) ; 

161 x »protinfo.af unix.gc tree = gc current; 

162 gc current = x; 

163 } 


注意 ， 将 一 个 sock 结构 链 入 到 gc current 队列 中 ， 并 不 意味 着 这 个 结构 就 脱离 了 杂凑 表 
unix_socket_table[ ] 中 的 队列 ，sock 结构 可 以 通过 不 同 的 指针 链 入 不 同 的 队列 。 

这 样 ， 第 二 趟 扫描 以 后 , 凡是 其 指针 protinfo.af_unix.gc_tree 仍 为 GC_ORPHAN 的 插口 很 串 能 就 是 
"JUL" f. BÆ, BIDAR RE ATA IRSA Y "SUL. 因为 这 实际 上 取决 于 授权 的 对 
Z, 更 确切 地 说 是 接收 授权 报 文 的 插 凯 。 以 上 面 所 举例 子 中 的 插 门 sa 为 例 。 对 sa 的 访问 授权 有 可 能 已 
经 通过 多 个 报 文 发 送 到 了 多 个 插 岂 ,然后 A 关闭 了 sa。 只 此 有 一 个 对 访问 sa 的 授权 报 文 是 在 一 个 “下 
常 ”插口 的 接收 队 麟 中 ,那么 这 个 报 文 环 有 希望 被 某 个 进程 接收 ， 从 而 使 sa 又 有 了 真 止 意义 上 的 用 户 ， 
那个 进程 自 会 负 起 最 后 关闭 并 撤销 sa 的 责任 。 所 以 ， 还 此 进一步 台 别 ， 这 一 次 是 检 但 所 有 “正常 ” 揪 
口 的 接收 队列 中 的 每 一 个 报 文 ， 而 所 有 “正常 ”插口 的 sock 结构 都 已 经 在 队列 gc current 中 了 。 

继续 看 unix_ge 的 代码 ， 


[sys close( ) > filp_close( ) > fput( ) > sock, close( ) > sock release( ) > unix, release( ) > nix_release_sock( ) 
» unix, gc( )] 


217 /* 

218 * Mark phase 

219 */ 

220 

221 while (lempty stack( )) 

222 { 

223 unix socket *x = pop, stack( ); 

224 unix socket *sk; 

225 

226 spin lock (&x->receive queue. lock); 
227 skb=skb peek (&x->receive queue); 

228 

229 /* 

230 * Loop through all but first born 
231 */ 

232 

233 while(skb && skb !- (struct sk buff *)&x— receive queue) 
234 { 

235 f* 

236 * Do we have file descriptors ? 
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237 */ 

238 if (UNIXCB (skb). £p) 

239 { 

240 /* 

241 * Process the descriptors of this socket 
242 */ 

243 int nfd-UNIXCB (skb). fp-^count ; 

244 struct file **fp = UNIXCB (skb). fp->fp; 
245 while (nfd--) 

246 { 

247 /* 

248 * Get the socket the fd matches if 
249 * it indeed does so 

250 */ 

251 if ((sk=unix get socket Gkfp41)) !=NULL) 
252 { 

253 maybe unmark and push (sk) ; 

254 } 

255 } 

256 ] 

257 /* We have to scan not-yet-accepted ones too */ 
258 if (x->state == TCP LISTEN) { 

259 maybe unmark and push(skb >sk) ; 

260 } 

261 skb=skb~>next ; 

262 } 

263 spin unlock (&x—>receive queue. lock) ; 

264 sock put (x); 

265 } 

266 


我 们 把 这 一 段 代 码 贸 给 读者 自己 阅读 。 这 里 的 pop_stack( ) 从 队列 gc. current 的 前 部 摘 下 一 个 sock 
结构 《所 以 是 “后 进 先 出 ”)， 而 empty_stack( ) 则 测试 该 队列 的 长 度 ， 函 数 skb_peek( ) 从 一 个 接收 队列 
中 取 第 一 个 报 文 〈 即 sk buff 结构 的 指针 ， 但 并 不 将 其 摘 下 。 

此 处 给 出 pop_stack( ) 等 的 代码 如 下 《garbage.c): 


140 /* 

141 * Garbage Collector Support Functions 
142 */ 

143 

144 extern inline unix socket *pop. stack (void) 
M5. { 

146 unix socket *p-gc current; 

147 gc current ~ p->protinfo. af_unix. gc tree; 
148 return p; 

149 } 

150 


: H5 . 





Linux 内 核 源 代码 情景 分 析 (下 册 》 


151 extern inline int empty_stack (void) 


152 { 
153 return gc current == GC HEAD; 
154 ] 


TER, maybe unmark and push( ) 对 于 已 经 进入 gc. current 队列 的 sock 结构 不 起 作用 ( 见 159 47). 

er Pa AEs. HIS GC ORPHAN 的 插口 就 最 后 定性 为 “孤儿 ”了 。 对 这 些 “PUL” 
怎么 办 呢 ? 扫 描 其 接收 队列 中 的 所 有 报 文 ， 凡 发 现 戟 有 访问 授权 的 报 文 就 将 其 从 接收 队列 中 摘 下 来 集 
中 到 一 个 临时 的 队列 hitlist 中 ， 最 后 对 这 些 报 文 执行 kfree_skb( )， 其 代码 我 们 已 在 前 面 看 到 过 。 注 意 
这 里 只 要 对 载 有 访问 授权 的 报 文 调用 kfree_skb( ) 就 行 了 ， 对 于 已 定性 为 “孤儿 ”的 sock 结构 并 不 需要 
特地 加 以 处 理 ， 因 为 这 一 定 已 经 隐 含 在 对 菜 个 报 文 的 kfree_skb( PHT. BF “FUL” sock 结构 的 接收 
队列 中 的 其 他 报 文 ， 也 自 会 得 到 释放 请 读者 想 一 下 ， 为 什么 。) 

最 后 给 出 unix gc 代码 的 余下 部 分 : 


[sys_close( ) > filp close( ) > fput( ) > sock_close( ) > sock, release( ) > unix release( ) > nix release sock( ) 
> unix gc()] 


267 skb queue head init(&hitlist): 

268 

269 forall unix sockets(i, s) 

210 { 

271 if (s->protinfo. af_unix. ge_tree =~ GC ORPHAN) 
272 { 

273 struct sk_buff *nextsk; 

274 spin lock(&s-^receive queue. lock); 

215 skb-skb peek(&s-^receive queue); 

276 while(skb && skb != (struct sk buff *)&s~>receive queue) 
211 { 

278 nextsk=skb->next; 

279 /* 

280 * Do we have file descriptors ? 
281 */ 

282 if (UNLXCB (skb). fp) 

283 l 

284 __ skb unlink(skb, skb-^lisi); 
285 skb queue tail(&hitlist, skb) ; 
286 } 

287 skb=nex tsk; 

288 } 

289 spin unlock {&s—>receive queue. lock) : 
290 } 

291 s-»protinfo.af unix.gc tree = GC ORPHAN; 
292 } 

293 read unlock(&unix table lock); 

294 

295 /水 
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296 * Here we are. Hitlist is filled. Die. 

297 */ 

298 

299 while ((skb-  skb dequeue(&hitlist))!-NULL) { 
300 kfree skb(skb); 

301 } 

302 

303 up (unix gc sem): 

304  ] 


如 前 所 述 ， 对 unix gc( ) 的 调用 其 实 并 不 是 非得 放 在 unix, release. sock( ) 中 。 例 如 ， 完 全 可 以 周期 
性 地 调用 这 个 函数 ) 但 是 ， 放 在 unix_release_sock( ) 的 末尾 还 是 比较 合 返 的 。 也 许 读 者 会 问 ， 为 什么 不 
把 对 这 个 问题 的 处 理 放 在 系统 调用 close( ) 的 开头 呢 ? 例如 ， 在 递 降 了 file 结构 中 的 共享 计数 以 后 ， 如 
果 没 有 达到 0 就 与 sock 结构 中 的 授权 计数 比较 -下 ， 这 样 马 上 :就 可 以 知道 是 省 有 本 插口 发 生 的 授权 报 
文正 在 “飞行 ”中 这样 不 是 更 有 效 吗 ? 问题 在 十 ， 文 件 系 统 操作 界面 的 函数 都 是 通用 的 ， 必 须 适 用 
于 所 有 不 同类 型 的 文件 ， 而 插口 只 是 其 中 的 一 种 。 以 关闭 文件 为 例 ， 内 核 中 由 sys_close( ) 调 用 
filp_close( )， 再 由 filp_close( ) 调 用 fput( )， 所 有 这 些 函数 部 上 只是 在 vis 层 对 抽象 的 文件 进行 操作 ， 根 本 
就 不 知道 所 操作 的 到 底 是 个 什么 样 的 文件 ， 所 以 显然 是 不 合适 的 。 


719 ”其 他 


如 前 所 述 ,， “插口 “ 机 制 有 两 个 用 户 程序 界面 ，- :个 是 为 插口 专 设 的 ， 另 一 个 就 是 通用 的 文件 操作 
界面 。 这 样 ， 即 使 只 考虑 Unix 威 的 插口 ， 内 核 中 与 之 有 关 的 肯 数 就 自然 更 多 一 些 了 。 我 们 已 经 把 主要 
的 和 比较 复杂 的 Unix 域 的 插口 操作 及 其 代码 作 了 详细 介绍 , 但 是 限于 篇 幅 我 们 只 好 把 剩 下 的 一 些 代码 
留 给 读者 自己 阅读 了 。 

从 插口 操作 界面 ， 也 就 是 系统 调用 socketcall( ) 在 内 核 中 的 入 口 sys_socketcall( ) 的 角度 来 看 ， 留 下 
来 的 有 这 么 一 些 ，sys_getsockname( ). sys getpeername( ). sys socketpair( ) sys shutdown( ). 
sys. getsockopt( ) 以 及 sys. setsockopt( )。 这 些 函 数 也 葛 通 过 数据 结构 unix dgram ops 或 unix. stream ops 
跳 转 到 unix 域 插 口 对 这 些 操 作 的 实现 ， 分 别 为 unix_getname( ). unix socketpair( ). unix shutdown( ). 
BU sys. getpeername( ) 与 sys_getsockname( ) 的 个 同 之 处 在 Ted ERO AY aus, rogue BO 
方 插口 的 地 址 〔〈 限 平 已 调用 connect( ) 以 后 )。 所 以 最 终 都 十 由 sys getname( ) 完 成 的 。 另 外 ， 
sys. getsockopt( ) 和 sys_setsockopt( ) 二 者 都 是 为 网 络 环境 设计 的 ， 因 为 在 具体 的 网 络 通信 规程 中 常常 有 
许多 可 选项 要 设 贤 ， 而 在 unix 域 中 则 不 存在 这 个 问题 。 所 以 ， 在 unix dgram ops 和 unix stream ops 
两 个 结构 中 ， 有 关 的 函数 指针 为 sock_no_getsockopt( ) 和 sock_no_setsockopt( )， 这 些 函 数 都 只 WBM 
个 出 错 代 码 一 EOPNOTSUPP， 表 未 系统 不 支持 这 些 操作 。 

总 的 来 说 ， 剩 下 的 这 些 函 数 部 是 很 简单 、 很 言 截 了 当 的 。 例 如 ，unix_socketpair( ) 的 代码 为 《区 


af_unix.c): 
[sys. socketcall( ) > sys, socketpair( ) > unix_socketpair( )] 
1015 static int unix socketpair(struct socket *socka, struct socket *sockb) 
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1016 { 

1017 struct sock *ska-socka-^sk, *skb = Sockb->sk， 

1018 

1019 /* Join our sockets back to back */ 

1020 sock hold(ska) ; 

1021 sock hold(skb) : 

1022 unix_peer (ska) =skb; 

1023 unix_peer (skb) =ska; 

1024 ska~>peercred. pid = skb~>peercred. pid = current->pid; 
1025 ska~>peercred. uid = skb->peercred. uid = current—>euid: 
1026 ska~>peercred. gid = skb->peercred. gid = current-^egid; 
1027 

1028 if (ska-^?type != SOCK DGRAM) 

1029 { 

1030 ska->state=TCP_ ESTABLISHED; 

1031 skb->state=TCP_ESTABLISHED: 

1032 Socka-^state-SS CONNECTED; 

1033 Sockb-»5state-SS CONNECTED; 

1034 } 

1035 return 0; 

1036 } 


参数 socka 和 sockb 为 已 经 在 sys_socketpair( ) 中 通过 sock_create( ) 创 建 好 的 两 个 socket 数据 结 构 。 
这 里 的 1022 行 和 1023 行使 它们 的 sock 结构 各 自 指 向 对 方 ， 如 果 是 “有 连接 ”插口 则 还 要 设置 好 各 自 
的 有 限 状 态 以 太 插 口 的 状态 。 

男 一 方 惫 ， 从 文件 系统 的 操作 界面 来 看 ， 则 还 有 这 么 儿 个 函数 : sock lseek( ). sock poll( ). 
sock ioctl(). sock mmap( ) 以 及 sock fasync( )。 其 中 sock Iseek( ) 只 是 返 同一 个 出错 代码 ， 因 为 插口 并 
不 文 持 lseek( )。 函 数 sock_poll( ) 用 于 系统 调用 select( ); sock_ioctl() 用 于 系统 调用 ioctl( )。 相 应 的 unix 
域 函数 为 unix_poll( )、datagram_poll( ) 以 及 unix_ioctl( )。 读 者 可 以 结合 “文件 系统 ”和 “字符 设备 驱 
动 ” 这 两 章 把 它们 恋 懂 。 操 作 sock_mmap( ) 在 Unix 域 中 的 实现 为 sock_no_mmap( )， 就 是 说 Unix Bid 
门 并 不 文 持 mmap( )。 最 后 ，sock_fasync( ) 用 来 让 插 门 在 伺 当 有 报 交 (包括 连接 请 求 )》 到 达 叶 就 向 若干 
进程 及 出 IOSIG 信号 ,从 而 实 现 对 报 文 的 异步 接收 ,这 个 函数 放 没 有 特别 针对 Unix 域 插口 的 底层 操作 ， 
而 是 遂 用 于 所 有 插口 。 我 们 在 讲述 sock_close( ) 时 已 经 列 出 了 sock. fasync ) 的 代码 ， 但 是 只 讲 了 当 调 
用 参数 on 为 0 时 ， 也 就 是 要 停止 异步 接收 时 的 那 部 分 代码 。 不 过 ， 读 懂 了 个 方向 的 操作 (停止 异步 
BOBO 的 代码 以 后 ， 里 读 懂 其 相反 方向 《启动 异步 接收 ) 的 代码 应 该 是 比较 容易 的 了 。 

最 后 ， 我 们 建议 读者 把 sock 数据 结构 《以 及 sk. buf 的 定义 打印 出 来 ， 再 根据 我 们 讲 到 的 内 容 ， 
试 着 为 数据 结构 中 的 每 个 字段 〈 成 分 ) (只 要 是 凯 经 讲 色 过 的 ) 的 用 途 和 作用 加 上 注释 。 如 果 你 觉得 很 
多 字段 的 用 途 和 作用 实在 不 是 二 吉 两 诸 能 够 讲 清 的 ， 你 就 明白 了 为 什么 我 们 没有 在 一 开始 就 列举 该 数 
据 结 怕 各 个 字段 的 作用 了 。 在 这 种 情况 下 ， 你 不 妨 在 打印 的 清单 上 写 上 “ 见 X 义 页 ”等 字样 ， 以 备 日 
后 查阅 。 
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8.1 概述 


设备 驱动 在 系统 中 的 重要 地 位 是 无 需 多 加 说 明 的 ， 计 算 机 最 基本 的 三 个 物质 基 侧 就 是 CPU、 内 存 
以 及 输入 /输出 (LO) 设备。 严格 地 说 ， 离 开 了 对 设备 的 操作 ， 即 输入 /输出 操作 ， 计 算 机 本 身 也 就 失 
去 了 意义 。 相 比 之 十 ， 文 件 系统 的 存在 只 不 过 是 使 对 设备 的 操作 更 为 方便 、 更 为 有 效 、 更 有 组 织 、 岗 
接近 人 类 的 思维 方式 而 己 。 所 以 ， 文 件 操作 是 对 设备 操作 的 纠 织 与 抽象 ， 而 设备 操作 则 外 对 文件 操作 
的 最 终 实现 。 
Unix 抬 作 系统 从 一 开始 就 将 所 有 的 设备 《而 不 仅 是 磁卡 上 的 文件 ) 全 都 看 成 文件 ， 都 纳入 义 件 系 
统 的 范畴 ， 都 通过 文件 操作 的 界面 进行 操作 。 这 就 意味 着 : 
e 每 -一 项 设备 都 至 少 出 文 件 系统 中 的 一 个 文件 〈 更 确切 地 说 是 节点 ) 代表 ， 因 而 都 有 :个 “ 文 
件 名 ”。 每 个 这 样 的 “设备 文件 ”都 惟 :地 确定 了 系统 中 的 “项 设备 。 应 用 程序 通过 设备 的 文 
件 名 寻访 具体 的 设备 ， 侧 设备 则 像 普 通 文 件 一 样 受到 文件 系统 访问 权限 控制 机 制 的 保护 。 

e 应 用 程序 通常 可 以 道 过 系统 调用 open( ) “打开 ” 设 各 文件 ， 建 立 起 与 且 标 设备 的 连接 ， 或 日 
“上 下 文 ”。 代 老 着 该 设备 的 文件 节点 中 记载 着 建立 这 种 连接 所 需 的 信和 总 。 对 于 执行 该 应 用 程 
序 的 进程 而 这， 建立 起 的 连接 就 胡 现 为 一 个 已 打开 文件 。 

e ”打开 了 代表 着 目标 设备 的 文件 , 即 建立 起 与 设备 的 连接 以 后 ,就 可 以 通过 read( ).write( )、ioctl( ) 
等 常规 的 文件 操作 对 目标 设备 进行 操作 。 从 应 用 程序 的 角度 看 ， 设 备 文件 逻辑 上 的 空间 是 个 
线 件 空间 。 从 这 个 逻辑 空间 到 具体 设备 的 物理 空间 的 映射 则 由 内 核 提 供 ， 并 划分 成 文件 操作 
与 没 备 驱 动 两 个 层次 。 

这 样 ， 对 于 个 具体 的 设备 米 说 ， 文 件 操作 和 设备 驱动 就 成 为 同一 事物 的 不 同 层次 ， 而 不 是 五 相 
独立 或 平行 的 两 个 概念 。 从 这 种 观点 和 结构 模型 出 发 ，“_ 般 而 言 ， 至 少 可 以 在 概念 上 把 一 个 系统 划分 
成 应 用 、 文 件 系 统 以 及 设备 驱动 这 么 三 个 层次 。 这 不 仪 适用 十 Unix， 也 可 以 运用 到 其 他 的 操作 系统 ， 
尽管 具体 的 划分 和 安排 可 以 不 同 。 例 如 ， 通 常 文件 系统 层 和 设备 驱动 层 都 在 内 核 中 ， 但 是 也 有 的 系统 
把 文件 系统 放 在 内 核 外 而 作为 应 用 层 的 一 个 进程 。 表 面 上 看 来 《从 进程 的 角度 〉 此 时 文件 系统 与 应 用 
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程序 世相 平行 ， 但 是 如 果 考 察 对 一 只 体 文件 的 操作 过 程 ， 就 可 以 看 出 用 来 实现 文件 系统 的 进 称 实 际 上 
成 了 应 用 程序 与 内 核 之 间 的 一 个 附加 的 层次 。 有 些 系 统 只 提供 设备 驱动 而 不 提供 文件 系统 ， 由 应 用 程 
序 在 进程 内 部 实现 其 自己 的 文件 系统 (例如 通过 些 库 函数 调用 ). 显然 这 只 是 文件 系统 层 的 物理 位 置 不 
同 ， 而 并 不 改变 整个 结构 模型 的 层次 结构 。 邯 使 有 些 特 铁 的 应 用 程序 根本 不 使 用 文件 系统 ， 而 直接 对 
设备 最 动 层 操作 ， 那 也 可 以 认为 只 是 一 种 特例 ， 即 此 时 的 文件 系统 是 完全 “透明 ”的 。 还 有 些 操作 系 
统 ， 特 别 是 半期 的 操作 系统 ， 把 设备 驱动 做 成 与 文件 系统 平行 ， 有 独立 的 命名 室 问 以 及 一 僚 独 立 的 操 
作 (系统 调用 )， 让 应 用 层 直 接 与 设备 驱动 打交道 。 表面 上 看 来 这 是 完全 不 同 的 结构 模型 ， 但 是 如 果 作 更 
深入 的 思考 就 可 以 领悟 到 : 实际 上 这 只 不 过 是 实现 方法 上 的 不 同 ， 只 不 过 是 为 设备 驱动 保留 了 更 多 的 
特殊 性 ， 对 设备 少 作 了 其 些 抽象 而 已 ， 而 采用 套 独 立 的、 专用 的 操作 则 有 损 其 灵活 性 。Unix 的 设计 
者 下 是 认识 到 了 这 一 点 ， 而 在 Unix 中 首先 明确 地 把 设备 驱动 纳入 了 文件 系统 。 所 以 ， 许 多 系统 的 外 观 
也 许 不 同 ， 但 想 如 果 加 以 仔细 考察 就 可 以 发 现实 际 上 说 到 底 还 是 同一 个 结构 模型 。 而 Unix( 和 Linux) 
的 文件 系统 ， 则 是 这 种 结构 模型 的 典型 实现 ， 也 许可 以 说 是 最 白 然 的 实现 。 本 书 上 册 第 5 章 "XR 
统 ”的 文件 系统 结构 图 (图 5.1》 就 反映 了 这 种 系统 结构 ， 其 文件 系统 层 和 设备 驱动 层 都 在 内 核 中 。 从 
这 个 意义 上 说 ， 本 书 第 5 章 也 许 不 应 该 叫 “ 文 件 系统 ” 而 应 更 确切 地 称 为 “磁盘 文件 系统 ”或 “普通 
文件 系统 ”。 所 以 说 ,“ 文 件 系 统 ” 这 个 词 的 含义 是 很 模糊 的 。 

但 是 ， 话 嚼 如 此 ， 对 十 不 同 的 设备 其 文件 系统 层 的 “厚度 ” 却 有 所 不 同 。 对 丁 像 磁盘 这 样 结构 性 
很 强 ， 并 卫 其 内 容 需 要 进 “ 步 加 以 组 织 和 抽象 的 设备 来 说 ， 其 文件 系统 很 “ 厚 ” 很 “ 重 ” 这 一 点 读者 
在 疯 读 “文件 系统 ”一 章 时 起 必 已 有 所 体会 。 磁 盘 设 备 的 复杂 性 来 自 两 个 方面 。 一 方面 是 介质 本 身 的 
结构 ， 如 “磁道 ”“ 柱 面 "、“ 户 区 ”以 及 抽象 意义 上 的 “记录 块 ”， 另 方面 是 在 “记录 块 ” 基 础 上 的 
义 一 层 组 织 和 抽象 ， 即 “磁盘 文件 ”。 这样 ， 在 物理 介质 上 的 第 一 层 抽象 使 操作 者 不 必 关 心 恋 / 写 的 物 
BERRE “个 磁道 ， 哪 一 个 户 区 : 而 第 二 层 抽象 则 使 操作 者 不 必 关 心 读 / 写 的 内 容 在 哪 .. 个 逻辑 
“记录 块 ”中 。 很 自然 地 ， 我 们 把 第 层 抽 象 轨 入 设备 驱动 层 ， 而 第 二 层 抽 象 则 归 入 文件 系统 层 。 但 
臣 ， 还 有 一 些 设备 ， 如 宁 符 终端 、 字 符 打 印 机 等 ， 则 由 于 本 身 并 没有 什么 结构 ， 甚 至 不 存在 存储 介质 ， 
因而 简单 得 多 。 对 寺 这 样 的 设备 ， 其 文件 系统 层 白 然 就 比较 “ 薄 ”， 其 至 近乎 “透明 "”。 不 光 是 文件 系 
统 层 比较 薄 ， 连 设备 最 动 层 也 可 能 很 简单 。 另 “方面 ， 即 使 是 对 于 磁盘 设备 ， 在 有 些 应 用 中 也 可 以 绕 
过 第 二 层 抽 象 而 简单 地 把 它 当 成 记录 块 “ 数 组 ” 也 就 是 忽 赂 由 这 些 记录 块 的 内 容 形 成 的 关连 和 组 织 ， 
使 原来 很 厚 的 文件 系统 层 变 得 很 薄 。 人 在 这 种 情况 下 ， 我 们 称 之 为 “原始 ”(raw) 设备 。 当 然 ， 物 理 上 
还 是 同一 个 设备 ， 只 不 过 是 “ 横 看 成 岭 侧 成 峰 ” 一 从 不 同 的 角度 看 问题 而 已 。 在 这 方面 ， 将 设备 驱 
动 纳 入 文件 系统 又 表现 出 其 优越 性 ， 内 为 对 同一 设备 的 不 同 驱动 方式 可 以 由 不 同 的 文件 来 代表 。 下 页 
FREU CE 8.1) 或 省 将 有 助 十 读者 的 理解 。 

在 这 个 水 意 疼 中 ， 处 十 应 岂 层 中 的 进程 通过 “打开 文件 号 ”fd 与 已 打开 文件 的 file 结构 相 联系 ， 
等 个 file 结构 代表 着 对 一 个 已 打开 文件 操作 的 上 下 文 。 通 过 各 个 上 下 文 ， 进 程 使 用 各 个 文件 的 线性 远 
钳 空 问 进行 文件 操作 。 对 于 普通 文件 ， 即 “ 伐 横 文件 ” 文件 的 逻辑 空间 在 文件 系统 层 内 掖 具体 文件 系 
统 的 结构 和 规划 映射 到 设备 的 线 忻 逻辑 空间 ， 然 后 在 设备 驱动 层 进一步 从 设备 的 逻 得 空间 映射 到 其 物 
理 空 间 。 这 样 ， 一 共 经 历 了 两 层 映 射 。 或 者 ， 也 本 以 反 过 来 说 ， 磁 盘 设 备 的 物理 空间 经 过 两 层 抽象 而 
成 为 普通 文件 的 线性 逻辑 空间 。 而 对 十 “设备 文件 ”， 则 文件 的 逻辑 空间 通常 直接 就 等 价 于 设备 的 逻辑 
空间 ， 所 以 在 文件 系统 层 就 不 需要 有 映射。 但 是 ， 也 有 些 设备 需 此 在 文 件 系统 层 中 有 一 些 简单 的 映射 。 
从 图 中 偿 可 以 看 出 ， 对 同一 个 设备 也 可 以 通过 不 同 的 文件 以 不 同 的 方式 来 操作 。 这 里 还 要 指出 ， 代 表 
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着 设备 文件 的 节点 都 要 通过 其 个 索引 节点 才能 寻访 ， 而 对 索引 节点 又 要 通过 一 些 日 录 节 点 才能 寻访 ， 
这 些 目录 节点 实质 上 相当 于 普通 文件 ， 所 以 在 打开 设备 文件 的 过 程 中 即 隐 念 着 对 普通 文件 的 操作 。 
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图 8.1 设备 驱动 分 层 结构 示意 图 


Unix( 以 及 Linux) 将 设备 分 成 两 大 类 。 一 类 是 像 磁 挫 那 样 以 记 求 块 或 “ 扇 区 ”为 单位 ， 成 块 进行 输 
入 /输出 的 设备 ， 称 为 “ 块 设备 ”为 一 类 是 像 键 得 那样 以 字符 〈( 字 节 ) 为 单位 ， 逐 个 进行 输入 /输出 的 
设备 ， 称 为 “字符 设备 ”。 文件 系统 通常 都 建立 在 块 设备 上 :， 但 是 也 并 尤 规定 说 看 字符 设备 土 就 不 可 以 
建 并 文件 系统 。 通 过 数 十 什 的 发 展 ， 块 设备 和 宁 符 没 备 之 间 的 界线 已 经 模糊 了 ， 但 还 是 沿用 着 这 样 的 
划分 。 两 类 设备 之 问 的 界线 之 所 以 变 得 模糊 ， -方面 是 由 十 传统 字符 设备 变 得 愈 米 愈 复 杂 了 ， 其 ” N 
面 是 出 现 了 一 些 既 像 是 块 设备 又 像 是 字符 设备 的 新 设备 。 例 如 ， 网 络 接 口 卜 践 是 这 样 的 设备 ， 说 它 是 
字符 设备 吧 ， 它 的 输入 /输出 却 总 有 结构 的 、 成 块 的 《〈 报 文 、 包 、 帧 》 说 它 是 块 设备 吧 ， 它 的 “ 块 ” 
又 不 是 国定 大 小 的 ， 大 到 数 百 甚 至 数 干 字 节 ， 小 到 儿 个 字 节 。 块 设备 与 字符 设备 还 有 个 区 唱 ， 那 就 是 
块 设备 的 介质 必须 是 存储 介质 ， 并 及 支持 “随机 访问 ”〈 对 指定 地 址 的 访问 内 而 系统 调用 Iseek( ) 对 
于 块 设备 是 不 可 缺少 的 操作 ;而 字符 设备 的 介质 则 一 般 部 是 传输 介质 ， - 般 只 支持 “顺序 访问 ”， 因 府 
lseek( ) 对 于 字符 设备 意义 不 大 。 从 这 个 意义 上 讲 ， 网 络 设备 当然 就 是 字符 设备 了 。 不 过 这 也 不 是 绝对 
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的 。 举 例 来 说 ， 存 Unix 系统 中 块 设备 都 有 对 应 的 “原始 设备 ”。 例如， 有 块 没 备 /devwhda， 则 必 有 另 一 
设备 /dev/rhda， 这 里 的 字符 “r” 表 示 “raw” 见 “原始 ”的 意思 。 原 始 设备 都 是 作为 字符 设备 对 待 的 ， 
虽然 它们 的 介质 仍 为 存储 介质 , 并 且 也 文 持 随机 访问 。《〈 在 Linux T, 不 青 为 块 设备 提供 原始 设备 文 件 ， 
因为 块 设备 在 安装 之 前 实际 上 就 相当 于 原始 状态 )。 所 以 ， 一 般 都 只 是 把 成 块 输入 /输出 并 且 打 算 在 上 
面 建立 普通 文件 系统 的 设备 才 称 为 “ 快 设备 ” 

对 设备 的 这 种 类 别 划分 并 不是 一 个 理论 问题 ， 市 是 个 技术 问题 。 为 什么 昵 ? 前 而 讲 过 ， 在 代表 着 
设备 的 文件 节点 中 记载 着 与 特定 设备 建立 连接 所 需 的 信息 。 这 种 信息 由 三 部 分 构成 : 第 部 分 是 文件 
(包括 设备 ) 的 类 型 ， 第 二 部 分 是 一 个 “ 土 设备 号 ”， 第 三 部 分 是 一 个 “次 设备 与 ”。 其 中 设备 类 型 和 
主 没 备 与 结合 在 :起 惟一 地 确定 了 设备 的 驱动 程序 及 其 界 | 钾 ， 而 次 设备 号 则 说 明日 标 设备 是 间 类 设备 
WAIL. HIM, BERR SAIN, BRERA EET RAMS, ALTER EW 
ESITA “in” (Pseudo TTY) 设备 。 这 样 的 安排 从 Unix BÍ] 5:38] — ELA ES, t T AERE 
又 不 宜 轻 易 变动 ， 所 以 每 项 设备 都 得 非 此 即 彼 ， 或 划 入 块 设备 ， 或 划 入 字符 设备 ， 尽 管 有 些 设 备 确实 
非 驴 非 马 。 

从 早期 Unix UR- -EWN 8 位 的 主 没 备 写 ， 这 就 把 块 设 备 和 字符 设备 的 种 类 都 限制 到 了 256 $, 
坝 在 已 经 感到 不 够 用 了 。 就 字符 设备 而 言 ， 在 Linux 源 代 码 的 Documentation/devices.txt 中 己 经 将 主 设 
备 号 分 配 到 了 194 号 。 男 一 方面 ， 从 早期 Unix 开始 就 把 所 有 的 设备 文件 〈 节 点 ) 部 放 企 /dev 日 录 中 ， 
使 这 个 目录 成 为 一 个 “平面 ”的 ， 而 不 是 树 状 的 有 层次 的 月 录 。 当 日 录 中 的 节点 数量 很 多 时 ， 就 会 使 
打开 这 些 文件 时 的 效率 受到 影响 。 而 且 ， 在 风格 上 也 与 文件 系统 中 其 他 的 部 分 不 一 狼 。 所 以 ， 人 们 提 
出 了 改进 的 方案 ， 就 是 把 设备 文件 都 放 在 一 个 树 状 的 特 冻 文件 系统 devfs 中 。 蜀 然 ， 这 种 新 的 方案 比 原 
来 的 要 好 ， 而 且 在 现 有 文件 系统 的 框架 中 也 很 容易 实现 。 但 是 ， 新 的 方案 必须 与 原 有 的 若 容 ， 使 已 有 
的 应 用 软件 可 以 继续 和 运行。 与 devfs 有 关 的 代码 都 化 fs/devfs 中 ,我 们 也 专门 写 了 一 节 加 以 介绍 。 丰 过 ， 
我 们 有 时 候 还 会 以 原来 半 面 结构 的 /dev 作为 实例 。 这 是 央 为 日 前 老 的 方案 还 占 着 主导 地 位 ， 机 理 也 比 
较 简 单 ， 肯 说 新 的 devfs 也 与 之 兼容 。 恋 者 可 以 在 理解 了 基于 主 / 次 设备 号 的 设备 驱动 以 后 再 结合 devfs 
一 节 加 深 理解 。 

时 使 一 项 设备 页 系 统 中 成 为 可 网 ， 成 为 应 用 程 六 可 以 访问 的 设备 ， 首 先 当然 是 要 在 文件 系统 中 有 
一 个 代表 此 项 设备 的 文件 节点 ， 这 是 通过 系统 调用 mknod( ) 实 现 的 。 可 是 ， 更 重要 的 是 在 设备 驰 动 层 
中 要 有 这 种 设备 的 驱动 程序 。 在 早期 的 操作 系统 中 《不仅 是 Unix)， 设 备 驱动 程序 都 静态 地 连接 人 在 内 核 
中 。 可 是 ， 把 所 有 串 能 的 设备 驱动 程序 者 连接 到 内 核 路 显然 是 不 现实 的 ， 寺 为 那样 会 使 内 核 的 体积 大 
到 不 合理 、 甚 至 根本 无 法 运行 的 程度 。 所 以 ， 通 常 者 为 最 终 用 户 提供 一 个 “系统 生成 ”的 工 共和 手段 ， 
让 用 户 根据 具体 的 需要 挑选 一 些 已 经 事先 编译 好 的 模块 , 同时 由 系统 牛 成 工具 对 以 高 级 语言 编写 的 “ 放 
备 表 ”加 以 修改 ， 企 表 中 加 入 相应 张 动 程序 的 上 数 指针 ， 然 后 加 以 编译 并 将 所 挑选 的 模块 与 内 核 连接 
在 一 起 。 

这 种 方式 给 用 户 带 来 了 很 多 不 便 ， 因 为 每 当 要 往 系 统 中 增加 或 更 换 一 人 种 设备 时 就 必须 丹 进行 “次 
系统 生成 。 同 时 ， 随 着 网 络 技术 的 发 展 ， 不 断 需 要 将 新 出 现 的 网 络 规 程 以 设备 驱动 的 形式 在 内 核 中 实 
现 ， 而 静态 连接 的 设备 驱动 程序 同样 为 内 核 在 这 方 击 的 功能 更 新 和 升级 带 米 不 便 。Unix 在 这 方面 的 不 
足 在 一 个 时 期 内 阳 碍 了 它 的 进步 普 及 。 相 比 之 下 ， 曾 经 在 世界 范围 内 得 到 广泛 采用 的 DOS 操作 系统 
虽然 简陋 ， 但 是 却 提供 了 一 种 手段 称 为 TSR (Terminate and Stay Resident)， 让 用 户 程序 可 以 动态 地 (在 
系统 运行 时 ) 把 一 段 可 执行 程序 “类 贴 ” 旬 操作 系统 上 ， 并 提供 了 系统 调 几 让 用户 程序 可 以 改变 中 断 向 
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E. CHA, TSR 给 系统 的 安全 性 还 来 了 极 大 的 问题 ， 而 有 旦 对 十 像 Unix 这 种 多 有 用户、 多 进 称 的 系统 它 根 
本 就 个 现实。 但 是 不 可 否认 这 对 于 DOS 以 及 Windows《〈 直 到 Windows 3.1) 的 普及 ， 刀 至 PC 的 普及 
起 了 相当 大 的 作用 。 因 为 正 是 由 于 这 样 , 许多 PC 蕉 容 机 和 外 部 设备 的 厂家 才能 随时 向 用 户 提 供 殉 加 新 
型 的 硬件 ， 同 时 提供 一 张 软 盘 让 几 户 动态 地 “安装 ”新 的 驱动 程序 。 

Unix 很 早 就 支持 所 请 “共享 库 程 序 ” 或 称 动态 连接 程序 库 ， 这 在 一 定 程 度 上 缓解 了 这 个 问题 ， 可 
是 并 不 能 从 根本 十 解决 问题 ， 因 为 动态 连接 的 库 程序 起 在 用 户 空 间 运 行 的 《DOS 根本 就 不 分 用 户 空间 
和 系统 空间 )。 确 实 ， 对 设备 的 许多 操作 可 以 在 用 户 空间 中 实现 ， 而 只 把 物理 的 输入 和 输出 留 给 内 核 。 
但 是 那样 来， 设备 鸳 动 程序 和 设备 之 间 的 结合 就 个 紧密 ， 从 出 使 效率 降低 其 至 根本 不 能 运转 。 男 一 
方面 ， 对 于 像 Unix( 以 及 Linux) 这 样 的 系统 ， 当 然 不 能 照搬 TSR 一 类 的 机 制 CWindows 95/98, Windows 
NT 部 已 不 再 使 用 TSR)。 设 计 山 … 种 阮 能 在 多 用 户 、 多 进程 环境 下 动态 地 安装 设备 最 动 程序 ， 又 能 保 
持 内 核 安全 的 机 制 ， 就 成 为 对 设计 人 员 的 一 种 挑战 。 

可 安装 模块 正 是 在 这 样 一 种 背景 下 产生 的 。 可 安装 模块 (module) 是 经 过 编 详 但 尚未 连接 的 日 标 
代码 Co) 文件 ， 可 以 在 系统 运行 时 动态 地 “安装 ”到 内 核 中 。 这 种 动态 安装 既 可 以 由 特权 用 户 进行 ， 
也 可 以 由 内 核 在 有 需要 时 白 动 地 启动 (设想 在 网 络 坏 境 下 接收 到 了 :个 特殊 的 报 交 ， 调 实 坝 这 种 报 文 
规程 的 模 上 岂 尚 未 装 入 )。 在 内 核 的 源 代码 中 可 以 规定 允许 “移出 ”(export》 内 核 的 一 些 符号 ， 如 子 程 序 
入 口 、 全 局 变量 等 ， 使 可 安装 模块 可 以 在 程序 中 调用 这 些 内 核 了 程序 或 访问 这 些 全 局 变量 。 对 这 些 符 
号 的 引用 是 在 模块 安装 的 时 候 连 接 解决 的 ， 所 以 安装 的 过 程 实 际 上 就 包括 了 连接 的 过 程 。 山 于 连接 的 
部 分 对 象 已 经 装 入 内 存 并 且 已 在 运行 ， 所 以 是 动态 连接 。 例 如 ， 我 们 在 第 3 前 中 讲 到 内 核 中 有 个 件 局 
量 jiffies， 这 个 变量 在 每 次 时 钟 中 断 时 都 要 递增 ， 因 此 可 以 用 作 基 本 的 计时 于 段 。 假 定 在 个 可 安装 模 
块 中 需 此 访问 这 个 变量 ， 就 串 以 在 其 源 代 码 中 把 它 说 明 为 “外 部 ”(Cextern) 变量 。 在 编译 时 ，gcc 知道 
这 是 一 个 需要 在 连接 时 解决 的 外 部 符号 ， 但 是 并 不 知道 这 个 变量 侍 哪 里 ， 所 以 就 将 其 地 址 暂时 空 着 ， 
留待 连 接 时 再 米 填写 。 到 安装 模块 时 ， 应 用 程序 可 以 通过 系统 调用 问 内 核 得 询 变 量 jiffies 所 在 的 位 置 ， 
只 要 这 个 变量 是 允许 移出 的 ， 内 核 就 会 将 其 地 址 返 同 给 应 用 程序 。 而 应 用 程序 则 将 其 地 址 填 入 该 模块 
中 所 有 访问 这 个 变星 的 指令 内 以 及 其 他 所 有 要 用 到 其 地 址 的 地 方 。 这 样 ， 变 量 jiffies 号 “连接 ”上 上. 了。 

这 些 符 号 连接 操作 是 由 -个 实用 程序 /sbin/insmod 完成 的 。 这 个 实 州 程序 不 但 负责 模块 与 内 核 的 连 
接 ， 也 负责 把 模块 的 日 标 文件 Co 文件 )“ 装 入 ”到 内 核 空间 。 所 以 ，insmod 的 功能 与 ld 相似 ,但 是 
insmod 所 进行 的 是 动态 的 (运行 时 的 ) 连 接 和 装 入 ,而 ld 所 进行 的 则 是 静态 的 连接 利 装 入 ,与 /sbin/insmod 





一 样 ， 只 有 特权 用 户 才 能 执行 rmmod. 

除 这 山 个 实用 程序 外 ，Linux 为 此 而 增设 了 若干 系 统 调用 ， 可 安装 模块 机 制 主要 就 是 通过 这 些 系统 
调用 实现 的 。 在 本 章 中 ， 我 们 将 与 读者 “起 阅读 这 些 系统 调用 的 代码 。 

在 这 里 ， 我 们 不 妨 将 可 安装 异 块 与 TSR 程序 作 简单 的 比较 (尽管 这 二 者 实际 上 并 没有 和 多 人 的 可 
比 性 )。 在 TSR 种 序 小 ， 是 无 法 与 内 核 中 的 符号 〈 了 程序 、 全 局 量 ) 作 符号 连接 的 ， 而 只 能 根据 一 些 
约定 〈 将 这 些 变量 放 在 指定 的 地 址 上 ) 来 访问 “: 些 重 紫 的 全 局 量 ， 以 及 通过 陷阱 指令 调用 由 BIOS 提 
供 的 功能 和 操作 。 例 如 INT 9 为 显示 器 翌 幕 操作 , INT 13 为 做 横 操 作 , 还 有 就 是 通过 INT21 进行 的 DOS 
系统 调用 ， 等 等 。 这 样 ， 一 方面 内核 中 的 很 多 资源 ( 除 系统 调用 和 - 些 约定 的 变量 地 址 外 ) 并 未 向 TSR 
程序 开放 ， 而 另 一 方面 则 又 完全 不 设防 ， 一 个 TSR 程序 完全 可 以 为 所 欲 为 。 例 如 ， 在 某 个 条 件 满 是 时 
突然 通过 INT13 将 整个 磁盘 | 的 数据 全 部 写成 0。 光 赁 这 一点， 一 些 病毒 的 肆虐 和 恶劣 表现 就 不 丰 为 
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4 So WT Linux 的 可 安装 模块 中 ， 由 十 Linux 在 运行 时 与 BIOS 没有 关系 〔 仅 在 引导 时 用 到 BIOS), 
一 方面 儿 是 由 内 核 “ 移 出 ”的 所 有 符号 都 可 以 在 模块 中 引用 ， 从 而 扩大 了 内 核 向 可 安装 模块 开放 的 资 
源 范 围 ， 田 一 方面 ， 除 这 些 特意 移出 的 符号 以 及 系统 谢 用 以 外 ， Mon C UM 
核 中 的 资源 。 而 系统 调用 ,特别 起 用 于 文件 系统 操作 的 系统 调用 ， 是 受到 访问 权限 机 制 的 严格 控制 的 。 
oe ma 
的 ， 也 还 有 最 后 一 道 防线 ， 因 为 只 有 特权 用 户 才 能 安装 这 些 模 岂 。 出 由 ， 由 于 Linux. 内 核 的 源 代码 是 
公开 的 ， 有 特殊 要 求 的 用 卢 还 串 以 对 移出 符号 的 名 单 加 以 调整 。 例 如 ， 要 是 知道 不 需要 安装 有 关 磁 机 
的 模块 ， 就 可 以 将 1L_rw_block( SAKA EIR AI “BY” RII. Ady, Ape 
靶 模块 机 制 是 作为 内 核 的 “个 可 选项 提供 的 ， 用 户 可 以 在 编 详 内核 时 通过 CONFG_MODULES 选择 包 
FERRER LALA 
WE fas ee AS PR FT EEN, ESB YS ALY E S S (18 E A FL HE 

MAAK. FRE SWRA “RBS” B. ERE EE DMA C BENI 
AE”) 方式 ， 所 以 物理 设备 的 输入 /输出 从 本 质 上 说 大 多 是 异步 的 。 相 比 之 下 ， 文 件 操作 既 可 以 是 
同步 的 ， 也 可 以 是 异步 的 ， 但 是 多 数 情 况 下 是 间 步 的 。 以 从 键盘 读 一 个 字符 的 过 程 为 例 ， 用 户 进程 通 
过 系统 调用 read ) 企 图 从 标准 输入 文件 读 一 个 字符 ， 但 是 上 真正 的 、 物 理 意 义 上 的 从 键盘 读 入 通常 并 不 
是 发 后 在 用 户 进程 调用 read( ) 的 瞬间。 如 果 在 此 之 前 用 户 已 经 按 了 键 ， 那 么 所 按 的 字符 已 经 遂 过 中 断 
服务 程序 读 了 进来 ， 放 在 缓冲 区 中 等 待 由 进程 读 取 ， 此 时 上述 read( ) 操 作 立 刻 就 可 以 完成 而 返回 这 个 
字符 。 但 是 ， 如 果 缓 冲 区 中 没有 字符 可 读 ， 那 当前 进 称 通 常 就 要 睡眠 等 待 。 等 待 到 什么 时 候 呢 ? 等 待 
到 用 己 按 键 的 时 候 ， 滥 是 异步 的 ， 也 就 是 无 法 预测 何 时 会 发 生 的 。 从 这 个 意义 上 说 ， 设 备 驱 动 程序 是 
十 层 的 同步 操作 与 底层 的 异步 操作 之 间 的 桥梁。 

设备 驱动 程序 要 直接 访问 外 部 设备 或 其 接口 卡 上 的 物理 电路 ， 这 部 分 电路 道 常 部 是 以 “寄存 器 ” 
形式 出 现 的 。 根 据 访 问 外 部 设备 寄存 器 的 不 同方 式 ， 可 以 把 CPU RAR. -类 CPU 把 这 些 寄存 
aA WI, HBB SATE 编 址 ， 沪 问 寄存 器 就 通过 一 般 的 访问 内 存 指令 进行 ， 所 以 
这 种 CPU 没有 专门 用 于 设备 IO 的 指令 。 这 样 的 CPU 有 M68K、Power PC 等 等 。 另 一 类 CPU 将 外 部 
Amer ag E 个 独立 的 地 址 空间 ， 所 以 访问 内 存 指令 不 能 用 米 访问 这 些 寄存 器 ， 而 要 为 对 外 部 
Wee EARS ERE BOUES. lin. out 等 。i386 就 是 属于 这 一 类 的 CPU。 可 想 而 知 ， 跟 
这 些 寄存 器 直接 有 有 关 的 代码 是 因 处 理 器 而 路 的 。 

wl i386 结构 的 CPU 而 言 ， 几 于 外 部 设备 寄存 器 读 / 写 的 指令 主要 就 是 两 条 ， 即 in 和 out。 但 是 ， 
像 访 问 内 存 指令 一 翌 ， 根 据 读 / 扎 的 对 象 为 字 节 、 字 或 长 字 出 有 inb/inw/inl 和 outb/outw/outl 等 变形 。 不 
ii, Linux 内 核 的 代码 中 一 般 都 不 直接 使 用 这 些 指 令 ， 而 将 这 些 男 数 “ 和 包装 ”在 “: 些 相 应 的 函数 中 ， 这 
JE PR BCA inb( ). outb( )、inw( ). outw( ) 竺 。 

读者 在 第 3 章 中 曾经 看 到 ， 内 核 小 有 些 函 数 是 利用 C 放言 的 编译 时 字符 帅 拼 接 功能 、 册 gce 在 预 
处 理 阶 段 和 后 成 出 来 的 ,所 以 如 果 通 过 字符 出 搜索 上 上 只 ( 如 grep) 华 源 代码 中 搜索 这 些 函 数 的 定义 就 会 找 不 
到 。 这 里，inb( )、outb( ) 这 些 函数 的 定义 也 是 这 样 ， 是 由 gee 在 编 详 时 的 预 处 理 阶段 根据 一 些 安定 义 生 
REKK. 下 面 我 们 就 来 看 这 些 函 数 的 生成 ， 有 关 的 代 公 都 在 include/asm-i386/io.h 中 。 

先 看 outb( )/outw( Youtl( ) 的 生成 : 











92 OUT (b, "b^, char) 
93 __ OUT (w, ^w^, short) 
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94 .  QUTQ,,int) 
这 里 的 _OUT() 是 宏 定义 ， 其 代 但 为 ; 


58 Hdefine | OUT(s,sl,x) ^ 
59 . OUT] (s,x)  OUT2(s,sl,"w^) : : "a" (value), "Nd" (port); } \ 
60 .. OUTI (s##_p, x) OUT2 (s, sl, ^w^ \ 


__ FULL SLOW DOWN IO : : "a^" (value), "Nd" (port));] ^ 


WBE X, OUTI, | OUT2 LIE | FULL SLOW DOWN IO: 


52 define | OUTl(s,x) ^ 


53 extern inline void out##s (unsigned x value, unsigned short port) { 
54 

55 define __OUT2 (s, sl, s2) \ 

56 asm  . volatile __ (“out” fs " %” sl “0,%” s2 "1" 


46 define . FULL SLOW DOWN IO __ SLOW DOWN IO 
38 Hdefine | SLOW DOWN IO ^Wnjmp 1f\nl:\tjmp lf\nl:” 


经 过 gcc 的 预 处 理 以 后 ， 以 上 面 的 92 行为 例 ， 就 变 成 了 这 样 : 


extern inline void outb(unsigned char value, unsigned short port) { 
asm. volatile (“outb %b0, %wl” : : "a^ (value), "Nd" (port)); | 


extern inline void outb p(unsigned char value, unsigned short port) { 
| asm | volatile ('outb %b0, 9wl" 


“jmp 1f^ 

“1: jmp 1f” 

mja” 

: : "a" (value), "Nd" (port)); } 


这 时 生成 了 两 个 函数 ， 一 个 是 outb( )， 还 有 一 个 是 outb_p( )。 区 别 在 丁 outb_p( ) 中 在 输出 指令 以 
后 有 意 通过 两 条 jmp 指令 引入 了 - 些 延 迟 。 有 些 外 设 寄存 器 的 速度 比较 慢 ， 在 写 入 以 后 需 炎 一 些 恢复 
时 间 。 如 果 CPU 的 速度 太 快 ， 就 有 可 能 在 对 同一 寄存 器 的 连续 两 次 写 操作 之 间 隅 得 人 紧 而 使 寄存 器 来 
不 及 恢复 ， 在 这 种 情况 下 就 应 该 调用 outb_p( RÆ outb( )， 使 寄存 器 有 时 间 恢 复 。 此 外 ， 汇 编 指 令 
中 的 %b0 Awl 表 不 %0 的 宽度 为 8 位 ， 而 免 ] 的 宽度 为 16 位 。 还 可 以 看 出 ，%b0 中 的 b 是 从 92 行 传 
下 来 的 ， 而 和 %wl 中 的 w 则 是 固定 的 ( 见 59 和 60 行 )， 因 为 外 设 寄存 器 的 地 址 是 16 位 的 。 此 外 ， 变 量 
value 与 寄存 器 %eax 结合 ，port 与 W%edx 结合 。 

同样 ， 根 据 93 Fl 94 行 会 分 别 生成 出 outw(). outw p(). outl( ) 以 及 outl. p )。 

再 看 用 于 从 寄存 器 输入 的 inb()、inw()、inl() 等 函数 的 生成 。 


82 Hdefine RETURN TYPE unsigned char 
83 .. IN(b, ^^) 
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84 #undef RETURN TYPE 

85 #define RETURN TYPE unsigned short 
86 — — IN(w, ^) 

87 #undef RETURN TYPE 

88 define RETURN TYPE unsigned int 
89 .. ING, ^^) 

90 #undef RETURN TYPE 


62 define __INI{s) V 
63 extern inline RETURN TYPE in##s(unsigned short port) ( RETURN TYPE v; 


65  &define | IN2(s,sl,s2) V 


66 asm volatile ("in^ #s " %” s2 "1,W" sl “0” 

67 

68 8define | IN(s,sl, i...) \ 

69 __INi(s) | IN2(s,sl,"w^) : "-a" ( v) : “Nd” (port) ,##i ); return v; } \ 





10 . INl(sfi p) . 1N2(s,sl,"w^) . FULL SLOW DOWN IO \ 
: “=a” ( v) : "Nd" (port) ,##i); return v; } 


起 者 应 该 能 推导 出 ， 根 据 83 行 的 生成 结果 为 : 


unsigned char inb(unsigned short port) { 
unsigned char v; 
asm volatile ("inb %wl, %0”: “=a” ( v) : “Nd” (port),); return v; } 


unsigned char inb p(unsigned short port) { 
unsigned char v; 
= asm | volatile ("inb %wl, %0” 
"jmp 1f” 
"l: jmp if” 
myu” 
: “=a” ( v) : "Nd" (port),); 
return v; } 


IX PGR E ERU CE AS BE pg E RO Fr ze T6 BME 

BAER, APREM SH, HEREA mA RRR RE, LEAS RIED 
够 。 例 如 ， 在 drivers Hae PH Ho& net. atm, isdn 等 帮 是 计算 机 网 络 论述 方面 的 内 容 ， 其 中 的 每 一 
部 分 都 是 需要 有 专著 加 以 介绍 ， 前 不 是 三 音 两 语 讲 得 清 的 。 与 其 语 志 不 详 地 讲 上 儿 负 ， 倒 不 如 留待 将 
来 ， 或 等 有 关 专 苦 的 出 现 ， 所 以 我 们 在 本 书 中 十 脆 号 不 触及 这 些 话 题 。 此 外 ， 有 些 设 备 本 身 的 原理 和 
机 制 就 很 复杂 《如 显示 设备 )， 需 要 有 专 兰 加 以 介绍 。 我 们 既 无 足够 的 篇 幅 ， 也 缺乏 有 关 的 专门 知识 来 
深入 阔 述 这 些 设备 的 周 理 、 机 制 和 操作 ， 而 只 能 专注 丁 它 们 的 驱动 程序 。 所 以 ， 我 们 在 本 书 中 只 能 集 
中 在 除 网 络 设备 〈 那 十 “个 过 于 广阔 的 天 地 以 外 的 ” 些 典 型 设备 的 驱动 程序 上 。 但 是 ， 我 们 相信 读 
者 在 理解 了 这 些 内 容 以 后 就 能 举 “ 反 三 ， 将 基本 的 原理 与 实现 方法 推广 到 其 他 设备 。 另 外 ， 人 在 内 核 的 
代码 中 ， 对 同一 种 设备 常常 因为 针对 具体 产品 而 开发 人 同 小 异 的 驱动 程序 ， 例 如 对 鼠标 占 就 有 好 几 
种 蝶 动 程序 。 如 果 我 们 选择 了 某 个 具体 产品 的 驱动 程序 作为 实例 ， 溃 只 个 过 是 它 的 代码 适合 用 作 实 例 ， 
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们 倾向 于 生产 该 产品 的 厂商 。 


8.2 系统 调用 mknod( ) 


“设备 文件 ”是 闵 件 系统 中 代表 设备 的 特殊 文件 。 与 普通 的 义 件 相 比 ， 设 备 文件 仁 磁 盘 ( 或 宿主 
文件 系统 所 在 的 其 他 设备 ) 上 只 占 个 索引 和 节点， 而 没有 任何 用 于 存放 数据 的 记录 块 与 之 相 联 系 。 当 
然 ， 这 是 因为 设备 文件 的 日 的 并 不 在 于 存储 和 读 取 数据 ， 而 只 在 十 为 应 用 程序 提供 条 通 向 具体 设备 
的 访问 途径 ， 使 应 用 程序 可 以 跟 具 体 设 备 建立 起 连接 。 可 想 而 知 ， 既 然 没有 用 于 数据 的 记录 块 ， 则 家 
引 区 点 中 的 记录 块 映 象 表 (对 于 Ext? 文件 系统 来 说 是 ext2_inode 结构 中 的 数组 i block[ D 就 没有 什么 
用 处 了 。 所 以 ， 人 在 这 种 情况 下 就 用 这 个 数组 中 的 第 一 个 元 素 ， 即 i_block[0]， 记 载 目标 设备 的 设备 守 。 
对 于 Ext2 普通 文件 ， 这 个 数组 中 的 元 素 在 文件 创建 之 初 都 是 空 的 ， 只 是 在 写 文件 时 才 随 着 记录 块 的 分 
了 配 俐 写 入 具体 的 内 容 《 见 “文件 的 读 与 写 ”)， 而 对 十 设备 文件 ， 则 必须 在 创建 时 就 将 其 所 代表 的 设备 
号 写 入 这 个 数组 的 第 一 个 元 素 中 。 在 “文件 系统 ”一 章 中 我 们 已 经 看 到 ， 普 通 文件 〈 以 及 某 些 特殊 文 
件 ) 可 以 通过 系统 调用 open( ) 创 建 ， 只 此 在 调用 参数 中 将 O_CREAT 标志 位 设 成 1， 就 可 以 让 open( ) 
在 日 标 文件 不 存在 时 先 创建 这 个 文件 。 此 外 , 也 可 以 通过 系统 调用 creat( ) 创 建文 件 , 事实 上 sys creat ) 
就 是 通过 sys open( ) 实 现 的 。 可 是 ， 这 两 个 系统 调用 都 个 能 用 来 创建 设备 文件 ， 因 为 设备 文件 的 创建 
需 些 有 -一 个 参数 来 传递 设备 号 , 而 系统 调用 open( ) 利 creat( ) 的 界面 都 不 包括 这 个 参数 ,实际 上 , 从 Unix 
的 早期 就 为 设备 文件 的 创建 另外 设置 了 - :个 系统 调用 mknod(), FFA EAR RS. 

系统 调用 mknod( ) 是 通用 的 ， 可 以 用 来 创建 任何 类 型 的 文件 〈 除 月 录 外 )， 包 括 普 遂 文 件 、 特 殊 文 
件 以 及 设备 文件 .不 过 , 由 于 其 他 类 型 的 文件 大 都 有 专用 的 系统 调用 , 旭 普 通 文件 可 以 出 open( ) 或 creal( ) 
创建 ,FIFO 文件 可 以 用 pipet ) 创 建 ,所 以 mknod( ) 主 要 用 于 设备 文件 的 创建 .此 外 ,不 像 open( ) 和 creat( ) 
那样 集 创 建 与 打开 十 一 身 ，mknod( ) 只 是 纯粹 的 创建 。 

AR |', mknod( ) 是 山 sys_mknod() 实 现 的 ， 其 代码 在 fs/namei.c 中 : 


1205 asmlinkage long sys mknod(const char * filename, int mode, dev t dev) 
1206 { 

1207 int error = 0; 

1208 char * tmp; 

1209 struct dentry * dentry; 

1210 struct nameidata nd; 

121] 

1212 if (S ISDIR(mode)) 

1213 return —EPERM; 

1214 tmp = getname (filename); 

1215 if (IS ERR(tmp)) 

1216 return PTR ERR(tmp); 

1217 

1218 if (path init(tmp, LOOKUP PARENT, &nd)) 
1219 error = path walk(tmp, &nd): 

1220 if (error) 
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1221 goto out; 

1222 dentry = lookup create(&nd, 0); 

1223 error = PTR ERR(dentry) ; 

1224 if (!IS ERR(dentry)) { 

1225 switch (mode & S IFMT) { 

1226 case 0: case S IFREG: 

1221 error = vfs create(nd. dentry->d_inode, dentry, mode) ; 
1228 break; 

1229 case S IFCHR: case S IFBLK: case S IFIFO: case S IFSOCK: 
1230 error = vfs mknod(nd. dentry—>d_inode, dentry, mode, dev) ; 
1231 break; 

1232 case S_IFDIR: 

1233 error = —EPERM: 

1234 break; 

1235 default: 

1236 error = -EINVAL; 

1237 } 

1238 dput (dentry) ; 

1239 } 

1240 up (&nd. dentry-^d inode-^i sem); 

1241 path release (&nd) ; 

1242 out: 

1243 putname (tmp) ; 

1244 

1245 return error; 

1246 } 


参数 dev 即 为 设备 号 ， 其 类 型 为 dev_t， 实 际 上 是 一 个 16 位 的 无 符号 短 整 数 ， 有 关 的 定义 见 
include/asm i386/posix typc.h 以 及 include/linux/types.h: 


10 typedef unsigned short _ kernel dev t; 
14 typedef | kernel dev t dev t; 


这 个 16 位 的 无 符号 整数 实际 上 :分 成 两 部 分 ， 其 高 8 位 为 表示 设备 类 别 的 “ 主 设 备 号 ” 而 低 8 位 
则 为 同 “类 别 内 的 序号 。30 年 前 ，256 种 不 同 的 块 设备 ， 肯 加 256 种 不 同 的 字符 设备 ， 每 种 设备 又 可 
以 有 多 全 256 人 台 ， 似 乎 已 是 不 可 如 议 的 了 。 但是, 现在 再 来 看 ，8 位 的 主 设备 号 和 次 设备 号 的 覆盖 面 和 
容量 确实 显得 小 了 。 可 是 ， 在 用 户 界面 上 ， 也 就 是 在 系统 调用 界面 上 ， 一 - 旦 把 设备 号 定义 为 16 位 无 符 
号 整数 后 就 不 能 改 慨 了 ， 除 非 能 找到 一 种 与 原来 兼容 的 方案 ， 否 则 就 要 引起 兼容 性 问题 。 在 系统 调用 
界面 书 经 定义 的 前 提 下 ， 解 决 的 办 法 无 非 就 是 设法 既 扩 大 容量 又 使 新 老 界面 兼容 〔〈 显 然 很 难 )， 或 者 增 
添 新 的 系统 调用 〈 现 在 没有 ) 或 新 的 机 制 〈 如 前 述 的 树 状 设备 文件 子 系统 )， 或 者 甚 爹 一 管 齐 下 。 但 是 ， 
对 于 内 核 中 的 内 部 使 用 却 不 受用 户 界面 的 限制 。 所 以 ， 作 为 扩大 设备 号 容量 的 准备 ， 又 在 
include/linux/kdev.h 中 定义 子 另 一 个 数据 类 型 kdev_t: 


67 typedef unsigned short kdev t; 
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这 个 数据 类 型 莫 前 仍 是 16 位 的 ， 代 是 其 意图 显然 是 在 条 件 成 熟 时 改 成 32 位 。 

在 sys_mknod( ) 的 代码 中 ， 只 有 vfs_mknod( ) 是 读者 尚未 看 到 过 的 。 文 件 系统 的 vfs Ez E RIDERS ER 
数 有 三 个 , 即 vfs_create( )、vfs_mkdir( ) 以 及 vfs_mknod( )。 其 中 vfs_create( ) 用 二 普通 文件 ，vfs_mkdir( ) 
用 十 目录 节点 ， 而 vfs_mknod( ) 则 用 于 特殊 文件 ， 包括 FIFO、 插 口 以 及 字符 设备 和 块 设备 文件 的 创建 。 
至 于 /proc 目录 下 的 特殊 文件 ， 则 一 般 是 由 内 核 生 成 ， 而 不 是 由 用 户 创建 的 ， 这 一 点 读者 在“ 文件 系统 ” 
一 章 中 已 经 看 到 过 了 。 

函数 vfs_mknod( ) 的 代码 也 在 fs/namei.c FP: 





[sys_mknod( ) > vfs mknod( )] 


1176 int vfs mknod(struct inode *dir, struct dentry *dentry, int mode, dev t dev) 
1177 { 


1178 int error = -EPERM; 

1179 

1180 mode &- ~“current->fs—>umask ; 

1181 

1182 down (&dir->i_ zombie); 

1183 if ((S TSCHR(mode) || S ISBLK(mode)) && !capable(CAP MKNOD)) 
1184 goto exit lock; 

1185 

1186 error = may create(dir, dentry); 

1187 if (error) 

1188 goto exit_lock; 

1189 

1190 error = —EPERM; 

1191 if (!dir->i op || !dir-^i op-^mknod) 
1192 goto exit lock; 

1193 

1194 DQUOT. INIT (dir) ; 

1195 lock kernel( ); 

1196 error = dir->i_op->mknod(dir, dentry, mode, dev); 
1197 unlock kernel ( ); 

1198 exit lock: 

1199 up(&dir->i zombie): 

1200 if (error) 

1201 inode dir notify(dir, DN CREATE); 
1202 return error; 

1208.  ] 


参数 dir 是 一 个 inode 结构 指针 ， 指 向 待 创 建设 备 文件 的 父 节点 ， 即 其 所 在 日 录 节 点 的 inode 结构 ， 
这 是 在 sys_mknod( ) 中 通过 path_walk( ) 找 到 的 。 第 二 个 参数 dentry， 则 指向 代表 着 (如 果 己 经 存在 ) 或 将 
要 代表 待 创建 设备 文件 节点 的 月 录 项 dentry 数据 结构 。 这 个 数据 结构 是 在 sys_mknod( ) 中 通过 
lookup. create( OÆ AIZ H K] dentry 结构 杂凑 表 中 找到 或 者 新 创建 的 。 
进入 vfs mknod( ) 以 后 , 首先 是 对 权限 的 检验 。 以 前 讲 过 ,每 个 进程 的 fs. struct 结构 小 有 有 个 访问 权 
EERME umask， 每 当 一 个 进程 要 求 创建 义 件 时 ， 就 用 这 个 位 图 将 用户 通过 参数 mode 表达 的 “ 非 分 
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之 想 ” 都 过 滤 掉 (1180 行 )。 对 权限 的 检验 分 同步 进行 。 第 一 步 是 capable(CAP_MKNOP)， 即 检验 当前 
进程 是 否 允 许 创建 设备 节点 ,此 项 检验 仅 用 十 待 创建 节点 为 设备 节点 时 (而 不 包括 FIFO 和 插口 节点 )。 
第 二 步 ， 即 may_create( )， 则 适用 于 所 有 节点 ， 其 代 倘 读者 已 在 “文件 的 打开 与 关闭 ”-- 节 中 见 到 过 ， 
此 处 就 不 重复 了 。 这 个 星 数 中 还 包含 了 对 日 标 节点 是 否 业 已 存在 的 检验 。 显 然 ， 如 果 已 经 存在 就 不 允 
许 重复 创建 了 。 此 外 ， 由 十 我 们 在 这 里 并 不 关心 侈 盘 容 量 配额 的 问题 ， 所 以 跳 过 DQUOT_INIT(). | 

创建 设备 节点 的 具体 操作 因 文 件 系 统 而 异 , 由 具体 文件 系统 通过 其 inode. operations 结构 中 的 函数 | 
指针 mknod 提供 。 对 于 Ext2, 3X4 pA BE ext2_mknod( )， 其 代 但 在 fs/ext2/namei.c 中 : | 


[sys_mknod( ) > vfs mknod( ) > ext2_mknod{ )] | 


386 static int ext2 mknod (struct inode * dir, struct dentry *dentry, 
int mode, int rdev) 





387 { 
388 struct inode * inode - ext2 new inode (dir, mode): 
389 int err = PTR_ERR (inode) ; 
390 | 
391 if (IS ERR (inode)) | 
392 return err; | 
393 
394 inode-^i uid = current->fsuid; | 
395 init special inode(inode, mode, rdev): 
396 err = exi2 add entry (dir, dentry >d_name. name, dentry—>d name. len, | 
397 inode); : 
398 if (err) : 
399 goto out no entry; : 
400 mark inode dirty (inode); | 
401 d instantiate(dentry, inode); 
402 return 0; | 
403 : 
404 out no entry: 
405 inode-^i nlink--; | 
406 mark inode dirty (inode); i 
407 iput (inode) ; 
408 return err; | 
409  ] 


首先 通过 ext2_new_inode( ) 分 配 一 个 inode 数据 结构 , 这 个 函数 的 代码 读者 也 已 经 看 到 过 了 .。 然后 ， 


就 是 设置 这 个 数据 结构 ， 包 括 将 设备 号 写 入 到 该 数据 结构 中 ， 这 是 通过 init special inode( ) 完 成 的 。 实 | 
际 土 ， 设 备 节 点 《以 及 其 他 特殊 文件 节点 ) ARP ZAR ETE IE. XX eK HOR ASE fs/devices.c H: | 
[sys. mknod( ) > vfs mknod( ) > ext2_mknod( ) > init, special inode( )] i 

| 
200 void init special inode(struct inode *inode, umode t mode, int rdev) | 
201 { 
202 inode->i_mode = mode; i 
203 if (S ISCHR(mode)) { 
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204 inode->i_fop = &def chr fops; 
205 inode->i_rdev = to kdev_t(rdev) ; 
206 ) else if (S ISBLK(mode)) { 

207 inode—^i fop = &def blk fops; 
208 inode->i rdev = to kdev t(rdev); 
209 inode->i bdev = bdget (rdev); 

210 } else if (S_ISFIFO (mode) ) 

211 jinode->i_fop = &def filo fops; 
212 else if (S ISSOCK (mode) ) 

213 inode— i fop = &bad sock fops; 
214 else 

215 printk(KERN DEBUG'init special inode: bogus imode (*o)Wn^, mode); 
2016 .] 


这 里 主要 是 对 两 个 结构 成 分 的 设置 ， 一 个 是 file operations 结构 指针 i_fop， 使 它 指向 其 体 的 数据 
结构 def. chr fops 或 def_blk fops: 另 一 个 是 省 来 保存 设备 号 的 i_rdev。 注 意 在 这 里 参数 rdev 的 类 型 为 
int( 而 不 是 dev_( )， 而 inode 结构 中 i_rdev 的 类 型 就 是 上 述 的 kdev_t. AAT, kdev_t fixe 16 位 的 ， 从 用 
户 进程 传递 下 来 的 设备 号 也 是 16 位 的 ， 如 果 把 它 看 成 32 位 整数 的 话 ， 则 其 高 16 位 总 是 0。 但 是 将 来 
在 系统 调用 mkned() 的 界面 上 可 以 把 设备 号 的 类 型 从 dev. t 改 成 inb i RR ELEC 16 位 是 否 为 0 确定 所 
用 的 是 16 位 设备 号 还 是 32 位 设备 号 ， 从 市 保持 与 点 有 界面 兼容 。 同 时 ， 对 kdev_t 的 定义 也 可 以 从 16 
位 改 成 32 位 。 为 了 这 个 日 的 ， 内 核 代 码 中 已 经 提供 了 一 对 inline 函数 to_kdevy t( ) 和 kdev_t_to_nr( ), 
用 来 进行 二 者 间 的 转换 。 代 是 目前 这 种 转换 只 是 从 16 位 到 16 位 ， 实 际 上 不 起 什么 作用 ， 看 一 下 
include/linux/kdevt. b 中 的 函数 to_kdev_t( ) 的 代码 就 可 以 明白 这 一 点 : 


87 static inline kdev t to kdev t(int dev) 
88 { 

89 int major, minor; 

90 #if 0 

91 major = (dev >> 16); 

92 if (major) { 


93 major - (dev >> 8); 

94 minor = (dev & Oxff); 
95  ] else 

96 minor = (dev & Oxffff) ; 
97 #else 


98 major = (dev >> 8); 

99 minor = (dev & Oxff) ; 

100 #endif 

101 return MKDEV(majer, minor); 
102 } 


SERIE “HO” “FX Hea MRI ID. BE 下 这 部 分 代码 就 可 以 明白 32 位 的 设备 
号 怎样 与 16 位 的 设备 号 保持 兼容 。 
还 要 提 - TF, inode 结构 中 有 两 个 类 型 为 kdev_t 的 字段 。 一 个 是 i_rdev, 用 十 该 察 引 节点 所 代表 设 
备 (例如 /dev/tty0) HRES: 5) 个 是 i_dev, 用 于 索引 节点 所 在 设备 (例如 /dewhdal， 假 定 目录 /dev 
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在 这 个 设备 上 ) 的 设备 号 。 
对 于 块 设备 ，inode 结构 中 还 有 个 指针 iLbdev， 它 指向 一 个 block_device 数据 结构 ， 敢 就 是 基体 块 


设备 的 控制 结构 ， 定 义 于 include/linux/fs.h: 


377 struct block device | 


378 Struct list head bd hash; 

379 atomic t bd count; 

380 /* struct address space bd data; */ 

381 dev t bd dev; /* not a kdev t - it's a search key */ 
382 atomic t bd openers; 

383 const struct block device operations *bd op; 

384 siruct semaphore bd sem; /* open/close mutex */ 

885 " }; 


里 面 有 个 指针 bd op 指向 “个 block. device operations 结构 ， 那 就 是 这 个 设备 的 函数 跳 转 表 。 内 核 
中 为 块 设备 设置 了 个 杂凑 表 bdev_hashtable[ ], 每 当 首次 创建 碾 打 开 某 个 块 设备 文件 时 就 为 其 创建 - . 
个 block_device 结 构 , 并 且 根 据 设 备 号 的 杂凑 值 将 此 结构 通过 队列 头 bd_hash 挂 入 杂凑 表 的 其 个 队 人 中 ， 
以 使 查找。 

在 init_special_inode( ) 中 , 通过 函数 bdget( ) 根 据 设备 号 找到 或 者 创建 给 定 设备 的 block, device 数据 
结构 ， 其 代码 在 fs/block_dev.c 中 : 


[sys_mknod( ) > vfs mknod( ) > ext2 mknod( ) > init special inode( ) > bdget( )] 


429 struct block device *bdget(dev t dev) 


430 {f 

431 struct list head * head = bdev hashtable + hash(dev); 
432 struct block device *bdev, *new bdev; 
433 spin lock(&bdev lock); 

434 bdev = bdfind(dev, head): 

435 spin unlock(&bdev lock); 

436 if (bdev) 

437 return bdev; 

438 new bdev = alloc bdev( ); 

439 if (Inew bdev) 

440 return NULL; 

441 atomic set (&new_bdev—>bd_ count, 1); 
442 new bdev-^bd dev = dev; 

443 new bdev->bd op = NULL; 

444 spin lock(&bdev lock); 

445 bdev = bdfind(dev, head); 

446 if (!bdev) { 

447 list_add(&new_bdev->bd_hash, head); 
448 spin unlock (&bdev lock); 

449 return new bdev; 

450 ) 

451 spin unlock(&bdev lock); 
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452 destroy_bdev (new_bdev) ; 
453 return bdev; 
454  ] 


首先 是 试 着 在 杂凑 表 bdev hashtable[ ] 里 的 相应 队列 中 通过 bdfind( ) 寻 找 ， 如 果 找 到 就 完成 了 《〈 兄 
437 行 )。 要 是 找 不 到 ， 那 就 要 道 过 alloc bdev()2 B6 个 数据 结构 。 由 于 在 alloc_bdev( ) 的 过 程 中 当前 
进程 有 可 能 进入 睡 虑 ， 所 以 在 分 配 到 了 以 后 还 要 再 调 册 bdfind( ) 导 找 : 遍 ， 以 防 因 别 的 进程 抢先 为 同 
一 设备 分 配 了 数据 结构 而 造成 冲突 。 在 确认 并 未 造成 冲突 以 后 ， 就 将 该 数据 结构 挂 入 相应 的 杂凑 队列 
小。 值得 注意 的 是 ， 这 里 只 是 将 数据 结构 中 的 指针 bd op 初始 化 成 NULL， 而 将 这 个 指针 的 落实 留待 
第 一 次 打开 这 个 设备 文件 的 时 候 。 读 者 在 “文件 系统 的 安装 与 拆卸 ”一 节 中 曾 看 到 ， 在 安装 文件 系统 
时 通过 get. blkfops( ) 根 据 设 备 的 主 设备 号 取得 指 问 其 block_device_operations 结构 的 指针 ， 就 是 因为 在 
安装 时 隐 含 着 打开 块 设备 文 件 的 操作 。 

[418] ext2_mknod( ) 的 代码 中 ，ext2_add_entry( ) 将 新 创建 的 节点 加 进 所 在 日 录 在 磁盘 上 的 目录 文件 
P, mark_inode_dirty( ) 将 新 创建 的 inode Zi BAK AE”, 而 d_instantiate( ) 则 使 内 存 中 的 日 录 项 dentry 
结构 与 inode 结构 间 互 相 挂 上 多 ， 这 些 函 数 读 者 都 已 不 是 第 … 次 看 到 了 。 出 于 新 创建 的 inode 结构 设置 
RT “AE”, ARE “Ze” APY inode 结构 与 磁盘 上 的 索引 节点 的 时 候 ， 就 会 将 这 个 inode 结构 
的 内 容 写 到 磁盘 上 分 配给 这 个 文件 的 索引 节点 ， 即 ext2_inode 数据 结构 中 。 出 于 ext2_inode 结构 中 并 
个 存在 1 rdev 这 么 个 成 分 ， 而 对 于 设备 文件 却 又 不 需 此 使 用 i_block[ ] 数 组 ， 所 以 就 挪用 其 i block[0] 
来 保存 设备 号 。 要 了 解 这 一 点 ， 我 们 不 妨 看 一 下 文件 fs/ext2/inode.c 中 国 数 ext2_update_inode( ) 代 码 的 


1211 if (S ISCHR(inode-^i mode) || S ISBLK(inode-^i mode)) 

1212 raw inode-^i block[0]-cpu to le32(kdev t to nr(inode i rdev)); 
1213 else for (block = 0; block < EXT2 N BLOCKS; block++) 

1214 raw_inode->i_block[ block] = inode->u. ext2 i.i data[block]; 


这 里 的 raw_inode 是 一 个 ext2_inode 结构 指针 ， 而 inode 是 一 个 inode 结构 指针 。 这 二 者 一 个 是 存 
储 在 磁 稚 上 的 索引 节点 ， 另 一 个 是 索引 节点 在 内 存 中 的 表现 ， 但 是 二 者 在 内 容 上 并 不 完全 相同 ，inode 
结构 中 含有 许多 动态 的 信息 。 如 旧 inode 结构 代表 着 一 个 字符 设备 或 块 设备 ， 则 相应 ext2_inode 结构 中 
的 jblock[0] 用 于 存放 设备 号 ， 其 内 容 来 扬 inode 结构 中 的 i rdev CAU féf “Little Ending”), ERA, 
WW i block[ ] 数 组 中 各 个 元 素 的 内 容 来 月 inode 结构 中 ext2_inode_info 部 分 的 i_data[ ] 数 组 的 相应 元 素 ， 
AB re “ 些 间 接 或 间接 地 指 剖 各 个 数据 记录 块 的 指针 。 

KIK, HMW ext2_read_inode( ) 从 磁盘 | 读 入 索引 节点 ， 并 为 之 在 内 存 中 创建 相应 的 inode 结构 
时 ， 则 先 将 i_block{ ] 数 组 全 部 复制 到 i data[ ] 数 组 中 ， 然 后 如果 是 设备 叉 件 就 调用 init_special_inode( ) 
将 i_block[0] 的 内 容 (A “Little Ending” FEMEI CPU 所 采用 的 制式 ) 填 入 inode 结构 中 的 i_rdey。 以 下 
是 ext2_read_inode( ) 中 有 关 的 片断 〈 见 fs/ext2/inode.c): 





1052 /* 

1053 * NOTE! The in-memory inode i data array is in little-endian order 
1054 * even on big-endian machines: we do NOT byteswap the block numbers! 
1055 */ 
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1056 for (block = 0; block < EXT2 N BLOCKS; block++) 
1057 inode->u. ext2 i.i data[block] = raw inode-^i block|[block]; 
1058 

1059 if (inode-^i ino == EXT2 ACL IDX INO || 

1060 inode-^i ino == EXT2 ACL DATA INO) 

1061 /* Nothing to do */ ; 

1062 else if (S_TSREG(inode->i_mode)) { 

1066 ) else if (S_ISDIR(inode->i_mode)) { 

1069 } else if (S ISLNK(inode-^i mode)) | 

1076 } else 

1077 init special inode(inode, inode-^i mode, 

1078 1e32 to cpu(raw inode—^i block[0])) ; 


ix X [P] SU T Erf) init special, inode( ). 

对 十 设备 文件 ， 将 ext2_inode 结构 中 的 i. block[ ] 数 组 复制 到 inode 结构 中 的 i_datal ] 数 组 实际 上 是 
没有 意义 的 。 至 十 inode 结构 中 的 block device 结构 指针 i_bdev， 则 本 来 就 是 动态 的 ， 所 以 根本 就 不 保 
存在 侯 盘 上 的 索引 节点 中 。 


8.3 可 安装 模块 


TES 1 章 我 们 就 曾 提 到 ，Linux 采用 的 是 整体 式 的 内 核 结 构 〈monolithic kemel)， 这 种 结构 的 内 
核 - 般 不 能 动态 地 增加 新 的 功能 。 为 此 ，Linux 提供 了 一 种 全 新 的 机 制 ， 叫 (可 安装 ) RR" (module). 
利用 这 个 机 制 ， 可 以 根据 需要 ， 仁 不 必 对 内 核 重 新 编译 连接 的 条 件 下 ， 将 可 安装 模块 动态 地 插入 运行 
中 的 内 核 ， 成 为 内 核 的 一 个 有 机 组 成 部 分 ， 或 者 从 内 核 移 走 已 经 安装 的 模块 。 正 是 这 种 机 制 ， 使 得 内 
核 的 内 存 映 象 保持 最 小 ， 但 却 具 有 很 大 的 灵活 性 和 可 扩充 性 。 

可 安装 模块 趾 可 以 在 系统 运行 时 动态 地 安装 和 拆卸 的 内 核 软 件 。 产 格 阅 来 ， 这 种 软件 的 作用 并 不 
限于 设备 驱动 ， 例 如 有 些 文件 系统 就 是 以 可 安装 模块 的 形式 实现 的 。 但 是 ， 另 一 方面 ， 它 主要 用 来 实 
现 设备 驶 动 程序 或 者 与 设备 驱动 密切 相关 的 部 分 《如 文件 系统 )， 所 以 我 们 将 它 放 在 本 章 中 介绍 。 

在 应 用 程序 稚 面 上 ， 内 核 通过 4 个 系统 调用 支持 可 安装 模块 的 动态 安装 和 拆 倒 ， 它 们 是 
create_module( )、init_module( )、query_module() 以 及 delete_module( )。 通 常 ， 用 广 ETRE HRR 
这 些 系统 调用 打交道 ， 而 可 以 用 系统 提供 的 开具 /sbin/insmod GARAIO 和 /sbin/rmmod (HEHH) 
米 安装 和 拆卸 可 安装 模块 。 当 然 ， 这 两 个 [其 最 终 还 是 要 通过 这 些 系 统 调 用 完成 有 关 操作 。 大 体 上 说 ， 
/sbin/insmod 所 做 的 事情 有 这 么 一 些 : 

e 打开 待 安装 模块 并 将 其 恋 入 到 用 户 空间 。 所 谓 “ 模 上 ”就 是 经 过 编译 但 未 经 连接 的 .o 文件 。 

e ”模块 中 必定 有 - 些 在 模块 内 部 无 法 沙 实 的 符号 (了 消 数 名 或 变量 名 )， 对 这 些 符号 的 引用 必须 连 

接 到 内 核 中 的 相应 符号 ， 也 就 是 必须 把 这 些 符号 在 内 核 映 象 中 的 地 址 填 入 模块 中 需要 访问 这 

些 符 号 的 指令 中 以 及 数据 结构 中 。 为 此 日 的 ， 需 要 通过 系统 调用 query_module( ) 向 内 核 询问 

这 些 符号 在 内 核 站 的 地 址 。 如 果 内 核 允 许 “ 移 出 ”这 些 符号 的 地 此 ， 就 会 返 同 有 关 的 “符号 
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表 ”。 有 些 符号 可 能 并 不 属于 内 核 本 丹 ， 而 属于 已 经 安装 的 其 他 模块 。 
取得 了 内 核 “ 移 出 ”的 符号 表 以 后 ， 就 应 该 可 以 使 模块 中 所 有 的 符 护 引 几 部 得 到 落实 了 。 这 
部 分 操作 与 编译 后 的 连接 相似 。 个 过 ， 常 规 的 “连接 ”和 常常 是 双向 的 ， 而 现在 只 十 在 模块 中 
引用 内 核 里 的 符号 或 者 其 些 已 经 安装 的 模块 中 的 符号 ， 而 内 核 却 并 不 要 求 (也 不 能 ) 反 过 来 中 
用 这 个 待 安装 模块 中 的 符号 。 当 然 ， 内 核 最 后 一 定 会 要 访问 模块 中 的 某 些 安 量 或 调用 模 氛 由 
的 某 些 函数 ， 备 则 模块 中 的 函数 就 得 不 到 执行 ， 模 块 的 存在 也 就 失去 了 意义 。 从 这 个 意义 上 
说 ， 模 块 与 内 核 的 连接 只 完成 了 一 六 ， 我 们 不 妨 称 之 为 “完成 了 单 向 连接 ”的 模块 映 象 。 
然后 ， 通 过 系统 调用 create_module( ) 企 内 核 中 创建 个 module 数据 结构 ， 并 且 “ 预 订 ” 所 而 
的 系统 《内 核 ) 空间 。 
最 后 ， 通 过 系统 调用 init_module( ) 把 用 户 空 间 中 完成 了 单 向 连接 的 模块 喘 象 装 入 内 核 空 间 ， 
再 调用 模块 中 -个 名 为 init module ) 的 函数 ,注意 , 不 要 把 可 安装 槛 块 中 的 函数 init_ module( ) 
与 系统 调用 init_module( ) 摘 混淆 了 ， 这 完全 是 两 码 事 。 系 统 调 用 init module( ) 在 内 核 小 的 实 
现 是 sys init module( )， 这 是 由 内 核 提 供 的 ， 整 个 内 核 中 只 有 这 么 … 个 。 而 模块 路 的 函数 
init_module( )， 则 是 由 可 安装 模块 本 身 提 供 的 ， 舒 个 模块 都 有 这 样 一 个 函数 。 通 常 ， 每 个 模 
块 的 init module( ) 人 负责 向 内 想 “ 登 记 ” 本 模块 中 的 些 包含 着 函数 指针 的 数据 结构 “例如 
file operations 结构 )。 完 成 了 这 种 登记 以 后 ， 模 块 与 内 核 之 间 的 连接 (为 一 个 方 问 上 的 连接 ) 
才 真 下 完成 了 。 





顾名思义 ， 系 统 调 用 delete module( ) 将 模块 的 module 结构 释放 ， 半 卫 将 模块 映 象 所 占 的 内 核 空 间 
释放 。 此 外 , 还 有 一 件 重 要 的 事情 就 是 调用 模 其 中 一 个 名 为 cleanup, module( ) 的 函数 。 与 init_module(.) 
函数 一 样 ， 和 个 个 可 安装 模块 都 有 其 自己 的 cleanup_module() 函 数 。 通 常 ， 在 这 个 毅 数 中 此 向 内 核 撤销 对 
山本 模块 提供 的 数据 结构 (从 而 函数 指针 ) 的 登记 ， 使 内 核 在 模块 拆 技 以 后 不 全 寸 骨 企图 访问 这 些 数 
据 结 构 〔 以 及 函数 指针 )。 


下 而， 我 们 先 看 4 个 系统 调用 的 代码 ， 然 后 再 通过 “个 实际 的 模块 来 看 一 下 典型 的 init_module( ) 


函数 和 cleanup_module( PA. £i E sys_create_module( )、sys_init_module( )、sys_query_module( )， 还 
有 sys_delete_module( ) 的 代码 部 企 kernel/module.c HH- 


874 
875 
876 
877 
878 
879 
880 
881 
882 
883 
884 
885 
886 
887 


AU sys query, module( ). 


asmlinkage long 
sys query module(const char *name user, int which, char *buf, size t bufsize, 
size_t *ret) 
{ 
struct module *mod; 
int err; 


lock kernel ( ); 
if (name user =~ NULL) 
mod > &kernel module; 
else | 
long namelen; 
char *name; 
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888 if ((namelen = get mod name(name user, &name)) < 0) { 
889 err - namelen; 

890 goto out; 

891 ] 

892 err = —ENOENT; 

893 if (namelen == 0) 

894 mod = &kernel module; 

895 else if ((mod = find module(name)) == NULL) { 
896 pui mod name (name); 

897 goto out; 

898 } 

899 put_mod_name (name) ; 

900 } 

901 

902 switch (which) 

903 { 

904 case 0: 

905 err = 0: 

906 break: 

907 case QM MODULES: 

908 err = qm_modules(buf, bufsize, ret): 
909 break; 

910 case QM DEPS: 

911 err = qm deps(mod, buf, bufsize, ret); 
912 break; 

913 case QM REFS: 

914 err - qm refs(mod, buf, bufsize, ret); 
915 break; 

916 case QM SYMBOLS: 

917 err - qm symbols(mod, buf, bufsize, ret); 
918 break; 

919 case QM INFO: 

920 err - qm info(mod, buf, bufsize, ret); 
921 break; 

922 default: 

923 err = —EINVAL: 

924 break; 

925 } 

926 out: 

927 unlock kernel ( ); 

928 return err; 

929 } 


参数 name, user 为 查询 对 象 所 在 模块 的 模块 名 , 如 果 这 个 指针 为 0 即 指 内 核 本 身 。 参 数 which 表示 
查询 的 内 容 ， 如 QM. SYMBOLS 表示 查询 月 标 模块 的 符号 表 ,，QM_MODULES c eiu y Fir eue 
模块 的 清单 ， 而 QM_DEPS 则 查询 给 定 模 块 对 其 他 模块 的 依赖 (如 果 模 块 A 引用 模块 B 中 的 符号 ， 则 
A 依赖 十 B)。 查 询 的 结果 通过 缓冲 区 buf 返回 。 
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每 个 己 安 装 模 块 在 内 核 中 都 有 -个 module 数据 结构 (通过 系统 调用 create module( ) 创 建 )， 
include/linux/module.h 中 定义 了 module 以 及 一 些 有 关 的 数据 结构 : 





37 struct module symbol 


38 d 

39 unsigned long value; 

40 const char *name; 

4 kh 

42 

43 struct module ref 

44 { 

45 struct module *dep; /* “parent” pointer */ 

46 struct module *ref; /* “child” pointer */ 

47 struct module ref *next ref; 

48 kh 

49 

50 /* TBD */ 

51 struct module persist; 

52 

53 struct module 

54 { 

55 unsigned long size of struct; /* == sizeof (module) */ 
56 struct module *next; 

57 const char *name; 

58 unsigned long size; 

59 

60 union 

61 { 

62 atomic_t usecount; 

63 long pad; 
' 64 } uc; /* Needs to keep its size - so says rth */ 
65 

66 unsigned long flags; /* AUTOCLEAN et al */ 
67 

68 unsigned nsyms; 

69 unsigned ndeps; 

70 

71 struct module symbol *syms; 

72 struct module_ref *deps; 

73 struct module_ref *refs; 

74 int (init) (void); 

75 void (*cleanup) (void) ; 

76 const struct exception table entry *ex table start; 
TT const struct exception table entry *ex table end; 
T8 Bifdef | alpha . 

79 unsigned long gp; 

80 #endif 
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81 /* Members past this point are extensions to the basic 

82 module support and are optional. Use mod member present( ) 

83 to examine them. */ 

84 const struct module persist *persist start; 

85 const struci module persist *persist end; 

86 int (*can unload) (void) ; 

87 int runsize; /* In modutils, not currently used */ 

88 const char *kallsyms start; /* All symbols for kernel debugging */ 
89 const char *kallsyms end; 

90 const char *archdata start; /* arch specific data for module */ 

91 const char *archdata end; 

92 const char *kernel data; /* Reserved for kernel internal use */ 
93 n 


这 里 主 归 定义 了 二 种 数据 结构 ,第 一 种 数据 结构 是 module symbol, 每 个 module, symbol 结构 描述 
了 一 个 符号 ， 包 括 符号 名 及 其 所 在 的 地 址 ， 或 者 说 符号 的 值 。 第 二 种 是 module_ref， 用 玉 描 述 模 块 间 
的 依赖 关系 。 最 后 就 是 module 结构 。 内 核 中 的 module 结构 通过 它们 的 指针 next 连 成 一 个 链 。 每 个 模 
块 部 有 个 模块 名 name, size 则 为 模块 的 大 小 ， 函 数 指针 init 和 cleanup 分 别 指向 模块 的 init_module( ) 
和 cleanup_module( ) 函 数 。 指 针 syms 指向 一 个 module symbol 结构 数组 , ihj nsyms 指明 了 数组 的 大 小 ， 
此 即 为 模块 的 符号 表 。 对 模块 中 的 基体 符号 是 否 放 在 其 符号 表 中 也 是 可 以 选择 的 ， 对 此 我 们 还 将 详细 
介绍 。 指 针 deps 指向 一 个 module ref 结构 数组 ，ndeps 则 为 该 数组 的 大 小 。 这 个 数组 中 的 每 个 元 素 
部 通过 其 指名 dep 指向 一 个 module 结构 ， 这 些 就 是 给 定 借 块 所 依赖 的 模块 。 要 安装 一 个 模块 时 ， 这 个 
模块 所 依赖 的 所 有 模块 都 必须 已 经 安装 好 。 与 依赖 关系 〈dep) 方向 相反 的 是 “被 引用 ”关系 ref。 就 
是 说 ， 如 果 模 块 A 引用 了 模块 B 中 的 符号 , 则 A 依赖 于 B， 或 者 说 B 被 A 引 用。 注意 这 里 的 所 谓 “ 依 
WA", BI "dep", 实际 上 就 是 “引用 ” 只 不 过 是 主动 语 仿 的 “引用 ”” 而 “ref” 则 是 被 动 语 态 的 “引用 ?”， 
所 以 一 者 方向 相反 。 

如 果 A 依赖 于 B， 则 模 上 由 A 的 deps 数组 中 有 一 个 元 素 指向 模块 B。 但 足 ， 光 有 这 样 的 联系 还 不 够 
方便 ， 假 如 某 一 个 应 用 程序 要 拆卸 模块 B， 那 就 要 扫描 所 有 已 安装 异 块 的 deps 数组 才能 知道 是 否 还 有 
模块 依赖 于 B GURA, M B 还 有 “用 户 ” 而 不 能 拆除 )。 所 以 ， 在 module 结构 中 还 有 个 指针 refs, 
它 指向 一 个 module_ref 结构 链 ， 链 中 的 每 个 结构 都 通过 指针 ref 指向 一 个 依赖 于 它 的 模块 ,并 且 就 在 那 
个 模块 的 deps BAAD. TALE POI, BEL A 的 deps 数组 中 就 应 该 有 这 人 么 一 个 module_ref 结构 ， 
其 指针 dep 指向 B; 指针 ref WRI A 自身 ， 并 且 通 过 链接 指针 next, ref HEA B 的 refs 链 中 。 这 样 ， 从 
模块 A 出 发 ， 通 过 其 deps 数组 就 能 找到 A 所 依赖 的 所 有 模块 ， 包括 B 在 内 。 反 过 来 ， 从 模块 B 出 发 ， 
则 通过 其 refs 链 就 能 找到 所 有 引用 了 B 的 模块 ， 包 括 A 在 内 。 这 里 ,“ 依 赖 ” 关 系 是 静态 的 ，-… 个 模 
块 依赖 于 哪 几 个 模块 是 固定 的 ， 模 块 一 经 实现 ， 这 一 点 就 定 下 来 了 ， 所 以 适合 于 使 用 数组 。 而 反 过 来 ， 

“被 引用 ”关系 则 起 动态 的 , 一 个 借 块 被 儿 个 模块 引 几 随时 都 可能 变动 ， 所 以 要 采用 动态 的 module ref 
结构 链 MAAD. 

虽然 内 核 并 不 是 可 安装 异 块 ， 仍 是 它 也 有 符号 表 ， 也 受到 上 其 他 模块 的 引用 ， 将 其 看 成 可 安装 模块 
本 以 简化 程序 设计 ， 所 以 为 内 核 也 定义 了 -个 module 结构 ， 从 kernel. module 开始 ， 所 有 已 安装 模块 
的 module 结构 都 链接 在 一 起 成 为 一 条 链 ， 内 核 中 的 全 局 量 module. list 就 指向 这 条 链 。 

此 处 建议 读者 先 不 忙 往 下 看 ， 先 把 前 而 介绍 的 三 个 数据 结构 以 及 相互 之 问 的 联系 整理 - -下 ， 画 张 
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理解 了 这 几 个 数据 结构 ，sys_query_module( ) 的 代码 就 很 简单 了 。 如 前 所 述 ， 如 果 参 数 name. user 
为 NULL 就 表示 但 询 的 对 和 象 为 内 核 本 身 ， 其 module 结构 即 kernel. module; 这 是 在 kernel/module.c 中 
定义 的 : 


41 static struct module kernel module = 

42 人 

43 size of struct: sizeof (struct module), 
44 name: a 

45 uc: {ATOMIC_INIT(1)}, 

46 flags: MOD. RUNNING, 

47 syms: __start___ksymtab, 
48 ex table start: | .siart, ex table, 
49 ex liable end: __ stop. ex table, 
50 kallsyms start: | start . kallsyms, 
51 kallsyms end: Stop _ kallsyms, 
52: -H 


凡是 不 出 现在 初始 值 定 义 中 的 字段 〈 如 deps 和 refs 等 等 )， 其 值 均 为 0 8X NULL. ER, 内 核 没 
有 init module( ) 和 cleanup_module( ) 这 两 个 函数 ， 因为 相应 的 函数 指针 都 是 NULL. HE, ARRA 
deps 数组 ， 开 始 时 也 没有 refs 链 。 可 是 ， 这 个 数据 结构 中 的 指针 syms JÉT start. ksymtab. ah At 
内 核 符号 表 的 起 始 地 址 。 符 号 表 的 大 小 nsyms 为 0， 但 是 在 系统 初始 化 时 会 在 函数 init, modules ) 中 将 
其 设置 成 正确 的 数值 。 

如 果 参 数 name. user 不 是 NULL， 那 就 是 查询 一 个 特定 的 模块 了 。 所 以 在 通过 get_mod_name( ) 从 
用 户 空间 复制 模块 名 以 后 就 通过 find_module( ) 在 队列 module list 中 寻找 相应 的 module SE Rl. iX BH 
数 的 代码 也 在 kernel/module.c 中 : 


[sys query. module( ) > find module( )] 


993 /* 

994 * Look for a module by name, ignoring modules marked for deletion. 
995 */ 

996 


997 struct module * 
998 find module (const char *namc) 


999 { 

1000 struct module *mod; 

1001 

1002 for (mod = module list; mod ; mod = mod->next) { 
1003 if (mod »flags & MOD DELETED) 

1004 continue; 

1005 if (!stremp (mod->name, name)) 

1006 break; 

1007 j 

1008 
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1009 return mod; 
1010 ) 


至 于 对 具体 查询 的 服务 ， 即 qm modules( ). qm. symbols ( ). qm_deps( ) 等 等 ， 则 很 简单 了 。 我 们 
看 “下 kernel/module.c 中 函数 qm_deps( ) 的 代码 : 


[sys_query_module( ) > qm deps( )] 


701 static int 
702 qm deps (struct module *mod, char *buf, size t bufsize, size_t *ret) 
703 { 


704 Size t i, space, len; 

705 

706 if (mod == &kernel module) 

707 return -EINVAL; 

708 if (!MOD CAN QUERY (mod)) 

709 if (put user(0, ret)) 

710 return -EFALULT; 

711 else 

712 return 0; 

713 

114 space = 0; 

715 for (i = 0; i < mod >ndeps: ++i) ( 
716 const char *dep name = mod >deps[il. dep->name， 
717 

718 len = strlen(dep_name) +1; 

719 if (len > bufsize) 

720 goto calc space needed: 
721 if (copy to user(buf, dep name, len)) 
722 return -EFAULT; 

723 buf += len; 

724 bufsize -= len; 

725 space *- len; 

126 } 

727 

728 if (put user(i, ret)) 

729 return -EFAULT; 

730 else 

731 return 0; 

732 

133 calc space needed: 

734 space += len; 

735 while (++i € mod—>ndeps) 

736 space += strlen (mod—->deps |i]. dep->name) +1; 
737 

738 if (put_user(space, ret)) 

739 return -EFAULT; 
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276 
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281 
282 
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295 
296 
297 
298 
299 
300 
301 
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310 
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312 
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else 
return -ENOSPC; 


系统 调用 返回 0 表示 成 功 ， 此 时 参数 ret ATER ACS PROBUS TU Pe buf 中 则 为 这 些 模 
块 的 模块 名 。 否 则 表示 执行 失败 ， 出 错 代 但 为 ENOSPC 表示 buf 的 空间 太 小 ， 此 时 ret 所 指 的 整数 含有 
所 需 的 空间 大 小 。 这 些 代 码 就 不 需 此 解释 了 ， 其 他 几 个 也 是 - 样 ， 有 兴趣 的 读者 可 以 日 己 阅读 。 


再 看 系统 调用 create module( ) 的 实 坝 sys_create_module( )， 也 在 kemel/module.c 中 : 


/* 


* Allocate space for a module. 


asmlinkage unsigned long 
sys_create_module (const char *namo user, size t size) 


{ 


char *name; 
long namelen, error; 
struct module *mod; 


if (!capable(CAP SYS MODULE)) 
return —EPERM; 
lock kernel( ); 
if ((namelen = get mod name(name user, &name)) < 0) { 
error = namelen; 
goto errQ; 
} 
if (size < sizeof(struct module)-*namelen) | 
error = -EINVAT; 
goto errl; 
} 
if (find module(name) != NULL) { 
error = -EEXIST; 
goto errl; 
] 
if ((mod = (struct module *)module map(size)) == NULL) { 
error ~ -ENOMEM; 
goto errl; 


} 


memset (mod, 0, sizeof (*mod)) ; 
mod->size_of struct - sizeof (*mod) ; 
mod->next = module list; 

mod->name = (char *) (mod + 1); 

mod->size = size; 

memcpy ((char*) (mod*1), name, namelen+1) ; 
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313 

314 put mod name (name); 
315 

316 module list = mod; /* link it in */ 
317 

318 error - (long) mod; 
319 goto err0; 

320 errl: 

321 put mod name (name) ; 
322 err0: 

323 unlock kernel( ); 
324 return error; 

325 ] 


只 有 特权 用 户 才 允许 在 内 核 中 创建 模块 ，capable(CAP_SYS_MODULE) 就 是 对 当前 进程 是 否 有 这 
种 特权 的 检查 。 参 数 size 表示 模块 的 大 小 ， 包 括 模块 的 映 象 本 身 以 及 一 个 module 结构 的 大 小 ， 再 加 上 
模块 名 的 长 度 。 显 然 ，size 罕 少 也 得 等 于 后 两 者 的 和 ， 否 则 就 肯定 错 了 。 模 块 是 以 模块 名 来 惟 地 加 
以 标识 的 ， 所 以 先 要 通过 find_module( ) 检 查 ， 看 是 否 已 经 有 同名 的 模块 存在 。 通 过 了 所 有 这 些 检验 以 
后 , 就 调用 module_map( ) 分 配 空 间 。 对 于 i386 结构 的 CPU, module, map( ) 在 include/asm i386/pgtable.h 
中 定义 为 vmalioc( ): 


7 . &define module map (x) vmal loc (x) 


分 配 得 的 空间 的 开头 用 作 模块 的 module 数据 结构 ( 见 307 410, 然后 是 模块 名 字符 串 ( 见 312 472. 
注意 这 里 (mod+1) 表示 从 mod 所 指 的 地 址 加 上 一 个 module 结构 大 小 的 地 方 。 最 后 剩 下 的 用 十 模块 的 
映 象 。 显 然 ， 新 建立 的 module 结构 基本 上 是 空 的 ， 其 内 容 有 待 于 从 用户 空间 传递 过 来 。 

对 模块 的 module 结构 加 以 初始 化 ， 并 将 其 链 入 module, list 前 端 (JL 309 行 和 316 行 )。 此 后 ， 创 
建 模 块 的 操作 就 完成 了 ， 系 统 调用 返回 内 核 中 为 这 个 模块 所 分 配 的 空间 地 址 。 下 - - 步 是 系统 调用 


init module( )。 


如 前 所 述 , 在 系统 调用 init, module( ) 之 前 要 由 应 用 程序 在 用 户 字 间 完 成 模块 与 内 核 符号 间 的 连接 ， 
这 个 过 程 与 “连接 ”， 即 ld 的 过 程 相 似 。 申 于 这 是 在 用 户 空间 完成 的 ， 不 属于 内 核 的 活动 ， 所 以 我 们 
不 深入 到 这 个 过 程 中 去 了 ， 有 兴趣 的 读者 可 以 从 GNU 网 站 下 载 insmod 的 源 程序 白 己 阅读 。 

相 比 之 下 ，sys_init_module( ) 的 代码 ( 见 kernel/module.c) 就 比较 大 了 ， 我 们 分 段 阅读 。 


[sys init module( )] 


327 /* 

328 * Initialize a module. 
329 */ 

330 


331 asmlinkage long 
332 Sys init module(const char *name user, struct module *mod user) 
333 { 
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334 struct module mod tmp, *mod; 
335 char *name, *n name, *name tmp - NULL; 
336 long namelen, n namelen, i, error; 
337 unsigned long mod user size; 
338 struct module ref *dep; 
339 
340 if (!capable(CAP SYS MODULE)) 
341 return ~EPERM; 
342 lock kernel( ); 
343 if ((namelen = get mod name(name user, &name)) < 0) { 
344 error - namelen; 
345 goto err0; 
346 } 
347 if ((mod = find module(name)) == NULL) { 
348 error = -ENOENT; 
349 goto errl; 
350 } 
351 
352 /* Check module header size. We allow a bit of slop over the 
353 size we are familiar with to cope with a version of insmod 
354 for a newer kernel. But don't over do it. */ 
355 if ((error = get user(mod user size, &mod user-^size of struct)) !- 0) 
356 goto errl; 
357 if (mod user size < (unsigned long)&((struct module *)0L)->persist start 
358 || mod user size > sizeof(struct module) + l6*sizeof(void*)) { 
359 printk (KERN ERR "init module: Invalid module header size. n^ 
360 KERN ERR ^A new version of the modutils is likely ” 
361 "needed. W^) ; 
362 error = -EINVAL; 
363 goto errl; 
364 } 
365 
366 /* Hold the current contents while we play with the user's idea 
367 of righteousness.  */ 
368 mod tmp = *mod; 
369 name tmp = kmalloc(strien(mod->name) + 1, GFP KERNEL); 
/* Where's kstrdup( )? */ 
370 if (name tmp == NULL) { 
371 error = -ENOMEM; 
372 goto errl; 
373 } 
374 strcpy(name tmp, mod->name) ; 
375 
376 error = copy from user (mod, mod user, mod user size); 
371 if (error) { 
378 error = -EFAULT; 
379 goto err2; 
380 } 
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381 

382 /* Sanity check the size of the module. */ 

383 error = —EINVAL; 

384 

385 if (mod->size > mod tmp. size) { 

386 printk (KERN ERR "init module: Size of initialized module ” 
387 "exceeds size of created module. n^); 

388 goto err2; 

389 } 

390 


PACE AES ERAS. RR RAL MHA! "E TH Se ER. JURE find module( ) 从 module list 
找到 目标 模块 的 module 数据 结构 。 在 系统 调用 init_module( ) 之 前 ， 应 用 程序 要 在 用 广 空间 为 目 标 模 块 
准备 一 个 module 数据 结构 ， 并 且 将 指向 这 个 结构 的 指 外 作为 参数 传 给 内 核 ， 这 就 是 这 里 的 指针 
mod_user。 此 时 内 核 中 虽然 已 经 出 sys_create_module( ) 创 建 了 目标 模 庆 的 module 数据 结构 ， 介 是 这 个 
数据 结构 茜 本 上 还 是 空 的 ， 其 内 容 只 能 米 白 用 户 空 间 。 现 在 ， 就 要 把 用 户 空 间 module 结构 的 内 容 复制 
到 内 核 中 的 对 应 module 结构 二。 可 是 ， 由 十 版 本 等 等 的 原因 ， 用 户 空间 的 module 结构 有 可 能 与 内 核 
中 的 不 完全 一 样 。 为 了 防止 因 用 户 空 间 的 module 结构 与 内 核 小 的 module 结构 大 小 不 符 而 造成 条 烦 ， 
先 把 用 户 空间 module 结构 中 的 size. of. struet 字段 复制 过 来 加 以 检查 。 在 module 数据 结构 的 定义 中 ， 
从 persist. start 开始 的 三 个 指针 是 内 核对 这 个 数据 结构 的 扩充 ， 用 户 空间 的 module 结构 有 可 能 并 个 包 
括 这 些 字 段 (读者 不 妨 试 一 下 “man init_module” 看 看 )， 所 以 检查 其 大 小 时 的 条 件 之 一 是 不 小 于 结构 
小 persist start 以 前 的 那 一 部 分 。 同 时, 这 个 大 小 也 不 能 超过 内 核 中 module 结构 的 大 小 加 上 16 个 指针 ， 
Bl 64 个 字 节 的 位 置 。 遂 过 了 对 结构 大 小 的 检查 以 后 ， 先 把 内 核 中 的 module 结构 暂时 保存 在 堆栈 中 作 
为 后 备 ( 见 368 行 )， 然 后 就 从 用 户 空间 复制 其 module 结构 。 复 制 时 是 以 内 存 中 的 module 结构 大 小 为 
准 的 ， 以 免 “ 溃 坏 ” 内 核 中 的 内 存 空 间 。 复 制 过 来 以 后 ， 还 要 核对 “新 版 ”数据 结构 中 指明 的 横 块 大 
PSRK “MA” RRRA ETE A 385 行 )。 

Mil SMEAR LG, FRE AEA ARIS BEPL, ET PB: 





[sys init module( )] 


391 /* Make sure all interesting pointers are sane. */ 

392 

393 if (!mod bound(mod-^name, namelen, mod)) | 

394 printk(KERN ERR ^init module: mod~>name out of bounds. W/): 
395 goto err2; 

396 } 

397 if (mod->nsyms && !mod bound(mod-^syms, mod->nsyms, mod)) { 
398 printk(KERN ERR "init module: mod->syms out of bounds. W^): 
399 goto err2; 

400 } 

401 if (mod >ndeps && !mod_bound(mod->deps, mod->ndeps, mod)) { 
402 printk(KERN ERR ^init module: mod->deps out of bounds. m^): 
408 goto err2; 

404 ] 
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if (mod->init && !mod bound(mod->init, 0, mod)) | 
printk(KERN ERR "init module: mod->init out of bounds. n^); 
goto err2; 

} 

if (mod-»cleanup && !mod_hound(mod->cleanup, 0, mod)) { 
printk(KERN ERR "init module: mod->cleanup out of bounds. \n”) ; 
goto err2; 


if (mod->ex_table start > mod->cx_table_end 
|| (mod-»ex table start && 
!((unsigned long)mod-^ex table start >= 
((unsigned long)mod + mod-^size of struct) 
&& ((unsigned long)mod-^ex table end 
< (unsigned long)mod + mod->size))) 

|| ({ (unsigned long)mod ex table start 

- (unsigned long)mod-^ex table end) 
% sizeof(struct exception table entry))) { 
printk(KERN ERR "init module: mod >ex table * invalid. n^); 
goto err2; 


if (mod->flags & "MOD AUTOCLEAN) { 
printk(KERN ERR "init module: mod->flags invalid. W^); 
goto err2; 
} 
#ifdef __ alpha 
if (!mod bound(mod-^gp - 0x8000, 0, mod)) { 
printk(KERN ERR "init module: mod->gp out of bounds. W^); 
goto err2; 
} 
#endif 
if (mod member present (mod, can unload) 
&& mod->can unload && !mod bound (mod->can unload, 0, mod)) | 
printk(KERN ERR "init module: mod-^can unload out of bounds. W^); 
goto err2; 


if (mod member present(mod, kallsyms end)) | 
if (mod-^kallsyms end && 
(!mod bound(mod-^kallsyms start, 0, mod) || 

!mod_bound(mod->kallsyms end, 0, mod))) | 

printk(KERN ERR "init module: mod->kallsyms out of bounds. W^); 
goto err2; 
} 
if (mod >kallsyms start > mod->kallsyms_end) | 
printk (KERN ERR "init module: mod >kallsyms invalid. W^); 
goto crr2; 
] 

} 


if (mod member present(mod, archdata end)) | 
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452 if (mod-^archdata end && 

453 (!mod bound(mod-^archdata start, 0, mod) | 

454 !mod bound (mod-^»archdata end, 0, mod))) { 

455 printk(KERN ERR "init module: mod->archdata out of bounds. W^); 
456 goto err2; 

457 } 

458 if (mod->archdata_start > mod->archdata_end) { 

459 printk(KERN ERR "init module: mod-^archdata invalid. w^); 
460 goto err2; 

461 } 

462 】 

463 if (mod member present (mod, kernel data) && mod->kernel data) { 
464 printk(KERN ERR ^init module: mod->kernel data must be zero. n^); 
465 goto err2; 

466 } 

467 

468 /* Check that the user isn’t doing something silly with the name.  */ 
469 

410 if ((n namelen = get mod name (mod->name - (unsigned long)mod 

411 * (unsigned long)mod user, 

412 &n name)) < 0) { 

413 printk (KERN ERR "init module: get mod name failure. n^); 

474 error = n namelen; 

475 goto err2; 

476 } 

477 if (namelen != n namelen || strcmp(n name, mod tmp. name) != 0) { 
478 printk (KERN ERR "init module: changed module name to ” 

479 "'"Qs' from %s’ \n”, 

480 n_name, mod_tmp. name) ; 

481 goto err3; 

482 } 

483 


这 里 的 宏 操 作 mod, bound( ) 用 来 检查 由 用 户 提 供 的 指针 所 指 的 对 象 是 否 落 在 模块 的 边界 内 ， 定 义 
于 inciude/linux/module.h。 


133 / Check if an address p with number of entries n is within 
the body of module m */ 
134 #define mod bound(p, n, m) ^ 
((unsigned long) (p) >= ((unsigned long) (m) + ((m)—size of struct)) && V 
135 (unsigned long)((p)*(n)) <= (unsigned long) (m) + (m)->size) 


以 第 393 行 对 模块 名 的 检验 为 例 ， 要 检查 的 是 module 结构 中 的 指针 name 指向 为 该 模块 分 配 的 组 

冲 区 内 部 ， 但 是 又 不 落 在 module 结构 的 内 部 ， 同 时 ， 长 度 为 namelen 的 字符 串 又 不 越 出 模块 缓冲 区 的 

边界 。 简 音 之 ， 这 个 字符 串 从 必须 在 模块 映 象 的 范围 内 。 类 似 地 ， 如 采 模 块 的 符号 表 以 及 deps 数组 非 

空 ， 则 也 必须 落 在 为 模块 分 配 的 缓冲 区 中 、module 结构 外 。 不 光 是 对 指向 数据 结构 的 指针 ， 对 痕 数 指 
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针 也 是 … 样 ，init_module( ) 和 cleanup module( ) 两 个 函数 必须 在 模块 映 象 的 范围 中 。 

在 模块 映 象 中 也 可 以 包含 对 异常 的 处 理 。 发 生 于 一 些 特殊 地 址 上 的 异常 ， 可 以 通过 一 种 描述 结构 
exception, table entry 规定 对 异常 的 反应 和 处 理 ， 这 些 描述 结构 在 可 执行 映 象 连接 时 都 被 集中 在 一 个 数 
组 中 (内核 的 exception table entry 结构 数组 为 __start___ex_table[ ])。 当 异常 发 生 时 ， 内 核 的 异常 响 
应 程序 会 先 搜索 这 个 数组 ， 看 看 是 否 对 所 发 生 的 异常 《根据 异常 发 生 时 的 地 址 》 规 定 了 特殊 的 处 理 。 
我 们 在 第 3 章 中 曾 讲 到 过 有 关 的 情景 ， 读 者 可 以 回 过 去 看 一 下 。 当 内 核 支持 可 安装 模块 时 ， 其 异常 响 
应 程序 会 扫描 module_list， 对 于 已 安 装 的 每 个 模块 都 搜索 其 异常 处 理 描述 表 《〈 如 前 所 述 ， 内 核 本 身 也 
被 看 作 是 一 个 模块 )。 理 所 当然 ， 每 个 模块 的 异常 处 理 描述 表 也 必须 在 模块 映 象 的 范围 内 。 虽 然 对 异常 
处 理 描述 表 的 检验 没有 使 用 宏 操 作 bound， 但 是 其 精神 是 一 致 的 。 之 所 以 在 这 里 不 使 用 bound， 是 因为 
异常 处 理 描述 表 是 以 起 点 和 终点 而 不 是 起 点 加 长 度 来 界定 其 范围 的 。 

内 核 中 module 结构 内 的 最 后 “个 字段 是 函数 指针 can_unload， 但 是 这 属于 module 结构 的 扩充 部 
分 ,用 户 空间 的 module 结构 可 能 包括 也 可 能 不 包括 这 个 字段 。 如 果 包 括 了 这 个 字段 ， 那 就 也 要 保证 这 
个 指针 指向 模块 的 映 象 内 部 。 那 么 ， 怎 样 才能 知道 用 户 空间 的 module 结构 是 否 包 括 这 个 字段 呢 ? 方法 
是 检查 这 个 结构 的 大 小 , 为 此 目的 定义 了 一 个 宏 操 作 mod_member_present, 它 是 在 module.h 中 定义 的 : 





125 /* When struct module is extended, we must test whether the new member 


126 is present in the header received from insmod before we can use it. 
127 This function returns true if the member is present. */ 

128 

129 üdefine mod member present (mod, member) \ 

130 ((unsigned long) (&((struct module *)OL)->member + 1) \ 

131 <= (mod)—>size_of struct) 


最 后 ， 对 于 模块 名 还 要 作 一 番 检 验 。 虽 然 在 前 面 已 经 根据 参数 name user 从 用 户 空间 复制 了 作为 
系统 调用 参数 的 模块 名 ,但 是 这 个 模块 名 是 否 与 用 户 空间 module 结构 中 所 指示 的 模块 名 一 敏 呢 ? 显然 ， 
不 能 排除 不 一 致 的 可 能 性 ， 所 以 现在 要 根据 module 结构 的 内 容 把 模块 映 象 中 的 模块 名 也 复制 过 来 , 再 
与 原先 使 用 的 模块 名 比较 《 见 470 至 477 fF). 

经 过 了 所 有 这 些 检验 以 后 ， 可 以 从 用 户 空间 把 模块 的 映 象 复制 过 来 了 。 我 们 往 卜 看 : 


[sys_init_module( )] 


484 /* Ok, that's about all the sanity we can stomach; copy the rest. */ 
485 

486 if (copy from user((char *)mod*mod user size, 
487 (char *)mod user^mod user size, 
488 mod->size-mod user size)) { 

489 error = -EFAULT; 

490 goto err3; 

491 ) 

492 

493 if (module arch init (mod)) 

494 goto err3; 

495 


2447. 


496 
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器 ， 
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/* On some machines it is necessary to do something here 
to make the I and D caches consistent. */ 
flush icache range((unsigned long)mod, (unsigned long)mod + mod->size) ， 


mod->next = mod tmp.next; 
mod->refs = NULL; 


/* Sanity check the module’s dependents */ 
for (i = 0, dep = mod deps; i < mod->ndeps; ++i, ++dep) { 
struct module *o, *d = dep-^dep; 


/* Make sure the indicated dependencies are really modules. */ 
if (d == mod) { 
printk(KERN ERR ^init module: self-referential ” 


"dependency in mod->deps. W^); 
goto err3; 
} 
/* Scan the current modules for this dependency */ 
for (o = module list; o != &kernel module && o != d; o = o->next) 
if (o !=d) 1 


" 


printk(KERN ERR "init module: found dependency that is 
"(no longer?) a module. W^); 
goto err3; 


/* Update module references.  */ 
for (i = 0, dep ~ mod->deps: i < mod->ndeps; ++i, ++dep) { 
struct module *d = dep->dep; 


dep->ref = mod; 

dep-^next ref = d->ref's: 

d->refs = dep; 

/* Being referenced by a dependent module counts as a 
usc as far as kmod is concerned. */ 

d->flags |= MOD USED ONCE; 


/* Free our temporary memory.  */ 
put mod name(n name); 
put. mod name (name) ; 


由 于 module MAG CARAI HERBS ILLS ME BEA LUE T. XT 1386 处 理 
module arch init 是 空 操作 ， 总 十 返回 0， 所 以 没有 作用 。 对 有 些 处 理 器 ， 复 制 过 来 的 内 容 有 一 部 
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分 可 能 还 在 高 速 缓存 中 而 没有 真 止 扎 入 旬 内 存 中 ， 所 以 更 通 过 flush_icache_range( ) 将 这 些 内 容 “ 冲 刷 ” 
到 内 存 中 去 ， 但 是 对 386 处 理 器 而 言 ， 这 并 不 是 个 问题 ， 所 以 这 个 函数 也 是 空 操作 。 

前 面 讲 过 ， 模 块 之 间 可 能 有 依赖 关系 ， 止 在 安装 中 的 模块 可 能 要 引用 其 他 模块 中 的 符号 。 虽 然 碍 
用 户 空间 已 经 完成 了 对 这 些 符 号 的 连接 ， 但 现在 必须 验证 这 些 模块 还 在 内 核 中 未 被 拆除 。 所 以 ， 这 里 
通过 一 个 for 循环 检验 模块 的 deps 数组 ( 见 504 行 )。 对 于 数组 中 的 每 一 个 元 素 , 即 module ref A, ~~ 
方面 是 检查 其 dep 指针 〈 这 些 指针 是 在 用 户 空间 的 连接 阶段 设置 好 了 的 ) 并 不 是 指向 日 标 模块 日 身 
另 一 方面 是 扫描 module_list， 如 果 dep 指针 所 指 的 module 结构 已 经 不 在 module, list 中 ( 见 515 行 的 for 
循环 )， 那 么 这 次 系统 调用 就 失败 了 ， 对 目标 模块 的 安装 也 就 失败 了 。 在 这 种 情况 下， 应 用 程序 如 
insmod) 有 责任 通过 系统 调用 delete_module( ) 将 已 经 创建 的 module 结构 从 module list 中 有 删除 。 

通过 了 第 一 趟 扫描 以 后 ， 还 要 再 来 … 次 扫描 ( 见 526 行 )， 这 一 次 要 将 每 个 module ref 结构 链 入 到 
所 依赖 模块 《指针 a 指向 这 个 模块 的 module 结构 ) 的 refs 队列 中 ， 并 将 结构 中 的 ref 指针 指向 正在 安 
装 中 的 module 结构 。 这样 , 每 个 module. ref 结构 既 存 在 于 其 所 属 模块 ( 即 正在 安装 中 的 模块 ) 的 deps[ ] 
数组 中 ， 又 出 现 于 该 模块 所 依赖 的 某 个 模块 的 refs 队列 中 ， 成 为 连接 两 个 模块 的 纽带 。 从 一 个 模块 的 
deps[ ] 数 组 可 以 找到 这 个 模块 所 依赖 的 所 有 模块 ， 而 沿 着 它 的 refs 链 则 可 以 找到 所 有 依赖 于 它 的 模块 ， 
从 而 形成 了 模块 在 内 核 中 的 “关系 网 ”。 

至 此 ， 模 块 的 安装 已 基本 完成 ， 为 模块 安装 而 分 配 的 临时 缓冲 区 n_name 和 name 都 可 以 释放 了 。 
剩 下 的 大 事情 还 有 一 件 ， 屠 就 是 启动 执行 模块 的 init_module( ) 函 数 。 





[sys_init_module( )] 


541 /* Initialize the module. */ 

542 mod->flags |= MOD INTTIALIZING; 

543 atomic set (&mod-^uc. usecount, 1) ; 

544 if (mod init && (error = mod init ( )) != 0) { 
545 atomic set (&mod->uc. usecount, 0) ; 

546 mod->flags &- "MOD INITIALTZING; 

547 if (error > 0) /* Buggy module */ 

548 error = -EBUSY; 

549 goto err0; 

550 } 

551 atomic dec (&mod-^uc. usecount) ; 

552 

553 /* And set it running. */ 

554 mod-^flags = (mod->flags | MOD RUNNING) & “MOD INITIALIZING; 
555 error = 0; 

556 goto errO; 

557 

558 errs: 

559 put mod name (n_name) ; 

560 err2: 

561 *mod - mod tmp; 

562 strcpy((char *)mod->name, name tmp);/* We know there is room for this*/ 
563 errl: 

564 put mod name (name) ; 
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565 err0: 

566 unlock kernel( ); 
567 kfree (name, tmp) ; 
568 return error; 

569  } 


不 提供 init module( ) 函 数 ， 也 就 是 让 module 结构 中 的 函数 指针 init 为 NULL 也 是 允许 的 , 但 是 那 
样 就 使 模块 的 存在 失去 了 意义 《 除 占据 了 ~- 些 内 核 空间 外 )， 因 为 到 这 里 为 止 内 核 还 没有 任何 途径 访问 
模块 中 的 变量 或 调用 模块 中 的 任何 函数 。 所 以 ， 在 正常 情况 下 都 会 提供 模块 的 init_module( ) 函 数 。 如 
果 这 个 函数 正常 完成 了 它 的 操作 就 应 该 返回 0， 否则 模块 的 安装 就 失败 了 。 

读者 在 后 面 将 会 看 到 一 个 典型 init_module( ) 函 数 的 代码 。 


最 后 一 个 系统 调用 是 delete module( )， 用 来 拆卸 已 安装 的 模块 ， 其 内 核 中 的 实现 为 
sys_delete_module( )。 我 们 仍旧 分 段 来 读 (kemel/module.c);: 


586 asmlinkage long 
587 sys, delete module (const char *name user) 


588 { 

589 struct module *mod, *next; 
590 char *name; 

591 long error; 

592 int something changed; 

593 

594 if (!capable(CAP SYS MODULE)) 
595 return -EPERM; 

596 

597 lock kernel( ); 

598 if (name user) ( 

599 if ((error = get mod name(name user, &name)) < 0) 
600 goto out; 

601 if (error == 0) { 

602 error = -EINVAL; 

603 put mod name (name); 
604 goto out; 

605 } 

606 error = -ENOENT; 

607 if ((mod = find module(name)) == NULL) | 
608 put mod name (name); 
609 goto out; 

610 } 

611 put mod name (name); 

612 error = -EBUSY; 

613 if (mod->refs !- NULL) 
614 goto out; 

615 

616 spin lock(&unload lock); 
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一 一 一 


617 if (! MOD IN USE(mod)) { 

618 mod->flags |= MOD DELETED; 

619 spin uniock(&unload lock); 

620 free module(mod, 0); 

621 error = 0; 

622 } else { 

623 spin unlock(&unload lock); 

624 } 

625 goto out; 

626 } 

627 

628 /* Do automatic reaping */ 

629 restart: 

630 something changed = 0; 

631 for (mod = module list; mod !- &kernel module; mod = next) { 
632 next = mod->next; 

633 spin lock(&unload lock); 

634 if (mod->refs == NULL 

635 && (mod->flags & MOD AUTOCLEAN) 
636 && (mod-^flags & MOD RUNNING) 
637 && !(mod-^flags & MOD DELETED) 
638 && (mod->flags & MOD USED ONCE) 
639 && ! MOD IN USE(mod)) 1 

640 if ((mod-^flags & MOD VISITED) 
641 && '(mod->flags & MOD JUST FREED)) { 
642 spin unlock(&unload lock); 
643 mod->flags &= “MOD VISITED; 
644 } else { 

645 mod->flags |= MOD DELETED; 
646 spin_unlock (&unload_lock) ; 
647 free module(mod, 1); 

648 something changed = 1; 

649 } 

650 } else { 

651 spin_unlock (&unload_lock) ; 

652 } 

653 } 

654 if (something changed) 

655 goto restart; 

656 for (mod = module list; mod !- &kernel module; mod = mod->next) 
657 mod-^flags &- "MOD JUST FREED; 

658 error = 0; 

659 out: 

660 unlock kernel ( ); 

661 return error; 

662  ] 
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为 非 0， 表 示 拆 除 一 个 特定 的 模块 ; 为 0 则 表示 “清理 仓库 ”， 即 拆除 所 有 可 以 拆除 的 模块 。 我 们 先 看 
有 具体 目标 的 拆除 。 从 用 户 空间 复制 模块 名 之 后 ， 就 道 过 find module( ) 从 module list 中 找到 日 标 模块 
的 module 结构 。 模 鼎 的 拆 和 印 也 是 有 条 件 的 ， 如 果 内 核 中 还 有 其 他 模块 依赖 于 日 标 模块 ， 即 引用 日 标 模 
块 中 的 符号 ， 那 就 不 能 把 自 标 模块 拆除 。 怎 么 知道 是 天 有 模块 依赖 十 日 标 模块 呢 ? 看 目标 模块 的 refs 
肯 针 是 否 为 正 0 就 可 以 了 。 即 使 已 经 没有 模块 依赖 寺 上 月 标 模 块 ， 也 还 不 能 够 说 明 就 可 以 立即 拆除 这 个 
模块 ， 这 里 还 有 一 个 条 件 ， 即 _MOD _IN_USE(med) 的 值 为 0， 也 就 是 说 目标 模块 不 在 使 用 中 。 宏 操作 
__MOD_IN_USE( ) 定 义 于 include/linux/module.h: 


147 Hdefine __MOD_IN_USE (mod) \ 
148 (mod member present((mod), can unload) && (mod)->can unload V 
149 ? (mod)-^can unload( ) : atomic read(&(mod)-»^uc. usecount) ) 


DAES EMT UEH, WIR module 结构 中 包括 了 函数 指针 can_unioad， 并 且 这 个 函数 指针 非 0， 
职 调 用 这 个 函数 ， 并 根据 其 返 癌 值 来 决定 起 否 可 以 拆除 ， 售 则 就 看 module 结构 中 的 使 用 计数 
uc.usecount. {£ BITE sys. init module( ) 的 代 但 中 , 我 们 看 到 计数 器 uc.usecount 在 调用 init module( 之 前 
设置 成 1， 而 在 调用 之 后 ， 则 将 其 递 降 成 0 COL 543 行 和 551 行 )。 这 个 计数 器 为 非 0 表示 正在 对 模块 
进行 某 种 操作 ， 所 以 此 时 若 紫 求 拆 伸 便 失 败 而 返回 出 错 代 码 EBUSY。 反 之 ， 如 果 一 切 顺利 ， 就 调用 
module.c 中 的 函数 free_module( ) 实 施 拆 除 : 


[sys_delete_module( ) > free_module( )] 


1012 /* 

1013 * Free the given module 

1014 */ 

1015 

1016 void 

1017 free_module (struct module *mod, int tag freed) 

1018 { 

1019 struci module ref *dep; 

1020 unsigned i; 

1021 

1022 /* Let the module clean up. */ 

1023 

1024 if (mod->flags & MOD RUNNINC) 

1025 { 

1026 if (mod-^cleanup) 

1027 mod->cleanup( ); 

1028 mod->flags &= "MOD RUNNING; 

1029 } 

1030 

1031 /* Remove the module from the dependency lists. */ 
1032 

1033 for (i = 0, dep = mod->deps; i < mod—ndeps; ++i, ++dep) { 
1034 struct module ref **pp; 

1035 for (pp = &dep-^dep- refs; *pp !- dep; pp = &(*pp)— next ref) 
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1036 continue; 

1037 *pp = dep next ref; 

1038 if (tag freed && dep->dep—refs == NULL) 
1039 dep->dep->flags |= MOD JUST FREED; 
1040 j 

1041 

1042 /* And from the main module list. */ 

1043 

1044 if (mod == module list) | 

1045 moduie list = mod->next: 

1046 ) else { 

1047 struct module *p; 

1048 for (p = module list; p->next != mod; p = p—next) 
1049 continue; 

1050 p-?next = mod-?next; 

1051 } 

1052 

1053 /* And free the memory. */ 

1054 

1055 module unmap (mod); 

1056 } 


与 安装 模块 时 调用 init_module( ) 相 对 应 ， 拆 除 模块 时 首先 要 调用 目标 模块 的 cleanup. module( ) Pi 
数 (1027 行 )。 通 常 ， 在 这 个 函数 中 要 将 模块 在 系统 中 的 “登记 ”撤销 ， 使 系统 不 能 再 看 到 这 个 模块 的 
存在 。 读 者 以 后 会 看 到 典型 的 cleanup_module( ) 消 数 代码 。 调 用 了 这 个 函数 以 后 , 就 失去 了 进入 这 个 模 
块 的 途径 ， 从 而 在 概念 上 这 个 模块 已 经 不 在 运行 中 了 ， 所 以 把 模块 的 MOD_RUNNING 标志 位 清 0。 

拆除 一 个 模块 以 后 ， 它 所 依赖 的 所 有 其 他 模块 就 都 少 了 一 个 “用 户 ” 如 前 所 述 ， 每 个 异 块 都 有 一 
个 refs 队列 ， 它 的 所 有 “用 户 ” 模 块 都 通过 一 个 module ref 数据 结构 链 入 到 这 个 队列 中 。 所 以 ， 坝 在 
要 把 目标 模块 从 它 所 依赖 的 所 有 模块 的 refs 队列 中 脱 链 。 这 里 的 for 循环 〈1033 行 )， 是 检查 日 标 模 鼎 
的 deps 数组 ， 依 次 处 理 数组 中 的 每 个 module ref 结构 ， 结 构 中 的 指针 dep 指向 所 依赖 的 模块 〈 泡 的 
module 结构 )。 所 以 ，dep->dep 指向 其 中 某 个 模块 的 module 结构 ， 而 dep->dep->refs 进而 指 加 其 refs 
队列 。 第 二 层 for 循 坏 〈1035 行 ) 顺 着 这 个 队列 找到 指 问 上 述 module ref 结构 的 指针 ， 使 pp TRI IX 
指针 。 由 于 module ref 结构 中 的 指针 next ref 指 癌 该 队 列 中 的 下 “个 module ref 结构 ，1037 行 就 使 属 
于 目标 模块 的 module_ref 结构 从 队列 中 脱 链 。 这 里 之 所 以 需要 第 .个 for 循环 是 因为 refs 队列 是 单 链 队 
列 ， 只 有 顺 着 这 个 队列 才能 找到 需要 脱 链 的 数据 结构 。 从 队列 中 鹏 链 的 module ref 结构 并 不 需 此 (也 个 
应 该 } 单 独 释放 ， 因 为 整个 deps 数组 部 是 随 模 块 的 module 结构 〈 以 及 模块 映 象 的 空间 ) 一 起 作为 一 个 
整体 分 配 的 。 所 以 ， 最 后 将 日 标 模 抉 的 module 结构 也 从 module list 队列 中 脱 链 以 后 ， 就 通过 
module unmap( ) 将 模块 所 占用 的 所 有 内 存 资源 作为 一 个 整体 释放 〈1055 行 )。 

… 个 模块 的 拆除 有 可 能 使 它 所 依赖 的 其 他 模块 得 到 “自由 ” 如 果 将 一 个 module_ref 结构 从 一 个 模 
ERY refs 队列 脱 链 以 后 使 这 个 队列 变 成 了 空 队 列 ， 那 么 这 个 模块 就 再 没有 其 他 模块 依 顿 丁 锋 了 。 企 这 
种 情况 下 ， 如 果 参 数 tag_freed AAR 0, s EE ECT EX MOD JUST FREED 标志 位 ， 表 示 这 个 模 
块 刚 刚 得 到 自由 。 不 过 ， 在 sys_delete_module( ) 中 有 日 标 地 拆除 个 别 模块 而 调用 free module( ) 时 这 个 
参数 为 0 ( 见 620 行 )。 
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回 到 sys delete module( ) 的 代码 中 ， 如 果 调 用 时 的 参数 name_user 为 NULL， 就 表示 要 拆除 内 核 中 
所 有 可 以 拆除 的 模块 。 另 一 方面 ， 在 有 目标 地 拆除 了 一 个 模块 之 后 ， 由 于 可 能 有 模块 得 到 了 自由 ， 也 
要 进一步 拆除 所 有 可 以 拆除 的 模块 。 所 谓 “ 可 以 拆除 ”， 是 指 同时 满足 以 下 条 件 : 
(1) 不 再 有 任何 模块 依赖 于 它 (634 行 )。 
(2) 安装 时 带 有 MOD_AUTOCLEAN 标志 位 ， 人 允许 自动 拆除 (635 47). 
(3) ”处 于 运行 状态 ， 即 已 经 安装 完毕 但 尚未 拆除 (636 行 )。 
(4) ”尚未 开始 拆除 《637 行 )， 注 意 在 上 面 的 618 行 已 经 设置 了 模块 的 MOD_DELETED 标志 ， 然 
后 在 解 了 锁 以 后 才 调 用 free module( ), 而 MOD_RUNNING 标志 位 则 是 在 free_module( ) 里 面 
在 调用 了 模块 的 cleanup module( ) 函 数 以 后 才 清 0 的 。 所 以 MOD. DELETED 标志 表示 拆除 
的 过 程 已 经 启动 。 
(5 ”模块 安装 以 后 已 经 受到 过 引用 (638 行 )。 这 种 引用 既 可 能 来 白 其 他 模块 ， 也 可 能 来 自 内 核 。 
例如 ， 在 安装 一 个 文件 系统 〈 指 设备 ) 时 ， 如 果 所 涉及 的 文件 系统 〈 指 格式 ) 是 以 模块 方式 
实现 的 ， 则 就 要 对 此 模块 的 module 结构 调用 一 个 函数 try_inc_mod_count( )， 递 增 其 使 用 计 
数 并 设置 其 MOD_USED_ONCE 标志 位 。 
(6) 模块 已 不 在 使 用 中 (639 行 )。 
代码 中 通过 一 个 for 循环 扫描 module list 队列 ， 寻 找 同时 符合 所 有 这 些 条 件 的 模块 。 这 样 的 扫描 
可 能 要 反复 多 次 ， 因 为 每 拆除 一 个 模块 就 有 可 能 解放 出 其 他 一 些 模块 ， 而 使 其 中 的 某 些 模块 也 满足 了 
自动 拆除 的 条 件 。 所 以 ， 每 拆除 一 个 模块 以 后 就 把 something_changed 置 成 1， 使 得 在 for 循环 结束 以 
后 再 转 回 restart 标号 处 〈629 47) 开始 对 module list 新 一 轮 的 扫描 。 


特权 用 户 可 以 执行 实用 程序 /sbin/insmod 和 /sbin/rmmod, 通过 内 核 提 供 的 上 述 4 个 系统 调用 完成 具 
体 模块 的 安装 和 拆卸 。 由 于 /sbin/insmod 实际 上 还 是 个 相当 复杂 的 月 标 代码 连接 过 程 ， 用 户 开发 的 程序 
中 一 般 不 应 该 、 也 不 必要 自行 直接 调用 create_module( ). init module( ) 等 系统 调用 。 

在 由 用 户 通 过 /sbim/insmod 安装 模块 的 过 程 中 ， 内 核 处 于 一 种 被 动 的 地 位 。 但 是 ， 在 很 多 情况 下 内 
核 需 要 主动 地 启动 某 个 模块 的 安装 , 而 不 能 只 是 消极 地 等 待 。 例如 , 读者 在 第 4 章 关 于 系统 调用 exec( ) 
的 代码 中 曾经 看 到 ， 当 内 核 打 开 一 个 特殊 格式 的 二 进 制 可 执行 程序 ， 却 发 现 内 核 中 并 没有 支持 这 种 格 
式 的 目标 代码 装 入 程序 时 ， 就 会 试图 先 装 入 文 持 这 种 格式 的 可 安装 模块 。 其 体 的 代码 在 exec.c 中 的 
search_binary_handler( ) 中 ， 读 者 不 妨 回 过 去 看 一 下 。 类 似 的 情况 还 有 很 多 ， 例 如 当 内 核 从 网 络 中 接收 
到 一 个 特殊 的 packet 或 报 文 ， 而 文 持 相应 规程 的 模块 尚未 安装 。 又 如 当 内 核 检 测 到 某 种 硬件 ， 而 支持 
这 种 硬件 的 模块 尚未 安装 ， 等 等 。 

在 这 样 的 情况 下 ， 内 核 都 通过 … 个 函数 reguest_module( ) 主 动 地 启动 模块 的 安装 。 所 以 ， 许 多 模块 
的 安装 实际 上 都 是 在 用 户 不 知 不 觉 中 由 内 核 自 行 启动 /sbin/insmod 安装 的 。 让 我 们 来 看 看 这 个 自动 安装 
WEF. AX reguest_module( ) 的 代码 在 kernel/kmod.c 中 : 


159 f/** 

160 * request module - try to load a kernel module 

161 * @module name: Name of module 

162 * 

163 * Load a module using the user mode module loader. The function returns 
164 * zero on success or a negative errno code on failure. Note that a 


- 154. 
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successful module load does not mean the module did not then unload 
and exit on an error of its own. Callers must check that the service 
they requested is now available not blindly invoke it. 


If module auto-loading support is disabled then this function 
becomes a no-operation. 


X Xx X X X * 


*/ 


int request module (const char * module name) 
{ 
pid t pid; 
int waitpid result; 
sigset t tmpsig; 
int i; 
static atomic t kmod concurrent = ATOMIC INIT(0) ; 
tdefine MAX KMOD CONCURRENT 50 /* Completely arbitrary value - KAO */ 
static int kmod loop msg; 


/* Don’t allow request module( ) before the root fs is mounted! */ 
if ( ! current-^fs— root ) { 
printk(KERN ERR "request module[*s]: Root fs not mounted\n’, 
module name); 
return -EPERM; 


/* If modprobe needs a service that is in a module, we get a recursive 
loop. Limit the number of running kmod threads to max threads/2 or 
MAX KMOD CONCURRENT, whichever is the smaller. A cleaner method 
would be to run the parents of this process, counting how many times 
kmod was invoked. That would mean accessing the internals of the 
process tables to get the command line, proc pid cmdline is static 
and it is not worth changing the proc code just to handle this case. 
KAO. 


* XX X x* X X X 


*/ 
i = max threads/2; 
if (i > MAX KMOD CONCURRENT) 
i = MAX KMOD CONCURRENT ; 
atomic inc(&kmod concurrent); 
if (atomic read(&kmod concurrent) > i) { 
if (kmod loop msg- < 5) 
printk(KERN ERR 
^kmod: runaway modprobe loop assumed and stoppedW^); 
atomic dec(&kmod concurrent); 
return -ENOMEM; 
) 


pid = kernel thread(exec modprobe, (void*) module name, 0); 
if (pia « 0) { 
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213 printk(KERN ERR "request module[%s]: fork failed, errno %d\n”, 
module name, -pid); 


214 atomic dec (&kmod concurrent); 
215 return pid; 
216 } 
217 
218 /* Block everything but SIGKILL/SIGSTOP */ 
219 spin_lock_irg (&current—>sigmask lock); 
220 tmpsig = current—>blocked; 
221 siginitsetinv (&current->blocked, sigmask (SIGKILL) | sigmask (SIGSTOP)) ; 
222 recalc_sigpending (current) ; 
223 spin unlock irq(&current-^sigmask lock); 
224 
225 waitpid result = waitpid(pid, NULL, |. WCLONE); 
226 atomic dec(&kmod concurrent); 
227 
228 /* Allow signals again.. */ 
229 spin_lock_irq(&current—>sigmask_lock) ; 
230 current—>blocked = tmpsig; 
231 recalc_sigpending (current) ; 
232 spin unlock irq(&current-^sigmask lock); 
233 
234 if (waitpid result !- pid) { 
235 printk (KERN ERR 
“request_module[%s]: waitpid (%d,...) failed, errno %d\n”, 
236 module name, pid, -waitpid result); 
237 } 
238 return 0; 
239  ] 


Br ACT EC UE RR ERSHR UE de de CAE. MPH SD SEP UIS UD, SE/sbin/insmod 米 完成 ， 因 
此 它 在 根 设备 尚 末 安 装 前 显然 是 无 法 进行 的 。 注 意 ，reguest_module( ÆT 5 BERE Fach OA 
是 作为 中 断 上 服务 程序 执行 的 ， 这 样 才 能 使 当前 进程 进入 睡眠 测 等 待 模块 安装 的 完成 。 对 
reguest_module( OMK HHA AT AE UKE, 因为 在 安装 的 过 程 中 可 能 会 发 现 必须 先 安装 另 一 个 模块 。 因此 ， 
就 要 对 购 套 深度 加 以 限制 ， 程 序 中 设置 了 -个 静态 变量 Kmod_concurrent， 作 为 嵌 套 深度 的 计数 器 ， 并 
且 还 规定 了 嵌 套 深度 的 上 限 MAX_KMOD_CONCURRENT。 个 过 ,对 嵌 套 深度 的 控制 还 监考 虑 到 系统 
中 对 进程 数量 的 限制 ， 即 max_threads， 因 为 在 安装 的 过 程 中 要 创建 临时 的 进程 。 

通过 了 这 些 检查 以 后 ， 就 调用 kernel thread( ) 创 建 :个 内 核 线程 exec_modprobe( )。 对 于 
kernel thread( ) 本 身 ， 读 者 已 经 竺 第 4 萤 中 看 到 过 了 ， 所 以 我 们 继续 往 下 先 把 reguest_module( ) 代 码 的 
剩余 部 分 读 完 ， 然后 冉 回 过 来 看 exec_modprobe( ) 的 代 包 。 

创建 内 核 线程 成 功 以 后 ， 先 把 当前 进程 的 信号 机 制 中 除 SIGKILL 和 SIGSTOP 以 外 所 有 的 信号 都 
屏蔽 掉 ， 免 得 在 等 待 模块 安装 的 过 程 中 受到 十 扰 ， 然 后 就 通过 waitpid( ) 使 当前 进程 进入 睡眠 ， 静 候 佳 
音 ， 等 待 创建 出 来 的 内 核 线程 在 完成 模块 安装 以 后 退出 舞台 。 当 前 进程 被 唤醒 而 从 waitpid( ) 返 回 时 ， 
内 核 线程 exec_modprobe( ) 的 运行 已 经 结束 ,恢复 了 当前 进程 诛 有 的 信号 设置 以 后 ， 根 据 返 回 值 可 以 判 
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断 exec_modprobe( ) 的 操作 是 否 成 功 。 如 果 失 败 , 就 通过 printk( ) 在 系统 的 “运行 日 志 ”/var/log/messages 
中 登录 一 条 出 错 信息 。 
好 ， 现 在 我 们 来 看 exec modprobe( ) 的 代码 。 它 还 是 在 kernel/kmod.c F: 


139 /* 

140 modprobe path is set via /proc/sys. 

141 */ 

142 char modprobe path[256] = ”/sbin/modprobe” ; 

143 

144 static int exec modprobe (void * module name) 

145 { 

146 static char * envp[ ] = ( “HOME=/”, "TERM-linux', 
"^PATH-/sbin:/usr/sbin:/bin:/usr/bin", NULL }; 

147 char *argv[ ] = { modprobe path, ^-s^, "-k^, ”--”, (char*)module name, NULL |; 

148 int ret; 

149 

150 ret - exec usermodehelper(modprobe path, argv, envp); 

151 if (ret) { 

152 printk(KERN ERR 

153 “kmod: failed to exec %s -s -k %s, errno = %d\n’, 

154 modprobe path, (char*) module name, errno); 

155 } 

156 return ret; 

157 ] 


这 里 的 modprobe path 就 是 路 径 名 /sbin/modprobe， 所 以 ， 如 果 module name 为 mymodule 的 话 ， 
这 里 的 argv[ ] 就 相应 于 命令 : 


/sbin/modprobe  -s -k mymodule 


选择 项 -s 表示 在 安装 过 程 中 产生 的 信息 应 写 入 系统 的 运行 日 志 ， 而 不 要 在 控制 终端 上 显示 ; -kE 
示 安 装 时 将 模块 的 MOD_AUTOCLEAN 标志 位 设 成 1。 
函数 exec_usermodehelper( ) 的 代码 也 在 同一 文件 (kmod.c) 中 ; 


[exec_modprobe( ) > exec. usermodehelper( )] 


86 int exec usermodehelper (char *program path, char *argv[ ], char *envp[ ]) 
87 { 

88 int i; 

89 struct task struct *curtask = current; 

90 

91 curtask->session = 1; 

92 curtask >pgrp = l; 

93 

94 use init fs context( ) ; 

95 

96 /* Prevent parent user process from sending signals to child 
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97 Otherwise, if the modprobe program does not exist, it might 
98 be possible to get a user defined signal handler to execute 
99 as the super user right after the execve fails if you time 
100 the signal just right. 

101 */ 

102 spin lock irq(&curtask—sigmask lock); 

103 sigemptyset (&curtask—>blocked) ; 

104 flush_signals(curtask) ; 

105 flush signal handlers (curtask) ; 

106 recalc_sigpending (curtask) ; 

107 spin unlock irq(&curtask-^sigmask lock); 

108 

109 for (i = 0; i < curtask—->files—>max_fds; i++ ) { 
110 if (curtask—->files—>fdli]) close(1); 

111 } 

112 

113 /* Drop the “current user” thing */ 

114 { 

115 struct user struct *user = curtask->user: 
116 curtask-^user = INIT USER; 

117 atomic inc(&INIT USER-> count) ; 

118 atomic inc(&INIT USER-^processes) ; 

119 atomic dec (&user—>processes) ; 

120 free uid(user); 

121 } 

122 

123 /* Give kmod all effective privileges.. */ 

124 curtask->euid = curtask-^fsuid = 0; 

125 curtask-^egid = curtask->fsgid = 0; 

126 cap_set_full(curtask->cap effective); 

127 

128 /* Allow execve args to be in kernel space. */ 
129 set fs(KERNEL DS); 

130 

131 /* Go, go, go... */ 

132 if (execve(program path, argv, envp) < 0) 

133 return -errno; 

134 return 0; 

135 } 


这 个 函数 是 在 内 核 线程 exec_modprobe( ) 的 上 下 文中 运行 的 ， 所 以 这 里 的 current 指向 这 个 内 核 线 
程 的 task struct 结构 ， 而 与 创建 这 个 线程 时 的 current 不 同 ， 那 时 候 的 current 指向 当时 的 当前 进程 ， 即 
exec modprobe( ) 的 父 进程 。 内 核 线程 exec. modprobe( ) 从 其 父 进程 那里 继承 了 绝 大 部 分 资源 和 特性 ， 
包括 它 的 fs struct 的 内 容 和 所 有 的 已 打开 文件 ， 以 及 它 的 进程 号 、 组 号 ， 还 有 所 有 的 特权 。 但 是 ， 这 
些 从 父 进程 继承 下 来 的 资源 和 特性 未 必 满 足 模块 安装 的 要 求 。 首 先是 父 进程 的 根 目 录 ， 在 “文件 系统 ” 
一 草 中 讲 过 ， 一 个 进程 可 以 设置 自身 的 根 目 录 ， 所 以 父 进程 的 根 目录 有 可 能 并 不 是 真正 的 整个 文件 系 
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统 的 根 目录 。 如 果 那 样 的 诉 ， 在 父 进程 的 根 日 录 中 也 许 根 本 就 没有 sbin 3X4 T T Hom, SG I 
modprobe 了 。 所 以 ， 首 先 得 要 确保 这 个 内 核 线程 的 fs_srtuct 中 的 指针 root 确实 指向 文件 系统 的 总 根 ， 

结构 中 的 其 他 一 些 内 容 也 要 与 其 相 一 致 。 怎 么 来 保证 这 一 点 呢 ? 系统 中 只 有 一 个 进程 ， 即 init_task 的 
根 目录 是 肯定 不 会 改变 的 ， 所 以 这 里 通过 kmod.c 中 的 一 个 函数 use_init_fs_context( ) 从 init. task 结构 中 
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直接 继承 其 根 日 录 等 资源 。 


jexec_modprobe( ) > exec_usermodehelper( ) > use init fs context( )] 


32 
33 
34 
35 
36 
37 
38 
39 
40 
4l 
42 
43 
44 
45 
46 
4T 
48 
49 
50 
ol 
02 
53 
54 
95 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 


static inline void 

use init fs context (void) 

{ 
struct fs struct *our_fs, *init fs; 
struct dentry *root, *pwd; 
struct vfsmount *rootmnt, *pwdmnt; 


/六 


Make modprobe's fs context be a copy of init's. 


We cannot use the user's fs context, because it 
may have a different root than init 

Since init was created with CLONE FS, we can grab 
its fs context from "init task'. 


with init, then any chdir( ) call in modprobe will 
also affect init and the other threads sharing 
init task s fs context 


We created the exec modprobe thread without CLONE FS, 
so we can update the fields in our fs context frecly 


*/ 


* 
* 
* 
* 
* 
水 
x 
* The fs context has to be a copy. If it is shared 
* 
* 
* 
* 
* 
* 


init fs = init task. fs; 

read lock(&init fs-^lock); 

rootmnt = mntget(init fs-^rootmnt); 
root = dget(init fs—>root) ; 

pwdmnt = mntget (init_fs—>pwdmnt) ; 
pwd = dget(init fs-^pwd); 

read unlock (&init fs->lock) ; 


/* FIXME ~ unsafe ->fs access */ 
our fs = current->fs; 

our fs-»umask = init fs-^umask; 

set fs root(our fs, rootmnt, root); 
set fs pwd(our fs, pwdmnt, pwd); 
write lock(&our fs-^lock); 

if (our fs->altroot) { 
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71 struct vfsmount *mnt = our fs-^altrootmnt; 
12 struct dentry *dentry = our fs—altroot: 
73 our fs~>altrootmnt = NULL; 

74 our fs->altroot = NULL; 

75 write unlock(&our fs—>lock) ; 

76 dput (dentry) ; 

77 mntput (mnt) ; 

78 } else 

79 write unlock(&our fs-»lock); 

80 dput (root) ; 

81 mntput (rootmnt) ; 

82 dput (pwd) ; 

83 mntput (pwdmnt) ; 

84 | 


对 这 一 段 代 码 就 不 需要 多 说 了 (读者 若 感到 困难 就 应 该 复习 -下 第 5 章 路 的 有 关内 容 )。 解决 了 根 
FLT, AS BEATE AA SQ EAA A RG FE SAS “HR” PL, AEE SE, H APE REA 
设置 的 信号 处 理 也 全 部 恢复 成 由 系统 默认 的 处 理 方式 。 然 乒 ， 继 藉 下 来 的 全 部 已 打开 文件 也 要 关闭 ， 
连 打开 文件 写 0、1、2 所 代表 的 三 个 标准 输入 /输出 和 出 错 输出 文件 也 都 关闭 ， 这 样 就 与 父 进程 的 控制 
终端 脱离 了 关系 。 不 但 如 此 ， 连 线程 的 uid、euid、fsuid 也 要 全 部 换 成 0， 使 其 变 成 特权 GER) FAP 
进程 ， 还 此 通过 cap_set_full( ) 赋 予 其 全 部 特权 (第 126 行 )。 读 者 也 许 感到 迷惑 ， 怎 么 这 个 进 称 有 有 这么 
大 的 能 射 ， 竟 然 可 以 为 所 欲 为 ， 不 受 限 制 ?》 原 因 就 亦 于 这 是 个 内 核 线 程 ， 而 不 是 进程 。 

第 129 行 的 set. fs( ) 是 个 宏 操 作 ， 定 义 于 include/asm, i386/uaccess.h: 


30 #define set fs(x) (current->addr limit = (x)) 


也 就 是 说 ， 把 从 父 进 程 继承 的 地 址 上 限 也 换 成 KERNEL_DS， 即 0xfftffftf4GB)， 因 为 父 进程 的 地 
址 上 限 很 可 能 是 USER, DS. HJ! Oxbfffffff(GGB). 

AIA PARA BE, AKA exec modprobe( ) 就 成 了 一 个 彻底 的 特权 用 户 进 程 ( 线 
程 )， 而 与 版 先 的 父 进程 没有 多 大 联系 了 。 人 套用， 名 时 下 流行 的 话 ， 这 叫 “ 借 壳 上 市 但 是 ， 两 个 进 
Fe (RAZ) 问 的 父子 关系 还 在 ， 当 exec modproc() 死 袜 退出 运行 时 还 是 会 唤醒 其 父 进程。 

最 后 ， 就 是 通 过 execve( ) 执 行 /sbin/modprobe 了 ， 有 关 ececve() 的 详情 ， 和 包括 运行 结束 时 的 处 理 ， 


可 参 疯 第 4 章 。 








在 阅读 模块 的 iniLmodule( ) 和 cleanup_module( ) 册 个 测 数 之 前 ， 还 槛 讲 -- 下 内 核 中 符号 的 “移出 ” 
问题 也 就 是 内 核 中 的 哪 一 些 符号 可 以 被 可 安装 模块 引用 。 内 核 中 的 每 
个 符号 都 必须 遂 过 宏 定 义 EXPORT SYMBOL 明确 规定 准予 移出 ， 才 能 由 /sbin/insmod 通过 
query_module( ) 系 统 调 用 获得 这 些 符 号 的 地 址 ， 佑 则 就 都 是 不 准 移出 的 。 下 面 是 取 白 kernel/ksyms.c 中 
的 儿 个 例 F: 


142 EXPORT SYMBOL (path init); 
143 EXPORT. SYMBOL (path walk); 
144 EXPORT SYMBOL (path release); 
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145 EXPORT_ SYMBOL( user walk); 
146 . EXPORT SYMBOL (lookup one); 
147 . EXPORT SYMBOL (lookup hash); 
148 . EXPORT SYMBOL(sys close); 


宏 定 义 EXPORT. SYMBOL 将 给 定 符号 的 符号 名 和 它 的 值 ， 即 该 符号 在 连接 后 的 内 核 映 象 中 的 地 
址 、 组 装 在 一 个 module, symbol 数据 结构 中 ， 并 指示 连接 程序 (dO. 在 连接 内 核 映 象 时 将 这 个 结构 放 在 
一 个 称 为 “__ksymtab” 的 区 段 中 。 这 样 ， 连 接 以 后 所 有 这 样 的 数据 结构 就 都 在 __ksymtab 区 段 中 ， 而 
这 个 区 段 就 成 了 内 核对 外 公开 的 符号 表 。 而 “对 内 ”的 符号 表 则 由 连接 程序 自行 生成 ， 并 仅 供 连接 程 
序 14 自己 使 用 。 数 据 结 构 类 型 module_symbol 是 在 include/linux/module.h 中 定义 的 : 


37 struct module symbol 


38 d 

39 unsigned long value; 
40 const char *name; 

4 kh 


这 里 的 name 只 是 一 个 字符 指针 ， 真 止 的 字符 则 存放 在 另 一个 区 段 “.kstrtab” 中 。 这 样 做 的 好 处 在 
于 使 符号 表 的 结构 变 得 规则 ， 因 为 不 管 符号 名 字符 串 有 多 长 ， 指 针 的 大 小 总 是 固定 的 。 

这 里 还 要 指出 , 内 核对 可 安装 模块 的 支持 是 可 选 的 。 如 昌 在 编译 内 核 代 码 之 前 的 系统 配置 (config) 
阶段 选择 了 支持 可 安装 模块 ， 就 定义 了 编译 提示 CONFIG_MODULES， 使 支持 可 安装 模块 的 代码 受到 
编译 ， 而 EXPORT_SYMBOL 也 只 有 在 这 种 情况 下 才 有 定义 。 

与 EXPORT_SYMBOL 有 关 的 定义 都 在 include/linux/module.h F: 


151 /* Indirect stringification.  */ 

152 

153 #define _ MODULE STRING 1(x)  #x 

154 #define _ MODULE STRING(x) _ MODULE STRING 1(x) 


325 #define __EXPORT SYMBOL(sym, str) \ 

326 const char __kstrtab ##sym[ ] \ 

327 | attribute. | ((section(”. kstrtab”))) = str; \ 

328 const struct module symbol | ksymtab HZsym N 

329 . attribute. ((section(^  ksymtab^))) = \ 
330 { (unsigned long)&sym, __kstrtab ##sym } 


331 
332 if defined (MODVERSIONS) || !defined(CONFIG MODVERSIONS) 
333 #define EXPORT SYMBOL(var) _ EXPORT SYMBOL (var, __ MODULE STRING(var)) 
334 Helse 
335  #define EXPORT_SYMBOL (var) \ 

. EXPORT SYMBOL(var, __ MODULE STRING( | VERSIONED SYMBOL (var) ) ) 
336 #endif 


第 332—336 4T AED VE, MERRE FA EXPORT, SYMBOL 有 不 同 的 定义 。 为 什么 要 有 不 
VE? 这 是 为 了 保证 内 核 与 可 安装 模块 在 版 本 诗 的 产 格 一 致 。 要 保证 -者 的 版 本 严格 一 致 ， 最 好 的 办 
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法 就 是 将 版 本 信息 编码 进 变 量 名 中 ， 例 如 将 版 本 号 作为 变量 名 的 后 缀 。 这 样 ， 如 果 变 量 相同 而 版 本 号 
不 一 致 ，/sbin/insmod 就 会 认为 是 两 个 不 同 的 符号 而 不 予 连接 。 但 是 ， 另 方面， 这 在 一 定 程度 上 也 带 
米 了 不 使 。 因 为 每 当 有 版 本 变动 时 就 要 重新 编 详 (或 从 网 上 下 载 ) 许多 可 安装 模块 ， 而 有 些 版 本 变动 
实际 上 只 是 很 小 的 变动 ， 并 不 影响 运行 。 因 此 ， 内 核 把 是 否 将 版 本 信息 编码 进 符号 名 作为 一 个 可 选项 
提供 。 如 果 需 要 那样 做 的 话 ， 就 可 以 在 编译 内 核 代码 前 的 系统 配置 阶段 选 择 这 个 可 选项 ， 而 使 条 件 编 
详 提 示 CONFIG_MODVERSIONS 成 为 有 定义 。 有 时 候 ， 虽 然 从 总 体 上 选择 了 使 用 版 本 信息 ， 但 对 十 
某 些 源 代码 和 模块 中 的 符号 却 并 不 需要 搞 得 这 么 复杂 ， 这 时 就 可 以 在 编译 这 些 源 代码 时 在 命令 行 中 加 
上 “-D MODVERSIONS” 可 选项 ， 或 在 源 代码 文件 中 加 上 “#define MODVERSIONS” 使 该 文件 中 
定义 的 符号 摆脱 可 选项 CONFIG_MODVERSIONS 的 控制 。 

我 们 先 看 不 带 版 本 信息 的 符号 表 项 是 如 何 建立 的 .此 时 的 宏 操作 EXPORT_SYMBOL 定义 于 第 333 
行 。 以 符号 path init 为 例 ， 此 时 EXPORT SYMBOLpath ini) 的 定义 就 成 了 
__EXPORT_SYBOL(path_init,“path_init”)。 而 第 325 行 又 进而 将 其 定义 为 两 个 语句 ， 第 一 个 语句 

(326—327 11) 定义 了 一 个 名 为 __kstrtab_path_init 的 字符 串 ， 将 字符 串 的 内 容 初 始 化 为 “path_init”， 
并 将 其 置 于 内 核 映 象 中 的 .kstrtab 区 段 。 第 二 个 语句 (328—330 行 ) 则 定义 了 一 个 名 为 
—-ksymtab path init 的 module symbol 数据 结构 ， 将 其 初始 化 成 {&path_init，__kstrtab_path_init}， 并 
将 其 置 于 内 核 映 象 中 的 _ksymtab 区 段 。 这 样 ， 这 个 数据 结构 中 的 字段 value 的 值 为 path. init 在 内 存 映 
象 中 的 地 址 ， 而 指针 name 则 指向 字符 串 “path_init”。 顺 使 提 一 下 ， 这 里 定义 的 两 项 数据 都 是 const， 
初始 化 以 后 便 不 容 改变 。 

采用 版 本 信息 时 的 操作 就 要 复杂 一 些 了 。 不 同 之 处 在 于 __EXPORT_SYMBOL 的 第 二 个 参数 先 要 
经 过 另 一 个 宏 操 作 __VERSIONED_SYMBOL 的 变换 ， 这 个 宏 操 作 定义 于 include/linux/modsetver.h: 


Hdefine SYMBOL VERSION (x) | ver ## x 
#define | VERSIONED SYMBOL2(x,v) x ## R ## v 
define . VERSIONED SYMBOLl(x,v) _  VERSIONED SYMBOL2 (x, v) 
#define | VERSIONED SYMBOL(x) \ 
__VERSIONED SYMBOL1(x, | SYMBOL VERSION (x)) 


D om & c 


仍 以 path init 为 例 ， 宏 操作 | SYMBOL, VERSION(path, init) #4244 4% E, — ver path init; $ 
Ja__VERSIONED1 XH path, init, R DAJ& — ver path init 二 部 分 连 在 一 起 。 可 是 ， 经 过 这 样 的 处 理 ， 
最 后 形成 的 字符 串 中 并 没有 版 本 信息 的 编码 啊 ! 奥 妙 就 在 十 后 织 __ver_path_init 并 不 是 最 终 用 来 与 前 面 
两 部 分 相连 的 字符 串 ， 它 也 还 只 是 -个 中 间 产 物 。 在 某 个 源 代码 文件 中 还 会 有 类 似 于 “#define 
—ver path init smp_1234abcd ”这样 的 宏 定义 。 这 样 ， 把 三 部 分 连 在 … 起 以 后 就 形成 了 类 似 于 

“path_init_Rsmp..1234abcd” 这 样 的 字符 串 ( 这 里 smp 表示 内 核 支持 SMP 多 处 理 器 结构 )， 最 后 字符 
串 __kstrtab_path_init 的 内 容 就 成 为 “path_init Rsmp_1234abcd” 而 数据 结构 __ksymtab_path_init 中 的 
内 容 则 仍 为 (&path init, — kstrtap path init). 。 显 然 ，_Rsmp_1234abed 即 为 包含 着 版 本 信息 的 符号 名 后 
Bo MBA, NABER ARMM? 这 是 由 一 个 工具 /sbin/genksyms 根据 版 本 号 和 具体 符号 的 类 型 编码 

《CRC ) 产 生 的 。 熟 悉 C++ 的 读者 ` 定 会 联想 起 C++ 中 对 符号 ( 安 量 名 或 函数 名 ) 的 编码 ( 称 为 mangling )。 
读者 可 以 在 内 核 的 Makefile 和 Rules.make 中 找到 对 这 个 工具 的 应 用 ,还 可 以 用 命令 “man genksyms” 
看 一 下 这 个 工具 的 说 明 。 由 工具 产 牛 的 输出 写 入 到 一 些 .ver 文件 中 ， 这 些 .ver 文件 则 又 被 include 到 
include/linux/modversions.h 中 。 这 个 ,h 文件 是 在 通过 make 生成 内 核 映 象 的 过 程 中 生成 的 ， 看 一 下 它 的 
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具体 内 容 ， 我 们 就 可 以 发 现 大 量 的 类 似 于 “ 丰 include — «linux/ksyms.ver» " 这 样 的 “语句 ” 

只 要 内 核 映 象 中 的 __ksymtab 区 段 非 室 ， 内 核 就 有 对 外 公开 的 符号 ， 可 以 通过 系统 调用 
query module( ) 查 询 。 此 外 ， 在 /proc 日 录 中 有 个 特殊 文件 ksyms， 用 来 提供 内 核 中 的 “移出 ”符号 清 
y (包括 已 安装 模块 的 符号 )。 读 者 不 妨 用 命令 “more /proc/ksyms” 8 — PRM ARS At BLA RR 
本 信息 编码 。 


现在 ， 我 们 可 以 来 看 几 个 典型 模块 的 init, module( ) 和 cleanup. module( AT o 

我 们 要 看 的 第 一 个 模块 是 一 个 声卡 驱动 程序 ， 名 为 “sparcaudio 。 我 们 的 目的 并 不 在 于 了 解 具体 
的 驱动 程序 代码 ， 而 主要 在 于 了 解 它 在 init_module( ) 中 向 系统 登记 、 从 而 建立 起 从 内 核 中 文件 系统 的 
雇 层 进入 其 具体 驱动 程序 的 途径 这 么 一 个 过 程 ， 以 及 在 cleanup. module( ) 中 将 这 个 途径 撤销 的 过 程 。 
另 一 个 使 我 们 对 它 感 兴趣 的 原因 是 ， 它 还 并 木 是 真正 直接 驱动 声卡 硬件 的 模块 ， 而 只 是 vis 层 与 物理 层 
之 间 的 一 个 中 间 层 次 。 它 一 方面 向 系统 登记 ， 建 立 起 从 vis 层 进入 它 的 途径 ; 另 一 方面 义 准备 接受 来 日 
更 低层 模块 的 登记 ， 从 而 建立 起 进入 物理 层 的 途径 。 像 这 样 由 不 同 的 模块 来 实现 - -种 系统 结构 中 的 不 
同 层次 ， 从 而 形成 一 个 模块 “堆栈 ”的 做 法 ， 是 一 种 典型 的 程序 结构 和 实现 方式 (尤其 是 在 计算 机 网 
络 环境 下 )。 同时 , 它 也 是 模块 间 依 赖 关系 的 一 个 实例 。 这 个 模块 的 代码 在 drivers/sbus/audio/audio.c 中 。 
路 径 名 中 的 drivers/sbus 表示 有 关 的 代 公 都 是 SUN 公司 的 Sparc 结构 工作 站 中 sbus 总 线 设 备 的 驱动 程 
序 。 我 们 不 准备 深入 到 sbus 的 细节 中 去 ， 而 只 是 用 它 作 为 一 个 可 安装 模块 的 实例 。 

对 sparcaudio 的 支持 既 可 以 编译 成 一 个 可 安装 模块 ， 也 可 以 静态 地 编 详 连接 进 内 核 的 映 象 。 内 核 
编译 之 前 的 系统 配置 阶段 为 用 户 提供 了 选择 手段 。 通 常 ， 对 每 -种 设备 或 功能 都 有 个 问题 让 用 户 回 
答 ， 这 个 问题 就 是 要 或 者 不 要 、 以 及 以 何 种 方式 支持 某 种 设备 或 功能 。 如 果 回 答 “Y” 就 表示 要 ， 并 且 
将 相应 的 代码 静态 地 连接 在 内 核 映 象 中 ; 回答 “M” 表示 要 ， 但 是 将 代码 编译 成 可 安装 模块 ， Te 
回答 “N”, 表 示 不 要 。 当 选择 将 代码 编译 成 可 安装 模块 时 ， 模 块 的 入 口 就 是 mit_module( ), 就 好 像 科 
个 可 执行 程序 的 入 口 都 是 main( ) 一 样 。 虽 然 每 个 模块 都 有 “个 init module( ), 但 是 这 些 模块 不 会 由 1d 
连接 在 一 起 , 所 以 不 会 互相 冲突 。 但 是 , 如 果 将 代 但 编译 并 连接 进 内 核 映 象 ， 那 就 不 能 使 用 init_modle( ) 
这 个 函数 名 了 ， 那 样 会 造成 符号 名 冲突 而 不 能 和 连接。 所以， 对 sparcaudio 不 采用 可 安装 模块 方式 时 ， 
就 要 给 init module( ) 函 数 换个 名 字 ， 这 里 叫 sparcaudio_init( )， 并 且 加 上 了 说 明 - -init， 表示 这 个 函数 
是 个 初始 化 函数 ， 同 时 还 要 在 代码 中 加 上 这 么 一 行 : 


2930 module init (sparcaudio init) 


表示 在 系统 初始 化 时 应 调用 这 个 函数 。 从 这 里 也 可 以 看 出 ， 邵 使 不 把 它 编 译 成 可 安装 模块 ， 代 僻 
的 设计 和 实现 仍然 是 高 度 模块 化 的 。 
先 看 sparcaudio_init( )， 这 个 函数 在 drivers/sbus/audio/audio.c 中 ; 


2200 static int | init sparcaudio init (void) 


220 { 

2202 /* Register our character device driver with the VPS. */ 

2203 if (devfs register chrdev (SOUND MAJOR, "sparcaudio", &sparcaudio fops)) 
2204 return -EIO; 

2205 
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2206 devfs_handle = devfs mk dir (NULL, “sound”, NULL): 
2207 

2208 #ifdef CONFIG SPARCAUDIO AMD7930 

2209 amd7930 init( ); 

2210 #end if 

2211 #ifdef CONFIG SPARCAUDIO DBRI 

2212 dbri init( ); 


2213 Sendif 

2214  fifdef CONFIG SPARCAUDTO CS4231 
2215 cs4231 init( ); 

2216  &endif 

2217 #ifdef CONFIG SPARCAUDIO DUMMY 


2218 dummy init( ) ; 
2219 Hendif 

2220 

2221 return 0; 

2222. } 


HUME PL, "AULAS BERR SEDL- ARRAPAR, SERA HEE AR, 之 所 
以 称 之 为 “堆栈 ”， 一 方面 是 因为 这 是 一 组 模块 ， 另 - 方面 是 这 些 模块 也 遵循 “后 进 先 出 ”的 版 则 ， 们 
TR (层次 意义 上 的 ) 顶部 的 模块 其 实 就 是 内 核 本 午 ， 昌 然 它 并 不 是 一 个“ 串 安 装 模 央 "。 从 这 个 总 
义 上 说 , 侠 一 个 模块 实际 上 都 存在 于 个 模块 堆栈 中 。 我 们 米 考察 -下 模块 堆栈 中 相 邻 两 层 间 的 界面 。 
首先 ， 位 于 上 层 的 模块 肯定 要 调用 下 层 模块 中 的 函数 。 这 个 函数 调用 的 界面 是 标准 化 的 ， 那 就 是 类 似 
T file operations 一 类 包含 着 两 数 指针 的 数据 结构 ， 由 卡 层 模块 通过 向 其 上 层 “登记” 的 方式 递交 给 上 
层 。 除 此 以 外 ， 上 层 模块 就 不 能 、 也 厅 应 直接 蛮 用 下 层 模 块 中 的 明 数 ， 或 访问 下 层 模 民 中 的 恋 量 『。 
也 就 是 说 ， 上 上 层 模块 不 直接 引用 下 层 异 块 的 符号 ， 对 下 层 异 块 没 有 依赖 关系 。 可 是 ， 反 过 来 下 尽 借 块 
半 于 上 层 司 块 就 有 依赖 关系 了 。 每 一 个 异 块 部 不 能 脱离 它 的 环境 而 存在 ， 而 运行 。 这 个 坏 境 就 是 由 位 
十 上 其 上 层 的 模块 提供 的 。 至少， 它 的 直接 二 层 应 提供 “个 隆 数 计 它 可 以 向 上 层 登 所， 所 以 全 少 要 向 它 
移出 一 个 符号 。 这 样 ， 每 个 模块 对 位 村 其 上 层 的 模块 就 有 了 依赖 关系 ， 府 除 景 底层 以 外 的 模块 就 有 必 
要 向 位 于 其 下 层 的 模块 移出 若 十 符号 。 那 么 ， 赴 否 每 个 模块 都 衣 接 依赖 十 位 于 其 上 层 的 所 有 贷 块 昵 ? 
那 倒 不 一 定 ， 但 是 - 般 对 “项 头 上 司 ”和 位 十 最 高 层 的 内 核 郁 有 直接 的 依 种 关系 ， 也 就 是 需要 直接 下 
用 这 些 模块 中 的 符号 。 由 十 sparcaudio 并 不 是 处 于 最 底层 的 模块 ， 它 也 要 向 它 下 层 的 模块 移出 一 些 符 
Go MY 2.1.0 以 前 的 版 本 ， 模 块 要 通过 -AeA register_symtab( ) 向 内 核 登记 它 的 符号 到， 而 在 从 那 
作 后 的 版 本 中 ， 对 异 块 符号 表 的 处 理 在 形式 上 就 与 内 核 一 致 了 。 横 其 sparcandio 的 符号 表 定义 为 ; 


2195 EXPORT SYMBOL(register sparcaudio driver): 
2196 EXPORT SYMBOL (unregister sparcaudio driver); 
2197 EXPORT_SYMBOL (sparcaudio output done); 

2198 EXPORT SYMBOL (sparcaudio input done); 


这 个 模块 向 低层 模块 移出 的 符号 有 4 AS, ERETI FESTUS US HL e t OA ER eR 

REA I FUE BUTTER AEE, XX BRNO FED DUI D. AANA LA LE ELSE Ha 

ARENU VERE ERB Je P AP UI JA BB T UE Hn d CH Bre Zee t A AU "np" ffi 
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数 。 
向 上 层 的 登记 是 通过 devfs register chrdev( ) 进 行 的 ， 这 个 函数 由 内 核 提供 并 移出 ， 定 义 才 


fs/devfs/base.c: 


[sparcaudio, init( ) > devfs register chrdev( )] 


1935 int devfs register chrdev (unsigned int major, const char *name, 
1936 struct file operations *fops) 

1937 { 

1938 if (boot_options & OPTION_ONLY) return 0; 

1939 return register chrdev (major, name, fops); 


1940 } /* End Function devfs register chrdev */ 


登记 时 使 用 了 三 个 参数 ， 第 一 个 参数 是 模块 所 代表 设备 的 主 设备 号 SOUND MAJOR, 在 
include/linux/major.h 中 定义 为 14: 


38 #define SOUND_MAJOR 14 


第 二 个 参数 为 模块 名 , 而 第 三 个 参数 就 是 指向 该 种 设备 的 fle_operations 数据 结构 的 指针 ， 这 个 数 
据 结构 也 是 在 drivers/sbus/audio/audio.c 中 定义 的 : 


1961 static struct file operations sparcaudio fops = { 
1962 owner; THIS MODULE, 

1963 llseek: sparcaudio_lseek, 

1964 read: sparcaudio_read, 

1965 write: sparcaudio_write, 

1966 poll: sparcaudio select, 

1967 ioct]: sparcaudio ioctl, 

1968 open: sparcaudio open, 

1969 release: sparcaudio release, 

1970 }; 


GidH file operations 4474, thi TRIN [tA PAPER OERE AA vis 层 )， 
而 没有 其 他 模块 了 。 另 方面， 从 函数 名 devfs_register_chrdev( ) 了 岂可 以 看 出 ， 这 个 模块 所 支持 的 是 树 
状 设备 文件 系统 devfs， 并 且 声 卡 设 备 是 字符 设备 。 不 过 ，devfs 的 字符 设备 登记 与 普通 设备 文件 实际 
上 上 相间， 函数 register chrdev( ) 的 代码 在 fs/devices.c 中 


[sparcaudio init( ) > devfs register chrdev( ) > register chrdev( )] 


98 int register chrdev (unsigned int major, const char * name, 
struct file operations *fops) 


99 { 

100 if (major == 0) { 

101 write lock(&chrdevs lock); 

102 for (major = MAX CHRDEV-I; major > 0; major—-) { 
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103 if (chrdevs[major].fops == NULL) { 
104 chrdevs[major].name - name; 
105 chrdevs[major].fops = fops; 
106 write unlock(&chrdevs lock); 
107 return major; 

108 } 

109 } 

110 write_unlock (&chrdevs_lock) ; 

111 return -EBUSY; 

112 } 

113 if (major >= MAX_CHRDEY) 

114 return -EINVAL; 

115 write lock(&chrdevs lock); 

116 if (chrdevs[major]. fops && chrdevs[major].fops != fops) { 
117 write unlock(&chrdevs lock); 

118 return —EBUSY; 

119 j 

120 chrdevs[major].name - name; 

121 chrdevs[major].fops - fops; 

122 write unlock(&chrdevs lock): 

123 return 0; 

124 } 


登记 字符 设备 〈 以 及 块 设备 ) BP, UMRUOKAERES, RRPERAABDA TERS. 
当然 ， 由 内 核 分 配 的 主 设备 号 只 是 临时 的 。 内 核 中 有 个 device struct 结构 数组 chrdevs[ ]， 这 是 一 个 以 
字符 设备 的 主 设备 号 为 下 标的 数组 ， 每 个 元 素 都 是 一 个 device struct. 数据 结构 ， 有 关 的 定义 在 
fs/devices.c 中 : 


33 struct device struct { 

34 const char ** name; 

35 struct file operations * fops; 
36 J; 


39 static struct device struct chrdevs[MAX CHRDEY]; 
40 


所 谓 登 记 ， 就 是 将 由 模块 提供 的 file operations 结构 指针 填 入 这 个 数组 〈 或 称 字符 设备 表 ) 的 某 个 
表 项 。 登 记 以 后 ， 只 要 知道 了 字符 设备 的 主 设备 号 ， 就 可 以 很 快 找到 它 的 fe_operations 数据 结构 ， 进 
而 找到 该 种 设备 的 各 种 驱动 函数 。 

登记 了 以 后 ， 位 于 上层 的 模块 《在 这 里 是 内 核 》 就 可 以 “看 见 ” 这 个 模块 了 。 但 是 ， 应 用 程序 却 
还 不 能 “看 见 ” 它 ， 因 而 还 不 能 通过 系统 调用 来 使 用 它 。 要 使 应 用 程序 能 “看 见 ” 这 个 模块 或 者 这 个 
模块 所 驱动 的 设备 ， 就 此 在 文件 系统 中 为 其 创建 一 个 代表 它 的 节点 。 这 个 节点 可 以 是 在 单 层 的 /dev A 
录 中 的 一 个 节点 ， 也 可 以 是 在 多 层 的 设备 文件 日 录 下 的 一 个 节点 。 在 单 层 的 /dev 目录 中 ， 每 个 节点 都 
是 文件 节点 ， 每 个 节点 都 代表 一 个 具体 的 设备 ， 所 以 要 有 主 设备 号 和 次 设备 号 两 项 参数 才能 创建 一 个 
节点 。 这 一 点 读者 在 mknod( ) 的 代码 中 已 经 看 到 过 了 。 对 于 多 层 的 devfs， 应 给 (由 主 设备 号 确定 的 ) 
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每 一 种 设备 都 创建 一 个 日 录 节 点 ， 在 这 个 目录 王 才 是 代表 具体 设备 的 文件 节点 。 未 数 devis_mk_dir( ) 
的 作用 就 是 创建 这 样 的 目录 节点 。 

调用 这 个 函数 时 的 第 一 个 参数 dir 是 一 个 指针 ， 指 向 代表 父 目 录 节 点 的 devfs_entry 数据 结构 ， 当 
dir Jy NULL 时 表示 父 日 录 节 点 为 devfs 的 根 节 点 ， 即 “/dev”。 与 普通 目录 节点 的 dentry 数据 结构 不 同 ， 
devfs 树 中 目录 节点 的 数据 结构 为 devfs_entry ， 而 指向 这 种 数据 结构 的 指针 类 型 则 定义 为 
devfs handle t。 第 二 个 参数 为 待 创建 月 录 节 点 的 节点 名 ， 这 里 是 “sound”。 第 三 个 参数 则 为 节点 名 的 
长 度 ， 以 0 为 参数 表示 由 devfs_mk_dir( ) 计 算出 字符 串 的 长 度 。 最 后 一 个 参数 为 指向 附加 信息 的 指针 ， 
这 里 是 NULL， 表 示 并 无 附加 信息 。 由 于 读者 已 经 阅读 过 path_walk( )、mknod( ) 等 函数 的 代码 ， 这 里 
我 们 就 不 讲解 devfs mk dir ) 的 代码 了 ， 有 兴趣 的 读者 可 自行 阅读 。 

至 此 ， 模 块 sparcaudio 的 初始 化 实际 上 已 经 完成 了 。 但 是 ， 这 个 模块 并 不 是 最 底层 的 模块 ， 所 以 
还 要 考虑 它 的 〈 直 接 ) 下 层 。 如 果 它 的 下 层 也 是 通过 可 安装 模块 实现 的 ， 那 这 里 就 不 用 做 什么 了 : D 
为 在 安装 那个 模块 时 白 会 调用 其 init, module( ) 函 数 。 可 是 ， 如 果 下 层 驱 动 程 序 是 通过 静态 模块 实现 的 
话 ， 那 就 要 在 这 里 处 理 下 一 层 的 初始 化 了 。 根 据 具 体 硬件 的 不 同 ，sparcaudio 的 下 层 有 三 种 不 同 的 驱动 
程序 ， 另 外 为 程序 调试 的 目的 还 可 以 再 加 上 一 层 虚 设 的 驱动 程序 ， 所 以 这 里 有 4 个 条 件 编译 的 语句 。 
我 们 假设 下 层 是 通过 可 安装 模块 实现 的 ， 所 以 就 跳 过 了 这 些 静 态 模块 的 初始 化 。 至 于 同 . 文件 中 ， 在 
撤销 模块 时 调用 的 sparcaudio_exit( )， 就 留 给 读者 自己 阅读 了 。 由 于 这 个 模块 是 静态 连接 的 ， 代 码 中 相 
应 地 还 有 行 : 





2231 module exit(sparcaudio exit) 


RARE RDB etr BRIX MER. 

很 自然 地 ， 我 们 在 这 里 要 看 的 第 二 个 模块 就 是 位 于 sparcaudio 下 层 的 模块 ， 即 “amd7930”( 我 们 
假定 声卡 所 用 的 必 片 为 AMD7930)。 这 次， 我们 假定 amd7930 是 个 动态 安装 模块 ， 所 以 由 
sys_init_module( ) 在 安装 这 个 模块 时 凋 用 它 的 init_module( ) 函 数 ,其 代码 在 drivers/sbus/audio/amd7930.c 
中 


[sys init module( ) > init_module( )] 


1677 /* Probe for the amd7930 chip and then attach the driver. */ 
1678 #ifdef MODULE 

1679 int init_module (void) 

1680 Helse 

1681 int | init amd7930_init (void) 

1682 #endif 


1683 { 

1684 struct sbus_bus *sbus; 

1685 struct sbus dev *sdev; 

1686 int node; 

1687 

1688 /* Try to find the sun4c “audio” node first. */ 
1689 node = prom getchild(prom root node); 

1690 node = prom searchsiblings(node, “audio”) ; 
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1691 
1692 
1693 
1694 
1695 
1696 
1697 
1698 
1699 
1700 
1701 
1702 
1703 
{704 
1705 
1706 
1707 
1708 
1709 
1710 
1711 


} 
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if (node && amd7930 attach(&drivers[0], node, NULL, NULL) == 0) 
num drivers = 1; 

else 
num drivers - 0; 


/* Probe each SBUS for amd7930 chips. */ 
for all sbusdev(sdev, sbus) { 
if (!stremp(sdev-^prom name, “audio”)) { 
/* Don t go over the max number of drivers. */ 
if (num drivers >= MAX DRIVERS) 
continue; 


if (amd7930 attach (&drivers[num drivers], 
sdev->prom node, sdev->bus, sdev) == 0) 
num driverst*; 


/* Only return success if we found some amd7930 chips. */ 
return (num drivers > 0) ? 0 : -EIO; 


我 们 的 目的 不 在 于 掌握 sbus 和 AMD7930 心 片 本 身 的 细节 ， 所 以 就 不 详细 深入 到 有 关 的 代码 中 去 
了 。 从 总 体 上 说 ， 这 段 程序 所 做 的 就 是 ， 对 于 探测 到 的 你 个 AMD7930 芯片 ， 即 音频 信道 ， 从 结构 数 
组 drivers[ ] 中 分 配 一 个 数据 结构 ， 然 后 调用 amd7931_attach( )。 如 果 一 个 信道 也 没有 探测 到 ， 那 就 返回 
—EIO 表示 模块 安装 失败 ， 人 省 则 就 返 冉 0 表示 安装 成 功 。 

PRI AX amd7931_attach( ) 的 代码 在 amd7930.c rp. 


[sys init module( ) > init module( ) > amd7930_attach( )] 


1566 
1567 
1568 
1569 
1570 
1571 
1572 
1573 
1574 
1575 
1576 
1577 
1578 
1579 
1580 
1581 
1582 


/* Attach to an amd7930 chip given its PROM node. */ 
static int amd7930 attach(struct sparcaudio driver *drv, int node 


{ 


- 168 . 


struct sbus bus *sbus, struct sbus dev *sdev) 


struct linux prom registers regs; 
struct linux prom irqs irq; 
struct resource res, *resp; 
struct amd7930 inflo *info; 

int err; 


/* Allocate our private information structure. */ 
drv—>private = kmalloc(sizeof(struct amd7930 info), GFP KERNEL); 
if (drv- private =- NULL) 

return -ENOMEM; 


/* Point at the information structure and initialize it. */ 
drv-^ops = &amd7930 ops; 


1583 
1584 
1585 
1586 
1587 
1588 
1589 
1590 
1591 
1592 
1593 
1594 
1595 
1596 
1597 
1598 
1599 
1600 
1601 
1602 
1603 
1604 
1605 
1606 
1607 
1608 
1609 
1610 
1611 
1612 
1613 
1614 
1615 
1616 
1617 
1618 
1619 
1620 
1621 
1622 
1623 
1624 
1625 
1626 
1627 
1628 
1629 
1630 
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info = (struct amd7930 info *)drv-^private; 
memset (info, 0, sizeof(*info)); 
info-^ints on = 1; /* force disable below */ 


drv-^dev = sdev; 


/* Map the registers into memory. */ 
prom getproperty(node, “reg”, (char *)&regs, siveof(regs)); 
if (sbus && sdev) { 
resp = &sdev—>resource [0] ; 
} else { 
resp = &res; 
res. start = regs. phys addr; 
res. end = res. start + regs. reg size - l; 
res. flags = JORESOURCE IO | (regs. which io & Oxff); 
} 


info->regs size = regs. reg size; 


info—regs = sbus ioremap(resp, 0, regs. reg_size, "amd7930^).: 


if (!info->regs) { 


printk (KERN ERR "amd7930: could not remap registers\n”) ; 


kfree (drv—>private) ; 
return -EIO; 


} 


/* Put amd7930 in idle mode (interrupts disabled) */ 
amd7930 idle(info); 


/* Enable extended FIFO operation on D-channel */ 

sbus writeb (AMR DLC EFCR, info—>regs + CR); 

sbus writeb(AMR DLC EFCR EXTEND FIFO, info->regs + DR); 
sbus writeb(AMR DLC DMR4, info->regs + CR); 


sbus_writeb(/* AMR DLC DMR4 RCV 30 | */ AMR DLC DMR4 XMT 14, 


info->regs + DR); 


/* Attach the interrupt handler to the audio interrupt. */ 
prom getproperty(node, “intr”, (char *)&irg, sizeof (irg)); 
info->irg = irq. pri; 
request_irq(info->irg, amd7930 interrupt, 

SA INTERRUPT, “amd7930”, drv); 
enable irq(info-^irq); 
amd7930 enable ints (info); 


/* Initalize the local copy of the MAP registers. */ 
memset (&info->map, 0, sizeof (info->map)) ; 
info->map. mmr] = AM MAP MMRI GX i AM MAP MMRI GER | 
AM MAP MMRI GR | AM MAP MMR1 STG; 
/* Start out with speaker, microphone */ 
info-^map.mmr2 |= (AM MAP MMR2 LS | AM MAP MMR2 AINB) ; 
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1631 

1632 /* Set the default audio parameters. */ 

1633 info->rgain = 128; 

1634 info->pgain = 200; 

1635 info->mgain = Q; 

1636 info->format_type = AUDIO ENCODING ULAW; 

1637 info->Bb. input format = AUDIO ENCODING ULAW; 
1638 info-?Bb.output format = AUDIO ENCODING ULAW; 
1639 info->Bc. input format = AUDIO ENCODING ULAW; 
1640 info~>Bc. output format = AUDIO ENCODING ULAW; 
1641 amd7930 update map(drv); 

1642 

1643 /* Register the amd7930 with the midlevel audio driver. */ 
1644 err - register sparcaudio driver(drv, 1); 

1645 if (err « 0) { 

1646 printk (KERN ERR "amd7930: unable to register\n’); 
1647 disable irq(info-^irq); 

1648 free_irq{info->irg, drv); 

1649 sbus iounmap(info-?regs, info-^regs. size); 
1650 kfree(drv—private); 

1651 return -EIO; 

1652 } 

1653 

1654 /* Announce the hardware to the user. */ 

1655 printk (KERN INFO "amd7930 at %1lx irq %d\n’, 
1656 info->regs, info->irgq); 

1657 

1658 /* Success! */ 

1659 return 0; 

1660 } 


同样 ,我 们 的 目的 不 在 于 这 段 程序 的 细节 ， 因 为 那 完全 取决 于 具体 的 硬件 和 具体 驱动 程序 的 设计 。 
我 们 在 这 里 关心 的 主要 有 两 件 事 。 其 一 是 对 函数 register sparcaudio driver( ) 的 调用 (1644 行 )， 这 个 函 
数 是 由 上 层 模块 sparcaudio 提供 的 ， 模 块 amd7930 通过 它 向 上 层 登 记 - 一 个 sparcaudio, driver 结构 指针 ， 
也 就 是 (代表 着 ) 一 个 AMD7930 芯片 。 其 二 (1582 行 )， 是 使 这 个 数据 结构 中 的 一 个 指针 ops， 指 向 在 采 
用 AMD7930 芯片 条 件 下 sparcaudio 设备 各 种 操作 的 函数 跳 转 结构 ， 即 sparcaudio_operations 结构 
amd7930 ops: 


1503 /* 

1504 * Device detection and initialization. 

1505 */ 

1506 

1507 static struct sparcaudio operations amd7930 ops = { 
1508 amd7930 open, 

1509 amd7930 release, 

1510 amd7930 ioctl, 
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1511 
1512 
1513 
1514 
1515 
1516 
1517 
1518 
1519 
1520 
1521 
1522 
1523 
1524 
1525 
1526 
1527 
1528 
1529 
1530 
1531 
1532 
1533 
1534 
1535 
1536 
1537 
1538 
1539 
1540 
1541 
1542 
1543 
1544 
1545 
1546 
1547 
1548 
1549 
1550 
1551 
1552 
1553 
1554 
1555 
1556 
1557 
1558 


amd7930 start output, 
amd7930 stop output, 
amd7930 start input, 
amd7930 stop input, 

amd7930 sunaudio getdev, 
amd7930 set output volume, 
amd7930 get output volume, 
amd7930 set input volume, 
amd7930 get input volume, 
amd7930 set monitor volume, 
amd7930 get monitor, volume, 


NULL, /* amd7930 set output balance */ 
amd7930 get output balance, 
NULL, /* amd7930 set input balance */ 


amd7930 get input balance, 
amd7930 set output channels, 
amd7930 get output channels, 
amd7930 set input, channels, 
amd7930 get input channels 
amd7930 set output precision, 
amd7930 get output precision 
amd7930 set input precision, 
amd7930 get input precision, 
amd7930 set output, port, 
amd7930 get output port, 
NULL, /* amd7930 set input port */ 
amd7930 get input port, 
amd7930 set encoding, 
amd7930 get encoding, 
amd7930 set encoding, 
amd7930 get encoding, 
amd7930 set output rate, 
amd7930 get output rate, 
amd7930 seti input rate, 
amd7930 get input rate, 
amd7930 sunaudio getdev sunos, 
amd7930 get output ports 
amd7930 get input ports, 


NULL, /* amd7930 set output muted */ 

amd7930 get output muted, 
NULL, /* amd7930 set output pause */ 
NULL, /* amd7930 get output pause */ 
NULL, /* amd7930 set input pause */ 
NULL, /* amd7930 get input pause */ 
NULL, /* amd7930 set output samples */ 
NULL, /* amd7930 get output samples */ 
NULL, /* amd7930 set input samples */ 
NULL, /* amd7930 get input samples */ 
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1559 NULL, /* amd7930 set output error */ 
1560 NULL, /* amd7930 get output error */ 
1561 NULL, /* amd7930 set input error */ 
1562 NULL, /* amd7930 get input error */ 
1563 amd7930 get formats, 

1564  ); 


我 们 在 这 里 还 是 列 出 了 amd7930_attach( ) 的 全 部 代码 以 及 amd7930_ops 的 全 部 定义 ， 使 读者 对 物 
理 层 的 畦 动 程序 有 个 感性 的 认识 。 即使 不 深入 到 具体 的 函数 中 去 , 我 们 也 能 从 amd7930_attach( ) 的 代码 
中 约略 地 看 到 ， 它 将 芯片 中 的 寄存 器 映射 到 内 存 空间 ， 对 便 件 进行 初始 化 ， 为 来 自 AMD7930 芯片 的 
中 断 请求 设 置 好 中 断 服务 程序 (amd7930_interrupt( ))， 并 打开 中 断 ， 然 后 再 向 其 上 层 登 记 代表 给 定 总 
片 的 数据 结构 。 间 时 ， 从 数据 结构 amd7930_ops 中 也 约略 可 以 看 出 对 AMD7930 芯片 的 操作 有 ， 打 开 / 
关 断 输入 或 输出 、 控 制 输入 或 输出 的 音量 、 控 制 监 听 音 量 、 设 置 输入 或 输出 信道 的 各 种 参数 和 对 电 平 
的 分 辨 侍 、 设 置 数字 化 及 还 原 时 采用 的 编码 制式 以 及 采样 的 频率 等 等 。 应 用 程序 通常 通过 系统 调用 
ioctl( ) 来 启动 这 些 函 数 。 

HRS register_sparcaudio_driver( ) 是 山上 层 模块 sparcaudio 移出 ， 供 下 层 模块 (如 amd7930) 用 来 
问 它 登记 的 。 除 此 以 外 ， 有 些 希 要 在 上 层 模块 中 为 下 层 模块 完成 的 操作 ， 如 革 些 资源 的 分 配 ， 也 叮 以 
放 人 在 这 个 函数 中 进行 《当然 ， 也 可 以 由 下 层 模块 白 己 完成 )。 所 以 ， 这 个 函数 所 做 的 事情 并 不 只 是 登记 
下 层 模块 ， 还 包括 为 具体 音频 信道 〔 即 amd7930 芯片 ) 设置 缓冲 区 等 ， 所 以 代码 比较 长 ， 我 们 不 在 这 
里 列 出 其 代 公 了 。 所 谓 登 记 ， 在 这 里 主要 是 将 -个 sparcaudio driver 结构 指针 传递 给 sparcaudio， 使 它 
可 以 通过 这 个 数据 结构 访问 具体 amd7930 信道 的 一 些 数据 ， 并 且 可 以 通过 结构 中 的 指针 ops Hl 
amd7930 操作 的 各 种 函数 指针 。 在 sparcaudio 异 块 中 有 个 sparcaudio_driver 结构 指针 数组 ， 用 来 保存 已 
站 它 登 记 的 指针 ， 从 而 维持 与 下 层 模 块 的 联系 ， 此 数组 的 定义 在 audio.c 中 给 出 ; 


73 static struct sparcaudio driver *drivers [SPARCAUDIO. MAX DEVICES] ; 


相应 地 , 在 amd7930 模块 中 则 有 一 个 sparcaudio. driver 结构 数组 ， EPH driver[ ], 定义 于 amd7930.c 
rh. 


118 static struct sparcaudio driver drivers[MAX DRIVERS]; 


IRI LER, (ALR ORR. PRR static, HEEE HU A RUE 
为 静态 模块 编译 并 且 连 接 ， 也 不 会 造成 冲突 。 这 里 要 指出 ， sparcaudio 中 虽然 有 个 sparcaudio driver 结 
构 指针 数组 ， 这 并 个 意味 着 系统 中 要 安装 许多 个 amd7930 的 模块 ， 而 是 意味 着 系统 中 可 以 有 许多 个 
amd7930 必 片 。 所 以 ，amd7930 模块 只 有 个， 但 是 它 操作 的 对 象 ， 或 者 说 操作 的 上下文， 却 可 以 有 
多 个 ， 而 数组 中 的 指针 则 指向 由 间 EDU ARA AR 

除 登 记 sparcaudio_driver 结构 指针 以 外 ， register sparcaudio driver( ) 中 还 有 件 重要 的 事情 ， 那 就 是 
为 每 个 amd7930 芯片 在 文件 系统 中 创建 文件 节点 ， 使 应 几 程 序 可 以 “看 见 ” 这 个 具体 的 设备 。 就 devfs 
设备 文件 系统 而 言 ， 这 是 通过 devis_register( ) 完 成 的 ， 在 山 sparcaudio 横 块 所 创建 的 月 站 “sound” 下 
为 每 个 amd7930 芯片 创建 文件 节点 ， 如 “sound/audioI”、 “sound/audio2” 等 等 。 实 际 上 ，amd7930 d 
个 很 复杂 的 芯片 ， 根 据 其 结构 可 以 进 - - 步 划 分 成 混 音 、 数 学 信号 处 理 、 音频 控制 /状态 等 功能 模 鼎 ， 所 
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以 在 sparcaudio 模块 的 设计 中 选择 将 次 设备 号 编码 表示 不 同 的 功能 模块 ， 而 为 每 一 个 功能 模块 都 创建 
一 个 文件 节点 ， 如 sound/audiol, sound/mixerl 以 及 sound/dspl 等 等 。 当 然 ， 也 可 以 选择 将 它们 合 在 一 
起 。 杆 是， 每 个 这 样 的 文件 节点 都 对 应 着 一 个 次 设备 号 ， 谭 每 个 路 径 名 则 对 应 着 上 十 设 备 写 与 次 设备 号 
的 一 种 组 合 。 

总 之 ， 每 个 设备 驱动 模块 在 安装 后 都 要 使 它 的 上 层 模块 能 “看 见 ” 它 ， 有 时 还 要 使 应 用 程序 也 能 
“看 见 ” 它 。 前 者 通过 向 上 层 模 块 登记 而 实现 ， 后 者 则 通过 mknod(). devfs mk dir( ). devfs register( ) 
一 类 的 哨 数 实现 ; 并 月 既 可 以 由 下 层 模 块 自己 完成 ， 也 可 由 其 上 层 模块 替 它 完成 ， 就 如 这 里 sparcaudio 
& amd7930 创建 文件 节点 那样 。 实 际 上 ， 后 者 在 本 质 | 也 是 一 种 登记 的 过 程 ， 例 如 mknod( ) 就 可 以 看 
成 是 由 内 核 提供 、 让 各 种 模块 向 文件 系统 登记 的 函数 。 通 常 一 个 模块 堆栈 中 至 少 有 一 个 模块 需要 为 应 
用 程序 所 见 。 


作为 实例 ， 我 们 再 看 “下 amd7930 模块 的 cleanup. module( ): 


1713 #ifdef MODULE 


1714 void cleanup module (void) 

i715 { 

1716 register int 1; 

1717 

1718 for (i = 0; i < num drivers; i++) { 
1719 amd7930 detach (&driversli]); 
1720 num drivers--; 

1721 ) 

1722  ] 

1723 Hendif 


显然 ，amd76930_detach( ) 古 amd7930_attach( JAY HEE 


[cleanup module( ) > amd76930_detach( )] 


1662 Bifdef MODULE 
1663 /* Detach from an amd7930 chip given the device structure. */ 
1664 static void amd7930 detach(struct sparcaudio_driver *drv) 


16656 { 

1666 struct amd7930 info *info - (struct amd7930 info *) drv->private; 
1667 

1668 unregister_sparcaudio driver(drv, 1); 

1669 amd7930 idle (info) ; 

1670 disable irg(info->ira); 

1671 free_irgq(info->irg, drv}; 

1672 sbus_iounmap (info->regs, info regs sive); 

1673 kfree(drv >private) ; 

1674 ] 


1675 Hendif 


这 里 unregister_sparcaudio_driver( ) 4t FH sparcaudio 模块 移出 ` 供 下 层 模块 撤销 登记 用 的 。 ay AB TT 4H, 
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EDA devfs 文件 系统 中 删 去 相应 的 文件 节点 ， 有 释放 有 关 的 缓冲 区 ， 并 从 sparcaudio 的 指针 数组 driversf ] 
中 将 相应 的 表 项 恢复 成 NULL。 撤 销 向 上 层 的 登记 以 后 ， 还 要 将 有 关 便 件 设置 成 “空转 ”状态 ， 并 与 
中 汤 问 量 脱 钓 、 以 及 撤销 硬件 寄存 器 的 内 存 映 象 。 总 之 ， 要 消除 amd7930_attach( ) 的 所 有 影响 ， 使 系统 
恢复 到 相应 的 amd7930_attach ) 操 作 之 前 的 状态 。 l 

可 安装 模块 的 作用 并 不 局 限 寺 设 备 驱动 程序 的 实现 ， 对 作为 可 选项 的 许多 文件 系统 〈 格 式 ) 的 支 
持 就 常常 是 通过 可 安装 模块 实现 的 。 此 外 ，socket 机 制 也 可 以 选择 通过 可 安装 模块 来 实现 。 至 于 各 种 
网 络 规程 的 实现 ， 那 就 更 是 非 可 安装 模块 葛 属 了 。 当 然 ， 网 络 规程 的 实现 也 可 以 看 作 是 广义 的 设备 驱 
动 程序 。 另 - 方面 ， 模 块 在 应 用 程序 界面 上 的 表现 〈 即 文件 节点 ) 也 并 不 一 定 在 /dev 日 录 下 或 devfs 
子 树 中 ， 如 代表 着 插口 的 文件 节点 就 通常 不 在 这 些 目录 中 。 

-个 模块 也 并 不 限于 只 由 一 个 文件 节点 代表 ， 许 多 模块 通过 create proc read entry( ) 在 /broc 子 树 

中 也 创建 一 个 只 读 的 文件 节点 ， 供 用 户 或 应 用 程序 读 吧 有 关 的 状态 和 统计 信息 。 更 进一步 ， 可 安装 模 
块 甚 全 可 以 根本 不 与 /dev 日 录 和 devfs 打交道 , 也 不 使 用 主 设 备 号 和 次 设备 号 , 甚至 不 向 上 层 模 块 登记 ， 
而 只 是 通过 proc_register( ) 在 /proc 文件 系统 中 创建 一 个 文件 节点 ， 内 核 通过 /proc 文件 系统 就 可 以 访问 
到 具体 的 模块 .实际 上 , proc. register( ) 是 将 向 上 层 模 块 (jproc 文件 系统 ) 和 向 应 用 程序 界面 的 登记 (/proc 
子 树 中 的 文件 节点 ) 合 二 为 了， 所 以 只 适合 用 于 高 层 模块 或 -… 共 只 有 一 层 的 模块 ， 总 之 是 直接 与 vfs 
层 接口 的 模块 。 这 个 函数 既 可 以 在 /proc 文件 系统 中 创建 文件 节点 ， 也 可 以 创建 目录 节点 和 符号 连接 节 
点 ， 因 此 可 以 用 来 在 /proc 目录 下 建立 起 类 似 十 devfs 的 多 层 结构 。 由 于 在 这 种 文件 节点 中 并 不 使 用 主 
Re SAUCES. 就 特别 适用 于 -- 些 高 层 的 , 产 格 说 来 算 不 上 设备 驱动 的 模块 (如 高 层 的 网 络 规程 )， 
以 及 EPER (或 有 困难 ) 为 之 分 配 主 / 次 设备 号 的 模块 。 缺 点 是 它 只 支持 read()、 write( ) 和 Iseek( ) 
三 种 文件 操作 ， 函 数 proc_register( ) 的 代码 在 fs/proc/generic.c rh: 


350 static int proc register(struct proc dir entry * dir, 
struct proc dir entry * dp) 


351 { 

352 int i; 

353 

354 i = make inode number( ); 

355 if (i < 0) 

356 return —EAGAIN; 

357 dp->low_ino = i; 

358 dp-^next = dir-—>subdir; 

359 dp->parent = dir; 

360 dir—>subdir = dp; 

361 if (S_ISDIR(dp->mode)) { 

362 if (dp-^proe iops == NULL) { 

363 dp->proc_fops = &proc dir operations; 

364 dp->proc_iops = &proc dir inode operations; 
365 ) 

366 dir-^nlink-**; 

367 | else if (S ISLNK(dp-^mode)) { 

368 if (dp-^proc iops -- NULL) 

369 dp->proc_iops = &proc link inode operations; 
370 } else if (S_ISREG(dp->mode)) | 
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371 if (dp->proc_fops == NULL) 

372 dp->proc_fops - &proc file operations; 
373 ) 

374 return 0; 

375 } 


参数 dir 指向 父 目录 的 proc, dir entry 数据 结构 ， 如 果 父 目 孙 就 是 /proc 则 为 &proc_root。 另 一 个 参 
数 dp， 则 指向 待 创建 节点 的 proc dir entry 结构 。 在 /proc 文件 系统 中 不 管 是 日 SO RISE TE AA 
使 用 同一 种 数据 结构 ， 即 proc_dir_entry， 并 且 该 结构 中 包含 了 通常 分 布 在 dentry 和 inode 两 种 数据 结 
构 中 的 信息 。 读 者 可 回顾 ~- 下 “/proc 特殊 文件 系统 ”一 节 中 的 有 关内 容 。 在 调用 proc_register( ) 之 前 ， 
订 安 装 模 块 更 分配 并 初步 设置 好 一 个 proc dir entry. 数据 结构 。 这 个 数据 结构 中 有 三 个 函数 指针 
read proc. write proc 以 及 get info, ， 应 分 别 指向 模块 中 的 相应 函数 ， 它 们 的 界面 定义 村 


include/linux/proc_fs.h: 


4T typedef int (read proc t)(char *page, char **start, off t off 


48 int count, int *eof, void *data); 
49 typedef int (write proe t)(struct file *file, const char *buffer, 
50 unsigned long count, void *data) ; 


51 typedef int (get info_t) (char *, char **, off_t, int); 


其 中 get info 也 是 用 十 读 文件 的 ， 与 read proc 的 不 同 之 处 仅 在 于 函数 的 调用 界面 。 相 比 之 下 ， 
read proc. 多 了 最 后 两 个 参数 ，- 个 是 指针 eof, 用 来 返回 表示 文件 是 否 已 经 读 到 了 结尾 ， 男 一 个 指针 
data 就 是 proc_dir_entry 结构 中 的 指针 data， 可 以 用 来 传递 一 些 与 特定 数据 结构 有 关 的 信息 ， 例 如 类 似 
于 次 设备 号 那样 的 数据 结构 序号 。 不 过 ， 这 两 个 两 数 中 只 能 选择 其 一 ， 用 了 read. proc 就 不 用 get. info. 

在 函数 proc_register( ) 中 ， 根 据 待 创建 节点 的 性 质 (模式 ) 而 设置 其 proc. dir. entry 结构 中 的 若干 
指针 。 如 果 是 目录 节点 就 设置 其 proc fops 和 proc_iop 两 个 指针 ， 使 包 们 分 齐 指 向 /proc 文件 系统 的 
inode_operations 数据 结构 和 用 二 目录 节点 的 file operations 数据 结构 ， 如 果 是 符号 连接 节点 就 使 
proc_iops 指向 /proc 用 于 符号 连接 的 inode_operations 数据 结构 ;而 如 果 是 文件 节点 则 使 proc_fops $E Ie] 
/proc 用 于 文件 节点 的 file operations 数据 结构 。 这 几 个 数据 结构 都 是 /proc 文件 系统 所 固有 的 。 前 三 个 
数据 结构 中 的 函数 指针 保证 了 当 应 用 程序 通过 系统 调用 open( ) 在 内 核 中 启动 path_walk( ) 时 能 找到 /proc 
文件 系统 中 的 节点 ， 而 最 后 一 个 数据 结构 中 的 函数 指针 ， 则 提供 了 进入 具体 模块 进行 起 / 写 的 “中 转 
站 ”。 当 打开 一 个 /proc 文件 时 ， 内 核 会 在 proc_lookup( ) 中 通过 proc_get_inode( ) 为 目标 节点 创建 inode 
数据 结构 ， 把 指向 这 个 数据 结构 的 指针 proc_fops 复制 到 inode 结构 中 《指针 i_fop)， 然 后 又 复制 到 file 
结构 中 指针 f op. 

我 们 来 看 看 这 个 数据 结构 ， 这 是 在 fs/proc/generic.c 中 定义 的 : 


36 static struct file operations proc file operations = | 


37 liscek: proc file lseek, 
38 read: proc file read, 
39 write: proc file write, 
40 h 
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从 这 个 结构 中 可 以 看 出 ， 这 个 机 制 仅 支持 llseek、read 和 write 三 种 文件 操作 ， 而 不 支持 ioctl. fE 
设备 驱动 程序 中 , ioctl 是 个 很 灵活 、 容 量 很 大 , 因而 功能 很 强 、 很 重要 的 操作 。 例 如, 在 前 面 的 amd7930 
模块 中 定义 了 那么 多 的 低层 操作 ， 而 其 离开 了 对 ioctl( ) 系 统 调用 的 支持 就 根本 无 法 实现 。 因 此 ， 缺 少 
对 ioctl 的 支持 是 这 个 机 制 的 一 个 缺点 。 当 然 ， 以 后 在 更 新 的 版 本 中 也 许 会 把 这 一 点 考虑 进去 〔〈 再 说 那 


Linux 内 核 源 代码 情景 分 析 〈 下 册 ) 


也 是 很 容易 的 事 )。 


其 次 ， 结 构 中 的 函数 指针 都 指向 由 /proc 文件 系统 提供 的 通用 性 程序 ， 而 不 是 指向 具体 模块 中 的 有 
关 函 数 。 以 读 把 作为 例 ， 跳 转 时 的 第 一 站 为 proc_file_read( )， 其 代码 在 同一 文件 (generic.c) 中 ; 


[sys_read( ) > proc file read( )) 


49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
12 
73 
74 
75 
76 
77 
78 
79 
80 
81 
82 
83 
84 


Static ssize t 


proc file read(struct file * file, char * buf, size t nbytes, loff t *ppos) 


{ 
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struct inode * inode = file-^f dentry-»d inode; 
char *page; 

ssize t retval-0; 

int eof-0; 

Ssize t n, count; 

char *start; 

struct proc, dir entry * dp; 


dp = (struct proc dir entry *) inode->u. generic ip; 
if (!(page = (char*) ^ get free page(GFP KERNEL))) 
return —ENOMEM; 


while ((nbytes > 0) && !eof) 
i 
count = MIN(PROC BLOCK SIZE, nbytes); 


start = NULL; 
if (dp get info) ( 
/* 


* Handle backwards compatibility with the old net 


* routines. 


*/ 


n = dp->get info(page, &start, *ppos, count) ， 


if (n € count) 
eof = 1; 
) else if (dp->read_ proc) { 
n = dp->read_proc(page, &start, *ppos, 
count, &eof, dp->data) ; 
} else 
break; 


if (!start) { 
/* 
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85 米 For proc files that are less than 4k 

86 */ 

87 start = page + *ppos; 

88 n -= *ppos; 

89 if (n <= 0) 

90 break; 

91 if (n > count) 

92 n = count; 

93 } 

94 if (n = 0) 

95 break; /* End of file */ 

96 if (n <0) { 

97 if (retval == 0) 

98 retval = n; 

99 break; 

100 } 

101 

102 /* This is a hack to allow mangling of file pos independent 
103 * of actual bytes read. Simply place the data at page, 
104 * return the bytes, and set start’ to the desired offset 
105 * as an unsigned int. - Paul.RussellGrustcorp. com. au 
106 */ 

107 n -= copy to user(buf, start < page ? page : start, n); 
108 if (n == 0) { 

109 if (retval = 0) 

110 retval = -EFAULT; 

111 break; 

112 } 

113 

114 *ppos += start < page ? (long)start : n; /* Move down the file */ 
115 nbytes -= n; 

116 buf *- n; 

117 retval += n; 

118 } 

119 free page((unsigned long) page); 

120 return retval; 

121 ] 


在 第 69~80 行 中 ， 根 据 函 数 指针 get info 和 read. proc 是 否 为 NULL 而 调用 其 中 之 (或 二 者 都 
不 调用 ), 这 才 进 入 了 由 模块 所 提供 的 函数 中 。 经 过 这 样 层 中 转 , 程序 的 执行 效率 多 少 受到 “点 影响 。 
相 比 之 下， 如果 模块 直接 向 内 核 登 记 其 file operations 数据 结构 ( 像 sparcaudio 那样 )， 则 在 经 由 
file operations 结构 跳 转 时 直接 就 进入 了 由 模块 提供 的 函数 。 

但 是 ， 尽管 如 此 ， 将 文件 节点 创建 在 /proc 文件 系统 中 还 是 很 有 吸引 力 的 。 摆 脱 了 对 主 / 次 设备 号 六 
依赖 ， 就 使 可 安装 模块 的 设计 变 得 更 灵活 ， 并 因 不 再 有 设备 号 惟 “性 的 问题 而 更 可 移植 ， 程 序 设计 也 
要 简单 一 些 。 

那么 ， 是 否 可 以 像 对 待 普 通 文件 那样 ， 把 代表 可 安装 模块 的 文件 节点 创建 在 文件 系统 中 任意 〈 除 
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Lum RTE OA 
/proc 文件 以 外 ) 的 位 置 上 呢 ? 如 果 不 使 用 主 / 次 设备 号 的 话 ， 至 少 在 月 前 的 内 核 AMT. REA 
难 在 于 file operations 数据 结构 是 每 个 文件 系统 “类 型 ) 一 个 ， 而 不 是 每 个 文件 一 个 (devfs 文件 系统 
是 个 例外 )， 表 说 可 安装 模块 也 并 不 是 一 种 特殊 的 文件 类 型 。 当 然 ， 如 果 仍 旧 使 用 主 设备 号 /次 设备 号 ， 
那 是 可 以 的 。 可 正 是 因为 使 用 设备 号 才 更 有 必要 把 这 些 文件 集中 在 一 起 ， 因 为 那样 才 便 于 观察 到 设备 


号 的 冲突 。 


84 PCI 总线 


说 到 外 部 设备 的 驱动 就 离 不 开 系统 的 外 设 总 线 。 最初 PC 机 中 的 外 设 总 线 只 是 8 位 的 ， 就 是 说 每 次 
只 能 读 / 写 一 个 字 节 ;后 来 扩充 成 16 位 ， 称 为 1SA 总 线 ， 于 后 来 又 扩充 成 32 位 的 EISA MA. (HE, 
随 首 技术 的 发 展 和 应 用 的 月 益 普 及， 人 们 逐渐 认识 到 这 些 总 线 都 存在 着 一 些 重 要 的 、 根 本 性 的 缺点 ， 
因而 需要 开发 出 一 种 全 新 的 总 线 。 当 时 提出 了 丙种 主要 的 候选 总 线 结构 ， 一 种 称 为 VESA, D -Ppi 
是 PCI. 经 过 一 段 时 期 的 竞争 ,PCI 总 线 成 为 了 事实 上 的 标准 总 线 , 不 光 是 PC 系统 结构 中 的 标准 总 线 ， 
也 是 许多 其 他 系统 结构 中 的 标准 总 线 。 现 在 的 PC 机 一 般 都 提供 若干 PCI 总 线 插 模 ， 同 时 也 提供 少量 
ISA 总 线 插 档 以 求 跟 旧式 接口 卡 的 兼容 。 至 于 EISA， 则 还 米 不 及 推广 就 被 PCI 取代 了 。 以 前 ， 外 设 总 
线 一 般 都 是 与 具体 的 CPU 和 系统 结构 密切 联系 的 ，CPU 不 同 、 系 统 结构 不 同 ， 采 用 的 总 线 也 就 不 同 。 
例如 ISA 总 线 就 是 用 于 采用 Intel X86 系列 CPU 的 PC 中 ，UNIBUS 和 Qbus 就 是 用 于 以 前 的 PDP-11 
中 ， 而 VME 总 线 则 用 于 Motorola 的 M68K 和 Power PC 系列 的 系统 中 。 这 一 点 可 以 说 是 历 米 如 此 。 
可 是 ， 自 从 PCI 总 线 问 世 以 后 ， 却 很 供 就 成 为 了 通用 的 标准 总 线 ， 以 至 于 不 管 是 什么 CPU， 不 管 是 为 
哪 种 外 设 开发 的 芯片 组 ， 都 会 提供 跟 PCI 总 线 的 接 门 。 从 这 个 意义 上 说， 似乎 PCI 总 线 成 了 计算 机 系 
统 结构 的 中 心 ， 而 CPU 倒 反而 退 居 从 属 的 地 位 了 。 随 着 多 处 理 器 SMP 结构 的 采用 和 普及 ， 这 种 趋向 
就 更 明显 了 ， 因 为 系统 中 可 以 有 许多 个 处 理 器 ， 而 PCI 总 线 如 往往 只 有 一 条 。 然 而 ，PCI 总 线 的 标准 ， 
即 其 规格 书 ， 是 个 不 太 好 读 、 不 太 好 理解 的 文本 。 拿 到 一 块 PCI 接 量 卡 或 者 一 组 世 片 ， 要 从 规格 书 或 
厂商 提供 的 说 明 书 出 发 ， 开 发 出 该 项 设备 的 驱动 程序 实 非 易 事 。 在 这 个 意义 上 ，Linux 内 核 中 有 关 的 源 
代码 恰恰 为 我 们 深入 理解 和 运用 PCI 总 线 ( 及 设备 ) 提 供 了 一 个 实例 、 一 个 样板 。 

以 后 ,为 行文 的 方 使 , 在 不 至 十 引进 洋 光 的 场合 我 们 将 直接 以 “总 线 ” 或 “PCI” 表 示 “PCI 总 线 ”。 

IBA, ISA 总 线 (以 及 PCI 以 前 的 那些 总 线 ) 到 底 有 些 什 么 缺点 呢 ? 换言之 ，PCI 总 线 有 些 什 么 优点 
Wa? 

首先 , ISA 乃至 EISA 的 速度 都 太 温 。 这 两 种 总 线 的 时 钟 频率 都 是 8.33MHz, 就 算是 32 位 的 EISA， 
其 理论 上 的 最 大 通 量 也 不 过 是 每 砂 33MB(ISA 的 最 大 通 量 只 是 8.33MB)。 这 显然 不 能 满足 图 像 、 网 络 
等 方面 的 应 用 需要 。 例 如 ， 光 是 一 个 100 兆 的 Ethernet 接口 ， 其 理论 上 的 最 大 通 量 就 已 丝 超过 12MB 
了 。 但 是 ， 提 高 总 线 的 速度 并 不 单纯 是 个 提高 时 钟 频率 的 问题 。 在 高 速 的 条 件 下 ， 有 不 少 物 理 问 题 (如 
电信 和 号 的 传输 ) 要 考虑 和 解决 。 而 且 , 如 果 采 用 相同 的 插 槽 则 还 要 考虑 跟 已 经 存在 的 接口 长 兼 容 的 问题 。 
所 以 ,PCI 总 线 采用 了 完全 不 同 的 插 模 ,时钟 频率 则 提高 到 33MHz, 使 理论 上 的 最 大 通 量 提高 到 133MB 。 
而 且 ， 还 为 进一步 把 时 钟 苇 率 提高 到 66MHz、 总 线 宽度 提高 到 64 位 留 下 了 余地 。 

其 次 足 地 址 的 分 配 与 设置 。 就 像 存储 器 本 身 是 一 种 资源 一 样 ， 存 储 器 的 地 址 也 是 一 种 资源 。 在 同 
-时 间 内 ， 个 地 址 只 能 惟 地 用 于 个 物理 的 存储 单元 ， 或 者 就 空闲 不 用 。 人 在 1386 系统 结构 中 ， 对 
内 存 的 访问 和 对 输入 /输出 寄存 器 的 访问 通过 两 套 不 同 的 指令 完成 ， 所 以 有 存储 器 和 LO 两 个 不 同 的 地 
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址 空间 。 - 般 而 言 ， 内 存 的 物理 地 址 以 及 输入 /输出 寄存 器 的 地 址 是 由 硬件 决定 的 ， 不 过 对 于 内 存 的 物 

理 地 址 还 可 以 通过 地 址 映射 机 制 来 一 次 转换 。 可 是 ， 怎 样 处 理 外 部 设备 上 的 存储 空间 呢 ? ISA (以 及 其 

他 早期 的 总 线 ) 接口 卡 上 都 采用 一 些 跳 线 或 小 开关 ， 将 接口 卡 插 上 总 线 前 者 要 先 通过 这 些小 开关 设置 

好 地 址 (还 有 中 断 请 求 号 )， 而 对 寺 软 件 则 也 此 在 一 个 “安装 ”过 程 中 加 以 设置 ， 使 二 者 相符 。 可 是 ， 这 

样 做 不 但 麻烦 ， 还 往往 成 为 系统 因为 地 址 冲突 或 不 符 而 不 能 正常 运行 的 原因 。 青 说 ， 随 着 外 部 设备 的 

日 益 复 杂 ， 这 样 做 已 经 不 大 现实 了 。 所 以 ， 理 想 的 办 法 是 由 系统 软件 自动 设置 ， 总 的 思路 是 ; 

(1) 每 块 接口 卡 (每 项 外 设 ) 都 道 过 某 种 途径 告诉 系统 ， 卡 上 .有 几 个 存储 区 间 及 VO 地 址 区 间 ， 每 
个 区 间 是 多 大 ， 以 及 各 自在 卡 上 (本 地 ) 的 地 址 。 这 些 节 址 在 本 质 上 都 是 局 部 的 、 内 部 的 ， 所 
以 都 从 0 起算。 但 是 ， 这 些 区 问 不 与 总 线 直接 相连 ， 在 把 接口 卡 插 上 总 线 并 加 电 之 初 ， 从 总 
线 上 述 访问 不 到 这 些 区 间 ， 所 以 不 会 互相 冲突 。 为 区 别 这 种 地 址 ， 我 们 不 妨 称 之 为 “ 卡 上 地 
址 ”虽然 实际 上 未 必 是 在 接口 卡 上 ， 有 些 外 设 芯 片 其 实 是 固定 在 母 朴 上 的 。 
(2) 系统 软件 在 知道 了 :共有 多 少 外 部 设备 、 各 自 又 有 什么 样 的 存储 区 间 以 后 ， 就 可 以 统筹 地 为 

这 些 区 间 分 配 “ 物 理 地 址 ”并 日 建立 起 这 些 区 间 与 总 线 之 间 的 连接 ， 以 后 就 可 以 通过 这 些 
地 址 来 访问 。 显 然 ， 这 里 所 谓 “ 物 理 地 址 ”与 真正 的 物理 地 址 是 有 些 |x 别 的 ， 它 实际 上 也 是 
一 种 逻辑 地 址 ， 所 以 常 称 为 “总 线 地 址 ”因为 这 是 CPU 在 总 线 上 所 看 到 的 地 址 。 可 想 而 知 ， 
接口 卡 上 一 定 有 着 某 种 地 址 映射 机 制 。 所谓 “为 外 设 分 配 地 址 ” 就 是 为 其 分 配 总 线 地 址 ， 
并 为 之 建立 起 映射 。 这 种 映射 代替 了 从 前 的 跳 线 或 小 开关 ， 卡 上 有 几 个 地 址 区 间 就 有 几 个 映 
射 。 对 于 CPU, “总 线 地 址 ”就 相当 于 物理 地 址 ， 还 可 以 通过 虚 存 地 址 的 映射 再 加 一 次 变换 。 
此 外 ， 对 于 中 断 请 求 线 的 连接 也 与 此 相似 。 

事实 上 ，PCI 总 线 正 是 这 样 设计 的 。 此 外 ， 对 于 IO 地 址 空间 与 内 存 地 址 空间 相 分 离 的 系统 结构 ， 
如 i386 结构 ， 还 可 以 选择 将 VO 寄存 器 的 地 址 也 映射 成 内 存 地 址 (总 线 地 址 )， 这 样 就 可 以 通过 访 内 指 
令 来 操作 这 些 寄存 器 了 。 这 一 方面 有 站 能 简化 程序 设计 ， 田 一 方面 也 本 避免 1386 系统 结构 中 VO 地 址 
空间 太 小 (16 位 )、 太 拥挤 的 问题 。 

可 以 想像 ， 每 个 PCL 设备 或 者 接口 卡 上 一 定 有 许多 用 来 完成 这 个 过 程 ， 即 建立 起 这 些 连 接 利 映 射 
的 寄存 器 ， 系 统 或 设备 初始 化 的 时 候 要 通过 这 些 寄存 器 米 “ 配 置 ”该 设备 的 各 个 总 线 地 址 区 间 。 可 是 ， 
这 些 寄存 器 本 身 的 地 址 又 怎么 办 昵 ?” 这 不 是 又 同 到 了 原先 的 问题 吗 ? 下 面 读 者 就 会 看 到 ，PCI 总 线 的 
设计 者 对 这 个 问题 解决 得 很 好 (但 是 从 程序 设计 的 角度 却 有 些 令 人 头痛 )。 

第 三 个 问题 是 对 使 用 总 线 的 竞争 。 在 早期 的 计算 机 系统 中 ， 整 个 系统 只 有 一 个 CPU， 从 总 线 的 角 
度 来 说 ， 这 个 CPU Bi “ERA” (Master), MRA “MRE”, BURG fT RE 
操作 。 需 要 由 “从 设备 ”启动 的 操作 也 是 有 的 ， 那 融 是 对 内 存 的 DMA 操作 。 此 时 “从 设备 ” 先 向 CPU 
发 出 一 个 DMA 请求， 让 CPU 暂停 访问 内 存 ， 实 际 上 是 暂停 包括 访问 总 线 在 内 的 一 切 外 部 操作 ， 使 系 
统 中 暂时 没有 了 “ 主 设备 ”。 得 到 允许 以 后 ， 这 “从 设备 ”就 暂时 升级 变 成 了 对 内 存 的 “证 设备 ” 从 
而 可 以 启动 内 存 操作 。 这 种 内 存 操作 当然 是 跨 总 线 的 ， 代 是 因为 CPU 已 暂停 活动 ， 所 以 不 存在 竞争 使 
用 总 线 的 问题 。 或 者 说 ， 对 (使 用 ) 总 线 的 竞争 宛 于 对 (使 用 ) 内 存 的 竞争 之 中 。 可 是 ， 企 多 处 理 器 的 系统 
中 ， 对 总 线 的 竞争 就 成 为 问题 了 ， 如 果 两 个 CPU 同 叶 启 动 跨 总 线 的 访问 ， 怎 样 来 解决 冲突 呢 ? XD, 
随 着 技术 的 发 展 ， 一 些 “ 从 设备 ”， 即 外 设 接口 卡 也 带 上 了 智能 ,有 了 本 地 的 处 埋 器 ， 在 这 样 的 情况 下 ， 
应 该 允许 一 个 “从 设备 ”直接 访问 另 一 个 “从 设备 ”上 的 存储 区 间或 UO 寄存 器 ， 而 不 必 由 CPU 介入 。 
这 与 DMA， 即 “( 击 外 设 ) 直 接 访问 内 存 ” 是 同样 的 概念 。 可 是 ， 如 果 - 一 个 “从 设备 ”要 直接 访问 另 一 
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个 “从 设备 ”， 那 当然 也 要 先 取得 对 总 线 的 使 用 权 ， 斩 时 变 成 总 线 的 主 设备 。 为 了 解决 竞争 使 用 总 线 的 
I, PCI 总 线 上 配备 了 一 个 仲裁 器 。 遇 有 冲突 时 ， 仲 裁 器 会 选择 其 中 之 (包括 CPU) 暂 时 成 为 当前 的 
“ 主 设备 ”， 而 其 他 的 则 只 好 等 待 。H| 此 又 生出 另 一 个 问题 来 ， 如 果 CPU, 或 -个 设备 ， 想 要 启动 的 是 
与 操作 ， 但 是 由 于 冲突 而 一 时 不 能 成 为 总 线 的 “ 主 设 备 ” 那么 它 是 只 能 停 下 来 等 待 ， 还 是 可 以 让 它 把 
缆 写 的 内 容 放 在 -一 个 缓冲 区 中 ， 把 它 托 什 给 PCI 总 线 ， 自 己 则 接着 继续 运行 ? 显然 这 对 于 CPU 的 效率 
是 有 影响 的 。PCI 总 线 的 设计 考虑 到 了 这 个 问题 ， 为 写 操作 提供 了 缓冲 。 当 然 ， 对 于 读 操 作 就 没有 办 
法 ， 只 好 等 待 了 。 所 以 ， 从 效果 上 看 ， 跨 PCL 总 线 的 污 操 作 往 往 比 读 操作 快 。 呆 想 而 知 ， 在 这 个 方面 ， 
PCI 总 线 的 硬件 ( 必 片 ) 设 计 是 相当 复杂 的 ， 但 好 在 对 软件 是 “透明 ”的 ， 所 以 在 代码 中 看 不 到 这 个 问题 
的 存 人 在。 但是， 允许 “从 设备 ”通过 竞争 暂时 变 成 “ 主 设备 ” 则 实际 上 是 对 DMA 的 推广 ， 因 而 对 外 
部 设备 接口 的 说 计 与 实现 ， 进 而 对 设备 驱动 程序 的 代码 有 着 重要 的 影响 。 我 们 将 在 “ 块 设备 驱动 ”- - 
节 中 结合 DMA 操作 进一步 讨论 这 个 问题 。 


还 有 个 问题 是 总 线 的 扩充 问题 。: - 块 母 板 上 能 容纳 的 插 模 、 或 不 经 揪 权 直接 与 PCI 总 线 相 连 的 芯 
片 的 数量 总 是 有 限 的 ， 能 不 能 在 需要 时 通过 一 块 接口 发 对 总 线 的 容量 加 以 扩充 ， 或 者 连接 上 另 一 条 ( 同 
种 或 异种 ) 总 线 昵 ? 读者 也 许 觉 得 这 个 问题 很 简单 ， 其 实 不 然 (不 过 我 们 在 这 里 就 不 深入 讨论 了 )。PCI 
总 线 在 这 方面 也 解决 得 很 好 。 人 们 设计 出 了 各 种 各 样 的 “PCI 桥 ” 芯 片 ， 通 过 一 个 PCI 桥 就 可 以 连接 
到 一 条 PCI 总 线 。CPU 通过 “宿主 一 PCI 桥 ” 与 条 PCI 总 线 相连 ， 处 在 这 种 位 置 上 的 PCI 总 线 称 为 
“ 主 (Primary)PCI M28” , BEER “ERA” o PC 机 中 通常 只 有 一 个 “宿主 一 PCI 桥 ”， 但 是 在 特 
殊 的 系统 结构 中 也 可 以 有 多 个 。 在 -~ 条 PCI 总 线 的 基础 |.， 可 以 再 通过 “PCT 括 ” 连 接 到 其 他 次 一 层 
的 总 线 , 例如 通过 “PCI-PCI 桥 ” 可 以 连接 到 男 一 条 PCI 总 线 , 通过 “PCI-ISA 桥 ” 可 以 连接 到 一 条 ISA 
总 线 。 BKE, 现代 PC 机 中 的 ISA 总 线 正 是 通过 “PCLISA 桥 ” 连 接 在 PCI 总 线 上 的 。 这 样 ， 通 过 使 
用 “PCLPCI 桥 ”， 就 可 以 构筑 起 ”个 层次 的 、 树 状 的 PCI 系统 结构 。 对 于 上 上层 的 总 线 而 言 ， 连 接 在 这 
条 总 线 上 的 PCI 桥 也 是 一 个 设备 。 们 在 ， 这 是 一 种 特 人 穆 的 设备 ， 它 此 是 上 层 总 线 上 的 “个 设备 ， 实 际 
上 又 是 上 层 总 线 的 延伸 。 


实际 上 ， 在 PC 机 中 ，“ 宿 主 一 PCI 桥 ” 与 内 存 控制 器 往往 都 做 在 问 个 芯片 中 。CPU 与 这 个 器 
件 、 以 及 通过 这 个 器 件 与 内 存 的 连接 就 是 原 米 意义 上 的 “系统 总 线 ”， 而 遂 过 这 个 器 件 直接 相连 的 就 
是 系统 的 主 PCI 总 线 。 所 有 的 外 设 ， 包 括 磁盘 、 键 盘 、 和 鼠标 器 、 并 行路 、 串 行 门 、 网 络 卡 、 等 等 ， 企 
部 直接 或 间接 地 接 在 PCI 总 线 !:。 其 中 有 些 以 接口 卡 和 搬 柳 的 形式 相连 ， 有 的 则 固定 在 系统 峡 板 上 通 
过 电子 线路 直接 相连 。 特 别 地 ，PC 机 中 一 般 还 通过 个 “PCI-ISA 桥 ” 连 接 色 一 条 ISA dk, THEE 
FISA 插 槽 。 不 过 ， 插 在 ISA 总 线 上 的 接口 卡 就 不 具备 PCI 的 地 址 映射 功能 了 。 此 外 ， 如 前 所 述 ， 需 
此 时 还 可 以 通过 “PCI-PCI 恬 ” 连 接 到 其 他 PCI 总 线 。 这 样 ， 如 果 把 CPU 比喻 作 一 个 城市 的 中 心 ， 系 
统 总 线 就 好 像 态 “，: 环 路 ”， 主 PCI 总 线 就 好 像 是 “二 环 路 ”， 而 ISA 总 线 以 及 连 在 卡 PCI 总 线 上 的 
其 他 PCI 心 线 就 是 “三 环 路 ”了 。 图 8.2 所 示 是 个 PC 系统 结构 的 示意 图 。 
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HOST-PCI 桥 与 内 存 控制 器 


ik PCI 总 线 


PCLISA 桥 


ISA 总 线 次 层 PCI 总 线 


外 部 设备 


图 8.2 PC 系统 结构 与 PC1 BR 


图 8.2 中 在 系统 总 线 与 PCI 总 线 上 的 一 个 设备 之 间 有 条 虚线 ， 表 示 PCI 总 线 上 的 设备 在 完成 了 配 
置 以 后 就 好 像 连接 在 系统 总 线 上 一 样 。 而 在 此 之 前 则 对 于 系统 总 线 和 PCI 总 线 都 是 不 可 见 的 ， 所 以 不 
会 互相 冲突 。 对 于 连接 在 次 层 PCI 总 线 上 的 设备 也 是 一 样 。 此 外 ， 系 统 的 内 存 控制 器 与 HOST-PCI 桥 
通常 都 集成 在 同一 芯片 中 , 可 以 把 内 存 也 看 作 是 连 在 PCI 总 线 上 的 一 个 设备 , 不 过 它 永 远 是 “从 设备 ”。 

从 上 面 的 介绍 可 以 看 出 ，PCI 总 线 的 设计 考虑 到 了 种 种 方面 的 问题 ， 并 且 解 决 得 很 好 ， 筷 之 所 以 
能 成 为 受到 普遍 接受 的 标准 总 线 绝 不 是 偶然 的 。 

前 面 讲 过 ， 每 个 PCI 设备 或 者 接口 卡 上 有 许多 用 于 地 址 配置 的 寄存 器 ， 初 始 化 时 要 通过 这 些 寄 存 
器 来 “配置 ”该 设备 的 总 线 地 址 。 - 旦 完成 了 配置 以 后 ，CPU 就 可 以 访问 该 设备 的 各 项 资源 ， 就 好 像 
那 是 内 存 的 一 部 分 一 样 ， 这 就 没有 什么 特殊 的 了 。 所 以 ， 本 节 的 重点 是 配置 PCI 设备 的 过 程 ， 与 这 个 
过 程 有 关 的 代码 并 不 简单 。 在 本 书 中 ， 我 们 把 每 个 设备 上 的 这 些 寄存 器 合 在 一 起 称 为 该 设备 的 “配置 
寄存 器 组 ”。 

PCI 标准 规定 每 个 设备 的 配置 寄存 器 组 最 多 可 以 有 256 字 节 的 连续 空间 ， 其 中 开头 64 个 字 节 的 用 
途 和 格式 是 标准 的 ， 称 为 配置 寄存 器 组 的 “ 头 部 ”(configuration header)。 这 样 的 “ 头 部 ”又 有 两 种 ， 
其 中 “0 HY” (type 0) 头 部 用 于 一 般 的 PCI 设备 ,“1 型 ” 头 部 则 用 于 各 种 PCI 桥 。 但 是 , 不 管 是 “0 型 ” 
还 是 “1 型 ” 其 开头 16 个 字 节 的 用 途 和 格式 总 是 共同 的 。 这 16 个 字 节 中 包含 着 有 关头 部 的 类 型 、 设 
备 的 种 类 、 设 备 的 一 些 性 质 、 由 谁 制造 等 等 信息 。 对 于 这 16 个 字 节 的 地 址 ，include/linux/pcih 中 定义 
了 这 样 一 些 常数 . 
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24 #define PCT VENDOR ID 0x00 /* 16 bits */ 
25 #define PCI_DEVICE_ID 0x02 /* 16 bits */ 
26 #define PCI COMMAND 0x04 /* 16 bits */ 
38 #define PCI STATUS 0x06 /* 16 bits */ 


EM s 4 


54 #define PCI_CLASS_REVISION 0x08 /* High 24 bits are class, low 8 


55 revision */ 

56 #define PCI_REVISION ID 0x08 /* Revision ID */ 

57 #define PCI CLASS PROG 0x09 /* Reg. Level Programming Interface */ 
58 #define PCI_CLASS DEVICE 0x0a /* Device class */ 

59 


60 #define PCI CACHE LINE SIZE 0x0c /* 8 bits */ 
61 #define PCI LATENCY TIMER — Ox0d /* 8 bits */ 
62 Hdefine PCI HEADER TYPE Ox0e /* 8 bits */ 


这 里 的 寄存 器 PCI HEADER TYPE # Jj Æ Uy — fb 3L SE, PCI CLASS DEVICE 和 
PCI CLASS PROG 则 表明 是 哪 一 种 设备 。 例 如 ，PCL CLASS. DEVICE 的 高 8 位 为 0x02 表示 是 网 络 设 
备 ， 而 低 8 位 为 0 H PCI_CLASS_PROG 为 0， 又 进步 表示 这 是 Ethernet BOK. Van, 
PCI CLASS DEVICE 的 高 8 位 为 0x07 表示 是 “简单 通信 控制 器 ”， 低 8 位 为 01 进一步 表示 是 并 行 口 ， 
而 PCL CLASS PROG 为 0 表示 单 向 、 为 1 表示 双向 、 为 2 表示 符合 ECP 1.0 规定 (IEEE1284 并 行 口 标 
准 中 的 一 种 操作 模式 )。 还 有 , PCI VENDOR ID 表示 由 哪 一 家 厂商 制造 , 如 Intel 的 ID 号 码 是 0x8086、 
Compaq 的 ID 号 码 是 0x0e11。 这 些 号 码 是 由 - “个 统一 的 机 构 分 配 、 指 定 的 ， 所 以 不 会 重复 。 每 家 厂商 
对 其 产品 也 有 编号 ， 那 就 是 寄存 器 PCI DEVICE ID 中 的 内 容 。 所 有 这 些 信息 都 是 由 厂商 固化 在 产品 
中 的 ， 不 会 变化 。 在 Linux 系统 上 ， 可 以 通过 “cat /proc/pci” 查 看 系统 中 所 有 PO 设备 的 类 别 、 型 号 
以 及 厂商 等 等 信息 ， 那 就 是 从 这 些 寄存 器 来 的 。 

所 以 ,根据 这 些 信息 就 可 以 确定 应 该 怎样 进一步 解释 和 处 理 其 余 的 48 个 字 节 .至 于 头 部 以 外 的 192 
个 字 节 ， 则 取决 于 具体 的 设备 ， 如 果 不 需要 也 可 以 没有 。 除 地 址 配置 以 外 ， 这 些 ( 头 部 ) 寄 存 器 还 有 个 重 
要 的 作用 ， 就 是 使 CPU 能 够 探测 到 相应 设备 (接口 ) 的 存在 ， 并 且 确 定 该 设备 的 种 类 和 一 - 些 特性 ， 包 括 
由 谁 制造 等 等 。 这 样 ， 用 户 就 不 再 需要 通过 种 种 途径 告知 系统 都 有 哪 一 些 外 设 ， 放 改 由 CPU 通过 一 个 
称 为 “ 枚 举 ” 的 过 程 自动 扫描 探测 所 有 连接 在 PCI 总 线 上 的 外 设 。 

如 前 所 述 ， 这 些 寄存 器 本 身 的 地 址 就 是 一 个 问题 。 首 先 ， 很 难为 不 同 的 设备 指定 不 同 的 起 始 地 址 ， 
因为 那样 就 又 回 到 了 原来 的 问题 上 。 试 想 ， 每 个 设备 都 可 以 有 256 字 节 的 配置 寄存 器 组 ， 如 果 要 为 每 
一 种 可 能 的 设备 都 保留 个 同 的 地 址 ， 那么 1024 种 设备 就 得 保留 256KB, 一 万 种 昵 ?更 多 呢 ? 何况 这 又 
给 地 址 的 管理 带 来 了 麻烦 ， 这 显然 是 不 现实 的 。 比 较 好 的 办 法 是 让 所 有 设备 的 配置 寄存 器 组 都 采用 相 
同 的 地 址 ， 由 所 在 总 线 的 PCL 桥 在 访问 时 附加 上 其 他 条 件 来 区 分 。 而 CPU 则 通过 一 个 统 -的 入 口 地 址 
向 “宿主 一 PCI 桥 ”发 出 命令 ,由 相应 的 PCI 桥 间 接地 完成 具体 的 读 写 。 对 十 i386 结构 的 处 理 器 ，PCI 
总 线 的 设计 者 在 VO 地 址 空间 保留 了 8 个 字 节 用 于 这 个 目的 ， 那 就 是 OXCFS—-0xCFF. 1X8 个 字 节 实际 
上 构成 两 个 32 位 的 寄存 器 ， 第 一 个 是 “地 址 寄存 器 ”0xCF8， 第 二 个 是 “数据 寄存 器 ”0xCFC。 要 访 
问 某 个 设备 中 的 某 个 配置 寄存 器 时 ，CPU 先 往 地 址 寄存 器 中 写 入 日 标 地 址 ， 然 后 通过 数据 寄存 器 读 写 
数据 。 不 过 ， 写 入 地 址 寄存 器 中 的 日 标 地 址 是 一 种 包括 总 线 号 、 设 备 号 、 功 能 号 以 及 配置 寄存 器 地 址 
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在 内 的 综合 地 址 ， 其 构成 如 图 8.3 所 示 。 


Í 保留 不 用 (7 位 ) 设备 号 (5 位 ) 


最 高 位 为 1 





功能 号 | ”寄存 器 地 址 (8 位 ) 
(3 位 ) 最 低 岗 位 为 0 


8.3 写 入 地 址 寄存 器 0xCF8 的 综合 地 址 


这 里 的 总 线 号 、 设 备 号 以 及 功能 号 是 对 配置 寄存 器 地 址 的 扩充 ， 就 是 上 面 说 的 附加 条 和 件 。 首 先 ， 
每 条 PCIl 总 线 都 有 个 总 线 号 ， 主 总 线 的 总 线 号 固定 为 0， 其 余 的 则 由 CPU 在 枚 举 阶段 每 当 探测 到 一 个 
PCI 桥 时 便 为 其 指定 一 个 ， 依 次 递增 。 设 备 号 一 般 代表 着 H PCI 接口 卡 (更 确切 地 说 是 PCI 总 线 接口 
芯片 )， 通 常 取决 于 插 横 的 位 置 。 每 块 PCI 接口 卡 上 可 以 有 若干 个 功能 模块 ， 这 些 功 能 模块 共用 同一 个 
PCI 总 线 接口 芯片 ， 包 括 其 中 用 于 地 址 映射 的 电子 线路 ， 以 降低 成 本 。 从 逻辑 的 角度 说 ， 每 个 “功能 ” 
实际 上 就 是 … 项 设备 ， 所 以 设备 号 和 功能 号 合 在 一 起 又 可 以 称 作 “ 轴 辑 设备 号 ”， 而 每 块 卡 上 最 多 可 以 
容纳 8 个 逐 辑 设备 。 显 然 ， 这 些 字段 结合 在 一 起 就 惟一 地 确定 了 系统 中 的 一 项 PCI 逻辑 设备 。 读 者 也 
许 会 问 : 一 开始 的 时 候 ， 在 尚未 为 各 条 总 线 指 定 总 线 号 之 前 ， 又 怎样 来 访问 特定 的 总 线 呢 ? 事实 上 ， 
一 开始 的 时 候 只 有 0 号 总 线 是 可 访问 的 ， 在 扫描 0 号 总 线 时 如 果 发 现 上 面 某 一 个 设备 是 PCI 桥 ， 就 为 
之 指定 一 个 新 的 总 线 号 ， 例 如 1， 这 样 1 号 总 线 也 就 可 以 访问 了 ， 这 就 是 枚 举 阶 段 的 任务 之 -…。 

一 般 , 每 个 逻辑 设备 中 都 有 几 个 需要 映射 的 地 址 区 间 , 所 以 在 0 型 头 部 中 定义 了 6 个 “基地 址 ” 寄 
存 器 ， 可 以 分 别 用 于 6 个 地 址 区 间 的 映射 。 下 面 读者 就 会 看 到 ， 对 这 些 寄存 器 的 操作 是 相当 复杂 的 。 
例如 ， 直 接 读 时 是 区 间 的 地 址 加 上 一 些 标志 位 ， 而 若 先 往 里 面 写 上 全 1 再 读 就 成 了 区 间 长 度 。 除了 这 6 
个 常规 的 区 间 外 ， 膛 辑 设备 中 有 时 候 还 会 有 一 块 ROM， 所 以 又 有 一 个 “扩充 ROM 基地 址 ” 寄存 器 。 
此 外 ， 还 有 用 来 设置 中 渐 请 求 线 的 寄存 器 以 及 其 他 几 个 寄存 器 。 

对 于 0 型 头 部 中 这 些 寄存 器 的 地 址 ，include/linux/pci.h 中 定义 了 一 些 常数 : 


72 /* 

73 * Base addresses specify locations in memory or 1/0 space 
74 * Decoded size can be determined by writing a value of 

75 * Oxffffffff to the register, and reading it back. Only 
76 * ] bits are decoded. 

77 */ 


78 Hdefine PC] BASE ADDRESS 0 0x10 /* 32 bits */ 

79 #define PCI_BASE_ADDRESS_1 Oxl4 /* 32 bits [htype 0,1 only] */ 
80 #define PCI BASE ADDRESS 2 0x18 /* 32 bits [htype 0 only] */ 
81 #define PCI BASE ADDRESS 3 Oxlc /* 32 bits */ 

82 define PCI BASE ADDRESS 4 0x20 /* 32 bits */ 

83 &define PCI BASE ADDRESS 5 0x24 /* 32 bits */ 
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96 
97 
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99 
100 


104 
105 
106 
107 
108 
109 
110 
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/* Header type 0 (normal devices) */ 

define PCI CARDBUS CIS 0x28 

define PCI SUBSYSTEM VENDOR ID Ox2c 

"define PCI SUBSYSTEM ID Ox2e 

#define PCI ROM ADDRESS 0x30 /* Bits 31..11 are address, 10..1 reserved */ 


ELEM NP E 


define PCI CAPABILITY LIST 0x34 /* Offset of first capability list entry */ 


/* 0x35-0x3b are reserved */ 

"define PCI TNTERRUPT LINE Ox3c /* 8 bits */ 
define PCT INTERRUPT PIN — Ox3d /* 8 bits */ 
define PCI MIN GNT Ox3e /* 8 bits */ 
#define PCI MAX LAT Ox3f /* 8 bits */ 


以 后 ， 随 着 代码 的 阅读 ， 读 者 白 会 明白 这 些 寄 存 器 的 作用 和 有 关 的 操作 。 
PCI 桥 的 作用 和 功能 不 同 于 一 般 设备 ，1 型 头 部 中 的 寄存 器 自然 也 就 不 同 。 对 于 1 型 头 部 中 的 寄存 


器 地 址 ， 


112 
113 
114 
115 
116 
117 
118 


123 


124 
125 


128 
129 


134 


135 
136 
137 
138 
139 
140 
141 
142 


include/linux/pci.h 中 另 有 一 些 常数 定义 ; 


/* Header type 1 (PCI-to-PCI bridges) */ 

#define PCT PRIMARY BUS 0x18 /* Primary bus number */ 

Hdefine PCI SECONDARY BUS 0x19 /* Secondary bus number */ 

#define PCI_SUBORDINATE BUS Oxla /* Highest bus number behind the bridge */ 
#define PCI SEC LATENCY TIMER Oxlb /* Latency timer for secondary interface */ 


define PCI IO BASE Oxlc /* [/0 range behind the bridge */ 

#define PC1 IO LIMIT Oxld 

#define PCI SEC STATUS Oxle /* Secondary status register, 
oniy bit 14 used */ 

define PCI MEMORY BASE 0x20 /* Memory range behind */ 

define PCI MEMORY LIMIT 0x22 


#define PCI PREF MEMORY BASE 0x24 /* Prefetchable memory range behind */ 
#define PCI PREF MEMORY LIMIT 0x26 
define PC] PREF BASE UPPER32 0x28 /* Upper half of prefetchable 

memory range */ 
#define PCI PREF LIMIT UPPER32 Ox2c 
"define PCI IO BASE _UPPERI6 0x30 /* Upper half of [/0 addresses */ 
üdefine PCI IO LTMIT_UPPER16 0x32 
/* 0x34 same as for htype 0 */ 
/* 0x35-0x3b is reserved */ 
#define PCI ROM ADDRESSI 0x38 /* Same as PCI, ROM ADDRESS, but for htype 1 */ 
/* Ox3c- Ox3d are same as for htype 0 */ 
Rdefine PCI BRIDGE CONTROL 0x3e 
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在 1 型 头 部 中 也 有 两 个 地 址 区 间 ， 所 以 前 面 定 义 的 寄存 器 PCI BASE_ADDRESS_ 0 和 
PCI BASE ADDRESS 1 (Ji, 78 和 79 行 ) 也 适用 于 1 型 头 部 。PCI 桥 跨 在 两 条 总 线 之 问 ， 寄 存 器 
PCI PRIMARY BUS 和 PCI SECONDARY BUS 的 内 容 就 说 明了 其 上 下 两 端的 总 线 号 ， 其 中 
PCI SECONDARY BUS 就 是 该 PCI 桥 所 连接 和 控制 的 总 线 ， 而 PCI SUBORDINATE BUS 则 说 明 自 
此 以 下 、 在 以 此 为 根 的 子 树 中 最 人 的 总 线 号 是 什么 。CPU 在 枚 举 阶段 所 作 的 是 深度 优先 的 扫描 ， 所 以 
子 树 中 的 总 线 号 总 是 连续 递增 的 。 当 CPU fF VO 寄存 器 0xCF8 中 写 入 一 个 综合 地 址 以 后 ， 从 0 号 总 线 
开始 ， 每 个 PCI 桥 会 把 缘 合 地 址 中 的 总 线 号 与 其 自身 的 总 线 号 相 比 ， 如 果 相 符 就 用 逻辑 设备 号 在 本 总 
线 上 寻访 目标 设备 ;否则 就 进一步 把 这 个 总 线 号 与 PCI SUBORDINATE BUS FARAH, WRH 
标 总 线 号 落 在 当前 子 树 的 范围 中 ， 就 把 综合 地 址 传递 给 其 下 的 各 个 次 层 PCI WO BAA RAP EER. 
这 样 ， 最 终 就 会 找到 目标 设备 。 如 前 所 述 ， 这 个 过 程 仅 用 于 设备 的 配置 阶段 ， : 量 完 成 了 配置 ，CPU 
就 直接 道 过 有 关 的 总 线 地 址 访问 目标 设 务 了 。 

同样 ， 我 们 把 1 型 头 部 中 的 其 他 一 些 寄存 器 也 放 到 阅读 有 关 代 人 始 时 再 介绍 。 

还 有 一 种 2 型 头 部 是 用 于 “PCI-CardBus 桥 ” 的 ，CardBus 是 笔记 本 电脑 中 使 用 的 总 线 ， 我 们 在 这 
里 个 感 兴趣 。 

由 于 PCI 总 线 的 重要 性 利 特殊 性 ，PC 机 制造 商 们 在 BIOS 中 提供 了 PCI 总 线 操作 ， 即 PCI 总 线 和 
设备 的 枚 举 以 及 配置 所 需 的 功能 与 服务 。 其 中 PCL 总 线 和 设备 的 枚 举 放 在 系统 加 电 以 后 的 自 检 阶 段 ， 
而 对 配置 过 程 所 需 的 基本 操作 则 以 类 似 于 BIOS. 调用 的 形式 提供 服务 。 考 虑 到 现代 的 PC 机 操作 系统 都 
已 采用 保护 模式 和 页 式 映 射 ，BIOS 中 还 提供 了 一 个 特殊 的 PCI 操作 调用 入 日， 供 运 行 寺 保护 模式 和 页 
式 映射 的 CPU 调用 。 提供 了 这 些 功 能 与 服务 的 BIOS 称 为 “PCI BIOS". 早期 的 Linux 内 核 也 依靠 BIOS 
完成 对 PCI 的 枚 举 和 配置 操作 ,但 是 后 来 已 实现 了 自己 的 PCI 总 线 操作 而 不 再 依赖 于 BIOS. 现在， 是 
否 采用 PCI BIOS 提供 的 服务 是 个 条 件 编译 选择 项 。 我 们 在 下 而 将 阅读 Linux AK CLAY PCI 总 线 操作 
的 代码 ， 因 为 只 有 这 样 作 能 真 止 搞 清 有 关 的 机 埋 ， 否 则 -进入 BIOS 就 进 了 黑 盒 子 ， 不 知道 到 底 在 干 
些 什 么 了 。 

不 过 ， 正 因为 Linux 内 核 以 前 也 采用 PCI BIOS 提供 的 服务 ， 所 以 有 很 多 函数 的 函数 名 都 带 有 前 组 
pcibios。 人 尽管 现 在 已 经 可 以 不 再 涉及 BIOS， 却 还 是 保留 了 其 中 一 些 函 数 原来 的 函数 名 不 变 ， 以 免 引 起 
混乱 。 

我 们 先 看 几 个 低层 的 函数 , 这 些 苑 数 就 是 通过 寄存 器 0xCF8 Al 0xCFC 读 写 日 标 设备 上 的 配置 寄存 
器 时 使 用 的 。 对 配置 寄存 器 的 读 写 可 以 是 按 字 节 、 按 16 位 字 、 按 32 位 长 字 的 读 写 。 具 体 的 薄 数 由 gcc 
在 编译 时 的 预 处 理 中 根据 安定 义 生 成 ， 这 个 宏 定 义 在 drivers/pci/pci.c P: 


478 /* 

479 * Wrappers for all PCI configuration access functions. They just check 
480 * alignment, do locking and call the low-level functions pointed to 

481 * by pci dev-?^ops. 

482 */ 

483 


484 #define PCI byte BAD 0 

485 tdefine PCI word BAD (pos & 1) 
486 #define PCT dword BAD (pos & 3) 
487 
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488 &define PCI_OP (rw, size, type) \ 
489 int pei_##rw## config ##size (struct pci dev *dev, int pos, type value) V 


490 { \ 

491 int res; \ 

492 unsigned long flags; \ 

493 if (PCI _##size## BAD) return PCIBIOS BAD REGISTER NUMBER; \ 
494 spin lock irqsave(&pci lock, flags); \ 

495 res = dev—>bus—>ops—>rwi# ##size(dev, pos, value); \ 

496 spin unlock irqrestore(&pci lock, flags); \ 

497 return res; \ 

498 } 

499 


500 PCI_OP (read, byte, u8 *) 
501 PCI OP(read, word, ul6 *) 
502 PCI OP(read, dword, u32 *) 
503 PCI OP(write, byte, u8) 
504 PCI OP(write, word, ul6) 


以 501 47 ABI, Ait gcc 预 处 理 的 字符 串 替 换 就 变 成 了 函数 pei. read. config. word()If E X: 


int pci read config word(struct pci dev *dev, int pos, ul6* value) 
{ 

int res; 

unsigned long flags; 

if (PCI word BAD) return PCTIBTOS BAD REGISTER NUMBER; 

spin lock irqsave(&pci lock, flags); 

res = dev—>bus—>ops—>read_word(dev, pos, value); 

spin_unlock_irgrestore (&pci_lock, flags); 

return res; 


} 


[ FÉ 35, H fi JL fT Bt 45 Jj [ pci read config byte( ) . pci read config dword( ) ~ 
pci write config byte(). pci write config word( ) 等 函数 的 定义 。 

再 看 pci read. config word( ) 的 代码 。 首 先 通 过 宏 操 作 PCI. word. BAD 检查 地 址 pos 是 否 与 16 位 
字 边 界 对 齐 ， 然 后 就 在 加 锁 且 不 允许 中 断 的 条 件 下 道 过 由 具体 设备 提供 的 函数 指针 完成 操作 。 这 里 参 
数 dev 指向 代表 着 日 标 设备 的 pei dev 数据 结构 ， 读 者 在 后 面 将 会 看 到 pei. dev 数据 结构 的 定义 ， 这 里 
我 们 先 简 单 地 介绍 -一 下 所 涉及 的 几 个 字段 。 这 个 数据 结构 中 有 个 指针 bus, 指向 代表 着 设备 所 在 总 线 的 
pci bus 数据 结构 ( 见 后 )， 而 pci bus 结构 中 义 有 个 指针 ops， 指 向 一 个 pei. ops 数据 结构 ， 这 个 数据 结 
构 的 定义 在 include/linux/pci.h 中 : 


424 /* Low-level architecture-dependent routines */ 


425 

426 struct pci ops { 

421 int (read byte) (struct pci dev *, int where, u8 *val); 
428 int Ckread word) (struct pci dev *, int where, ul6 *val); 
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int Ckread dword) (struct pci dev *, int where, u32 *val); 
int (write byte) (struct pci dev *, int where, u8 val); 
int (write word) (struct pci dev *, int where, ul6 val); 
int (write dword) (struct pci dev *, int where, u32 val); 


fe 


显然 ， 这 是 一 个 函数 跳 转 表 ， 与 我 们 在 前 儿 章 中 看 到 过 的 一 些 数据 结构 相似 。 这 个 数据 结构 中 提 
供 的 函数 指针 都 是 用 来 读 / 写 PCI 设备 的 配置 寄存 器 的 。 内 核 中 有 三 个 pei ops 数据 结构 ， 分 别 用 于 所 
谓 “1 型 ”和 “2 型 ”的 PCI 配置 寄存 器 操作 (注意 不 是 1 型 和 2 型 的 头 部 )， 以 及 通过 BIOS 完成 的 操 
作 ， 均 定义 于 arch/i386/kernelpci-pc.c。CPU 在 初始 化 时 根据 条 件 编译 或 对 硬件 的 测试 从 这 三 个 数据 结 
构 中 选择 使 用 其 一 。 在 PCI 总 线 发 展 的 早期 ， 有 些 “ 销 主 一 PCI 桥 ” 曾 经 用 过 “2 AY” PCI 配置 寄存 器 
操作 , 但 是 后 来 在 PCI 总 线 标准 中 已 经 明文 规定 不 再 牛 产 此 类 “ 帝 主 一 PCI BE". PALA, pei direct. conf2 


I3 
只 是 


82 
83 pci 
84 pci 
85 pci 
86 pei. 
87 pci 
88 pei. 
89  ] 

可 见 ， 


static struct 


conf 1 


AT nr ARIA ZEAE rp DO AES CAA IT, Seb E— AB SF pei_direct_confl . 


pci ops pci direct confl = | 
read config byte, 





confl 


read config word, 





confl 
conf 1 


 confl. 
write config dword 


confl 


read config dword, 
write config byte, 
write config word, 


LRK pci read config word( ) 是 通过 pci confl read config word( ) 完 成 的 ， 其 代码 在 


arch/i386/kernel/pci-pc.c 'f': 


45 
46 
47 
48 
49 
50 


153 
154 
155 
156 
157 
158 
159 
160 


static int pei_confl_read_config_word (struct pci dev *dev, int where, ul6 *value) 


{ 


out 1 (CONFIG_CMD (dev, where), OxCF8) ; 


*value = 
return PCIBIOS, SUCCESSFUL ; 


} 


inw(OxCFC + (where&2)) ; 


这 就 是 前 面 讲 的 通过 0xCF8 和 OxCFC ASA E28 VI IRL BOE Sa. AP MP RA, 
我 们 在 这 里 不 感 兴趣 ， 但 还 是 列 出 于 下 供 有 需要 的 读者 参考 ( 均 定 义 于 pci-pe.c). 


static struct pci ops pci direct conf2 = | 
pci conf2 read config byte, 
pci conf2 read config word, 
pci conf2 read config dword, 


pci conf2 write config byte, 


pci conf2 write config word, 
pci conf2 write config dword 
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531 /* 

532 * Function table for BIOS32 access 
533 */ 

534 

535 static struct pci ops pci bios access = | 
536 pci bios read config byte, 

537 pci bios read config word, 
538 pci bios read config dword, 
539 pci bios write config byte, 
540 pci bios write config word, 
541 pci bios write config dword 
542 


可 见 ， 如 果 要 由 BIOS 完成 对 PCI 设备 上 配置 寄存 器 的 读 写 ， 则 通过 一 个 函数 
pci bios read config word( ) 进 入 BIOS， 这 个 函数 的 代码 也 在 同一 文件 (pci-pc.c) 中 : 


441 static int pci bios read config Word (struct pci dev *dev, int where, ul6 *value) 
442 { 


443 unsigned long ret; 

444 unsigned long bx = (dev—>bus—>number << 8) | dev—devfn; 
445 

446 . asm (lcall (%%esi); cld\n\t” 
447 “je 1f\n\t” 

448 "xor %%ah, %%ah\n” 

449 "p 

450 : “=e” (*value), 

451 “=a” (ret) 

452 : “1” (PCIBIOS READ CONFIG WORD), 
453 "b^ (bx), 

454 ^p^ ((long) where), 

455 "S^ (&pci indirect)); 

456 return (int) (ret & Oxff00) >> 8; 
457 | 


这 段 汇 编 代码 通过 一 个 指向 目标 地 址 和 上 段 地 址 的 结构 指针 pci. indirect 调用 BIOS 中 的 一 个 函数 ， 
这 个 函数 就 是 BIOS 为 保护 模式 提供 的 PCI 配置 寄存 器 操作 的 总 入 口 ， 其 地 址 是 通过 扫描 PCI BIOS 的 
存储 区 间 ， 根 据 若 于 特殊 的 字 节 ( 称 为 “签名 ”) 而 找到 的 。 

除 由 gcc 生成 的 上 述 这 一 组 函数 外 ， 内 核 中 还 有 另 一 组 类 似 的 、 但 是 版 本 较 老 的 函数 
pcibios. read config byte( ) ~  pcibios read config word( ) 、  pcibios read config dword( ) . 
pcibios write config byte( ). pcibios write config word( ). pcibios write config dword( )， 这 是 为 了 与 
老 版 本 的 动态 安装 模块 兼容 而 保留 的 ， 定 义 于 drivers/pci/compat.c: 


51 #define PCI OP(rw, size, type) \ 
52 int pcibios ##rw##_config_ttsize(unsigned char bus, unsigned char dev_fn, \ 
53 unsigned char where, unsigned type val) V 
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54 { \ 

55 struct pci dev *dev = pci find slot(bus, dev fn); \ 
56 if (!dev) return PCIBIOS DEVICE NOT FOUND; \ 

57 return pci_##rwH# config ##size(dev, where, val); \ 
58 } 

59 


60 PCI OP(read, byte, char *) 
61 PCI OP(read, word, short *) 
62 PCI OP(read, dword, int *) 
63 PCI OP(write, byte, char) 
64 PCI OP(write, word, short) 
65 PCI OP(write, dword, int) 


以 61 行为 例 ， 经 过 预 处 理 以 后 就 变 成 了 这 样 : 


int pcibios read config word (unsigned char bus, unsigned char dev fn, 
unsigned char where, unsigned type val) 


{ 


struct pci dev *dev = pci find slot(bus, dev fn); 
if (!dev) return PCIBIOS DEVICE NOT FOUND; 
return pci read config word(dev, where, val); 


TI, RELE “JILA”, 落实 到 新 版 本 的 pci read config word( ) E. 


对 PCI 设备 的 枚 举 和 配置 都 是 在 初始 化 阶段 中 完成 的 。 一 旦 完成 了 初始 化 ， 以 后 的 操作 就 比较 简 
BT. PCI 总 线 的 初始 化 由 pci init( ) 完 成 ， 其 代码 在 drivers/pci/pci.c H: 


1162 void | init pci init(void) 


1163 { 

1164 struct pci dev *dev; 

1165 

1166 pcibios init( ); 

1167 

1168 pci for each dev(dev) { 

1169 pci fixup device(PCI FIXUP FINAL, dev); 
1170 } 

1171 

1172 #ifdef CONFIG_PM 

1173 pm register(PM PCT DEV, 0, pci pm callback); 
1174 Hendif 

175  ] 


先 提 一 下 这 里 的 条 件 编译 选择 项 CONFIG PM， 这 是 为 电源 管理 而 设 的 ，PM GbR "Power 
Management” WTH, PERMEN ERER 
BA RIERA PCI 总 线 的 PC HL, Xt BIOS 就 必须 提供 对 PCI 总 线 操 作 的 支持 ， 内 而 称 为 
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PCI BIOS。 这 种 BIOS 在 机 器 加 电 以 后 的 自 检 阶段 会 从 系统 中 的 第 一 个 PCI 桥 ， 即 “宿主 一 PCI 桥 ” 开 
始 进行 探测 和 扫描 ， 逐 个 地 “ 极 举 ”(enumerate) 连 接 在 第 一 条 PCI 总 线 上 的 所 有 PCI 设备 并 记录 在 案 。 
如 果 其 中 的 某 个 设备 是 个 “PCI-PCI BE", 则 又 前 进一步 ， 再 探测 和 扫描 连 在 这 个 桥 上 的 次 级 PCI BR. 
就 这 样 递 归 下 去 ， 直 到 穷尽 系统 中 的 所 有 PCI 设备 。 其 结果 是 在 内 存 中 建立 起 棵 代表 着 这 些 PCI 
线 和 设备 的 “PCI 树 ” 一 般 的 PC 系统 结构 中 部 只 有 … 个 “宿主 一 PCI 桥 ”， 但 是 如 果 有 不 绸 一 个 ， 也 
对 其 如 法 炮制 。 然 后 ， 操 作 系统 可 以 通过 BIOS 调 出 来 获取 有 关 本 系统 中 PCI 设备 的 信息 。 当 操作 系 
统 要 进行 对 PCI 设备 的 配置 (config) 操 作 时 ， 也 可 以 通过 BIOS 调用 来 完成 。 

但 是 ， 在 实践 中 发 现 有 些 母 板 上 的 PCI BIOS 有 这 样 财 样 的 问题 ， 再 说 有 些 系 统 〈《 如 一 些 能 入 式 系 
统 ) 根本 就 没有 BIOS， 所 以 后 来 Linux 内 核 也 提供 了 绕 过 BIOS、 直 接 探测 和 枚 兴 PCI 设备 (以 及 配置 ) 
的 功能 ， 而 把 是 否 通过 BIOS 进行 探测 和 枚 举 作 为 一 个 编译 选择 项 。 不 过 ， 尽 管 直 接 的 PCI 设备 探测 
与 枚 举 跟 BIOS 并 无 关系 ,代码 的 作者 还 是 把 这 部 分 操作 也 放 在 pcibios_init( ) 中 完成 ， 以 求 跟 老 的 函数 
名 一 致 。 

tK Be pcibios_init( ) 的 代码 在 arch/i386/kernel/pci-pc.c FP: 


[pci init( ) > pcibios init( )] 


953 /* 

954 * Initialization. Try all known PCI access methods. Note that we support 
955 * using both PCI BIOS and direct access: in such cases, we use I/O ports 
956 * to access config space, but we still keep BIOS order of cards to be 
957 * compatible with 2.0.X. This should go away some day 

958 */ 

959 

960 void init pcibios init (void) 

961 { 

962 struct pci_ops *bios = NULL; 

963 struct pci ops *dir = NULL; 

964 

965 #ifdef CONFIG PCT BIOS 

966 if ((pei probe & PCI PROBE BIOS) && ((bios = pci find bios( )))) { 
967 pci probe |= PCT BTOS SORT; 

968 pci bios present = 1; 

969 } 

970 #endif 

971 #ifdef CONFIG_PCI_DIRECT 

972 if (pci probe & (PCI _PROBE_CONFL | PCI PROBE CONF2)) 

973 dir = pci check direct( ) ; 

974 &endi f 

975 if (dir) 

976 pci root ops = dir; 

977 else if (bios) 

978 pci root ops = bios; 

979 else { 

980 printk("PCl: No PCI bus detected An^); 

981 return; 
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982 } 

983 

984 printk (“PCI: Probing PCT hardware\n”) ; 

985 pci root bus = pci scan bus(0, pci root ops, NULL); 
986 

987 peibios_irq_init( ); 

988 pcibios fixup peer bridges( ); 

989 pcibios fixup irqs( ); 

990 pcibios resource survey( ); 

991 

992 #ifdef CONFIG PCI BIOS 

993 if ((pci probe & PCI BIOS SORT) && '(pci probe & PCI NO SORT)) 
994 pcibios sort( ); 

995 #endif 

9906  ) 


编译 选择 项 CONFIG_PCL BIOS 表示 通过 BIOS 进行 PC] 设备 的 探测 和 枚 举 ， 
CONFIG, PCI DIRECT 表示 直接 进行 PCI 设 备 的 探测 和 枚 举 。 一 者 不 是 互 斥 的 ,也 可 以 先 试 着 通过 BIOS 
探测 ， 若 不 成 功 再 亲自 动手 。 我 们 对 通过 PCI BIOS 进行 的 操作 不 感 兴趣 ， 但 还 是 把 pci_find_bios( ) 的 
代码 列 在 下 面 供 读者 参考 , 一 方面 也 让 读者 对 怎样 发 现 PCI BIOS 并 找到 PCI 配置 操作 的 入 口 有 个 感性 
的 认识 (archyi386/kernel/pci-pe.c)。 


[pci_init( ) > pcibios init( ) > pci find. bios( )] 


544 /* 

545 * Try to find PCI BIOS. 

546 */ 

547 

548 static struct pci ops * init pci find bios (void) 

549 { 

550 union bios32 *check; 

551 unsigned char sum; 

552 int i, length; 

553 

554 /* 

555 * Follow the standard procedure for locating the BI0S32 Service 
556 * directory by scanning the permissible address range from 
557 * 0xe0000 through Oxfffff for a valid BIOS32 structure. 
558 */ 

559 

560 for (check = (union bios32 *) va(0xe0000); 

561 check <= (union bios32 *) . va(OxffffO); 

562 **check) { 

563 if (check->fields. signature != BIOS32 SIGNATURE) 

564 continue; 

565 length = check-^fields. length * 16; 

566 if (!lengtb) 
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567 continue; 

568 sum = 0; 

569 . for (i = 0; i < length ; ++i) 

570 sum,*- check->chars[i]; 

571 if (sum != 0) 

572 continue; 

573 if (check->fields. revision != 0) { 

574 printk("PCI: unsupported BIOS32 revision Xd at Ox%p, \ 
report to <mj@suse. cz>\n’, 

575 check-^fields.revision, check); 

576 continue; 

577 } 

578 DBG('PCI: BIOS32 Service Directory structure at Ox%p\n”, check); 

579 if (check->fields. entry >= 0x100000) { 

580 printk "PCI: BIOS32 entry (Ox%p) in high memory, cannot use. W^, check) 

581 return NULL; 

582 } else { 

583 unsigned long bios32_entry = check—>fields. entry; 

584 DBG("PCI: BIOS32 Service Directory entry at Ox%lx\n”, bios32 entry) 

585 bios32_indirect. address = bios32_entry + PAGE OFFSET; 

586 if (check_pcibios( )) 

587 return &pci_bios_access; 

588 } 

589 break; /* Hopefully more than one BIOS32 cannot happen... */ 

590 } 

591 

592 return NULL; 

593 } 


这 里 BIOS32, SIGNATURE 是 一 串 特殊 的 字 节 ， 定 义 于 同 -~ 文件 (pci-pc.c) 中 : 


259 /* BIOS32 signature: ”32 " */ 
260 define BIOS32 SIGNATURE X(C ^ ««0) 4003" « 8S ot (2 «€16 + (C 《24)) 


我 们 的 重点 是 对 PCI 设 备 的 直接 探测 与 枚 举 , 这 是 由 pei. check. direct( ) 完 成 的 , 其 代码 也 在 pci-pc.c 
m: 


[pci init( ) > pcibios, init( ) > pci. check direct ( )] 


192 static struct pci ops * init pci check direct (void) 
193 { 

194 unsigned int tmp; 

195 unsigned long flags; 

196 

197 __save_flags(flags); __cli(); 

198 

199 /* 
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200 * Check if configuration type 1 works. 

201 */ 

202 if (pci_probe & PCI_PROBE_CONF1) { 

203 outb (0x01, OxCFB) ; 

204 tmp = inl (OxCF8); 

205 outl (0x80000000, OxCF8) ; 

206 if (inl (OxCF8) == 0x80000000 && 

207 pei_sanity_check(&pci_direct_confl)) { 
208 outl (tmp, OxCF8); 

209 . restore flags(flags); 

210 printk("PCI: Using configuration type 1\n”): 
211 request region(OxCF8, 8, "PCI confl^); 
212 return &pci direct confi; 

213 ) 

214 outl (tmp, OxCF8); 

215 } 

216 

217 /* 

218 * Check if configuration type 2 works. 

219 */ 

220 if (pci probe & PCI PROBE CONF2) { 

221 outb (0x00, OxCFB); 

222 outb (0x00, OxCF8); 

223 outb (0x00, OxCFA); 

224 if (inb (OxCF8) == 0x00 && inb (OxCFA) == 0x00 && 
225 pci sanity check(&pci direct conf2)) | 
226 . restore flags(flags); 

227 printk( PCI: Using configuration type 2Wn^); 
228 request region(OxCF8, 4, "PCI conf2”); 
229 return &pci direct conf2; 

230 j 

231 } 

232 

233 . restore flags(flags); 

234 return NULL; 

235 .3 


如 前 所 述 , “宿主 一 PCIE HF” B VO 口 -… 定 在 VO 地址 为 OxCF8-0xCFF 处 ， 其 中 Ox8-0xCFB 为 地 址 
口 ，0xCFC-0CFF 为 数据 口 。 但 是 ， 也 有 可 能 系统 中 根本 就 没有 PCI 总 线 存 在 ;或 者 再 进 -- 步 ， 没 有 
PCI 总 线 存在 ， 却 凑巧 有 个 ISA 设备 正在 使 用 这 些 地 址 。 针 对 这 些 可 能 性 ，PCI 总 线 标准 规定 了 测试 的 
方法 ， 所 以 这 里 先 按 1 型 操作 试 试 ， 如 果 成 功 就 从 212 行 返 回 了 ， 不 成 功 则 再 按 2 型 试 试 。 不 过 ， 如 
前 所 述 ，2 型 操作 现在 已 经 不 用 了 ， 所 以 对 1 型 操作 的 测试 一 般 总 能 成 功 。 

探测 到 一 个 1 型 “宿主 一 PCI 桥 ” 以 后 ， 要 进一步 采用 pci_direct_confl 通过 pci_sanity_check( ) 再 
加 验证 。 这 个 函数 的 代码 也 在 arch/i386/kernel/pci-pc.c 中 ， 


[pci init( ) > pcibios_init( ) > pci check direct ( ) > pci sanity, check( )] 
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162 /* 

163 * Before we decide to use direct hardware access mechanisms, we try to do some 
164 * trivial checks to ensure it at least seems to be working - we just test 
165 * whether bus 00 contains a host bridge (this is similar to checking 

166 * techniques used in XFree86, but ours should be more reliable since we 
167 * attempt to make use of direct access hints provided by the PCI BIOS). 
168 * 

169 * This should be close to trivial, but it isn't, because there are buggy 
170 * chipsets(yes, you guessed it, by Intel and Compaqg)that have no class ID 
171 */ 

172 static int . init pci sanity check(struct pci ops *o) 

173 { 

174 ul6 x: 

175 struct pci_bus bus; /* Fake bus and device */ 

176 struct pci dev dev; 

177 

178 if (pci probe & PCI NO CHECKS) 

179 return 1; 

180 bus. number - 0; 

181 dev.bus = &bus; 

182 for (dev. devfn=0; dev.devfn < 0x100; dev. devfn++) 

183 if ((!o->read_word(&dev, PCI CLASS DEVICE, &x) && 

184 (x == PCI CLASS BRIDGE HOST || x == PCI CLASS DISPLAY VGA)) || 
185 (!o-^read word(&dev, PCI VENDOR ID, &x) && 

186 (x == PCI VENDOR ID INTEL || x == PCI VENDOR ID COMPAQ))) 

187 return l; 

188 DBG(^PCI: Sanity check failed\n’) ; 

189 return 0; 

190 ] 


怎样 验证 呢 ? 我 们 知道 , 一 条 PCI 总 线 上 最 多 可 以 有 256 种 功能 , 或 者 说 256 个 逻辑 设备 ,而 “ 宿 
主 一 PCI 桥 ” 至 少 应 该 提供 PCL CLASS BRIDGE HOST 和 PCL CLASS_DISPLAY_VGA 这 二 者 之 一 。 
如 果 都 没有 ， 那 么 至 少 这 “宿主 一 PCI 桥 ” 芯 片 应 该 是 Intel 或 Compaq 制造 的 。 如 果 连 这 也 得 不 到 让 
实 ， 邦 就 还 是 只 能 认为 “宿主 一 PCI 桥 ” 实 际 上 并 不 存在 ， 前 面 从 PCI 口中 读 到 的 信息 只 起 碰巧 而 已 。 

“宿主 一 PCI 桥 ” 的 存在 得 到 验证 以 后 , 系统 中 就 多 了 一 项 VO 设备 , 占据 的 VO 地 址 区 间 从 0xCF8 
开始 ， 长 度 为 8。 所以， 这 里 通过 request_region( ) 在 内 核 的 VO 设备 资源 树 ( 见 后 ) 中 增加 一 个 节点 。 表 
示 这 个 VO 地 址 区 间 已 由 “PCI conf1” 占 用 。 

如 果 成 功 地 发 现 了 一 个 1 型 “宿主 一 PCI HF”, PRAIRIE le) pei_direct_confl 的 指针 。 这 个 
pci ops 数据 结构 的 定义 已 经 在 前 面 看 到 过 了 。 从 此 以 后 ， 在 枚 举 和 配置 操作 中 采用 什么 方法 访问 PCI 
总 线 也 就 定 下 来 了 。 

回 到 pcibios_init( ) 的 代码 中 ， 接 着 (985 行 ) 就 是 对 PCI 总 线 的 扫描 ， 即 对 连接 在 这 条 总 线 上 的 PCI 
设备 的 探测 与 枚 举 了 ， 这 是 由 pci_scan_bus( ) 完 成 的 ， 其 代码 见 drivers/pci/pci.c: 


[pci init( ) > pcibios init( ) > pci scan bus ()] 
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1045 struct pci bus * — init pci scan bus (int bus, struct pci ops *ops, void *sysdata) 
1046 { 


1047 struct pci bus *b = pci alloc primary bus(bus); 
1048 if (b) ( 

1049 b->sysdata = sysdata; 

1050 b-^ops = ops; 

1051 b->subordinate = pci do scan bus(b); 

1052 ] 

1053 return b; 

1054 


“宿主 一 PCI 桥 ” 后 面 是 系统 中 的 第 - -条 PCI 总 线 ， 称 为 “ 主 PCI 总 线 ”。 在 内 核 中 ， 每 条 PCI 总 
线 都 由 一 个 pci bus 数据 结构 代表 ， 所 以 先 要 为 之 分 配 一 个 数据 结构 ， 这 种 数据 结构 定义 于 
include/linux/pci.h FP: 


381 struct pci bus { 


382 struct list head node; /* node in list of buses */ 

383 struct pci bus *parent; /* parent bus this bridge is on */ 

384 struct list head children; /* list of child buses */ 

385 struct list head devices;  /* list of devices on this bus */ 

386 struct pci dev *self; /* bridge device as seen by parent */ 

387 struct resource *resource[4]; /x* address space routed to this bus */ 
388 

389 struct pci ops *ops; /* configuration access functions */ 

390 void *sysdata; /* hook for sys-specific extension */ 

391 struct proc dir entry *procdir; /* directory entry in /proc/bus/pci */ 
392 

393 unsigned char number; /* bus number */ 

394 unsigned char primary; /* number of primary bridge */ 

395 unsigned char secondary; /* number of secondary bridge */ 

396 unsigned char | subordinate; /* max number of subordinate buses */ 
397 

398 char name[48] ; 

399 unsigned short vendor; 

400 unsigned short device; 

401 unsigned int serial; /* serial number */ 

402 unsigned char pnpver: /* Plug & Play version */ 

403 unsigned char productver: /* product version */ 

404 unsigned char checksum; /* if zero - checksum passed */ 

405 unsigned char padl; 

406 }; 


系统 中 的 每 条 PCL 总 线 都 有 个 编号 number, È PCI 总 线 的 编号 为 0。 

所 有 的 pci. bus 数据 结构 都 互相 连接 在 起， 形成 车 十 (通常 只 有 一 棵 )PCI MRR, ERRE 

“个 代表 着 “宿主 一 PCI 桥 ”的 pci_bus 结构 。 内 核 中 有 一 个 队列 头 pei. root, buses. 所 有 代表 着 “宿主 

一 PCI 桥 ”的 pci_bus 结构 都 通过 其 内 部 的 队列 头 node 挂 在 这 个 队列 中 。 同 时 ， 每 个 pci_bus 结构 本 身 
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又 维持 着 两 个 队列 。 一 个 是 devices， 凡 是 连接 在 这 条 总 线 上 的 设备 都 有 个 pci dev 数据 结构 ( 见 下 ) 挂 在 

这 个 队列 中 。 胃 一 个 是 children， 凡 是 通过 “PCI-PCI BR” 连接 在 这 条 总 线 上 的 次 层 PCL 总 线 都 有 个 

pci bus 数据 结构 挂 在 这 个 队列 中 。 这 样 ， 从 队列 pci root buses 开始 的 整个 层次 结构 就 反映 着 系统 中 

PCI 总 线 和 设备 的 配备 和 连接 。 而 pci_scan_bus( ) 的 目的 正 是 要 在 内 存 中 建立 起 这 样 .- 个 层次 结构 。 通 

常 系统 中 只 有 一 个 “宿主 一 PCI HF”, 所 以 pci root. buses 中 通常 只 有 一 -个 节点 ， 也 就 是 只 有 一 棵 树 。 
每 个 PCI 设备 都 由 -一 个 pei dev 数据 结构 代表 ， 这 种 数据 结构 定义 于 includelinux\pcih; 


3ll /* 

312 * The pci dev structure is used to describe both PCI and ISAPnP devices. 
313 */ 

314 struct pci dev { 

315 struct list head global list; /* node in list of all PCI devices */ 
316 struct list head bus list; /* node in per-bus list */ 

317 struct pci bus *bus: /* bus this device is on */ 

318 struct pci bus *subordinate; /* bus this device bridges to */ 

319 

320 void *sysdata; /* hook for sys-specific extension */ 

321 struct proc dir entry *procent; /* device entry in /proc/bus/pci */ 
322 

323 unsigned int devfn; /* encoded device & function index */ 
324 unsigned short vendor; 

325 unsigned short device; 

326 unsigned short subsystem vendor; 

327 unsigned short subsystem device; 

328 unsigned int class; /* 3 bytes: (base, sub, prog-if) */ 

329 u8 hdr type; /* PCI header type ( multi’ flag masked out) */ 
330 u8 rom base reg; /* which config register controls the ROM */ 
331 

332 struct pci driver #*driver;/* which driver has allocated this device*/ 
333 void *driver data; /* data private to the driver */ 

334 dma addr t dma mask; /* Mask of the bits of bus address this 

335 device implements. Normally this is 

336 Oxffffffff. You only need to change 

337 this if your device has broken DMA 

338 or supports 64-bit transfers.  */ 

339 

340 /* device is compatible with these IDs */ 

341 unsigned short vendor compatible[DEVICE COUNT COMPATIBLE]; 

342 unsigned short device compatible[DEVICE COUNT COMPATIBLE]; 

343 

344 /* 

345 * Instead of touching interrupt line and base address registers 

346 * directly, use the values stored here. They might be different! 
347 */ 

348 unsigned int irg; 

349 struct resource resource[DEVICE COUNT RESOURCE]; 
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/* 1/0 and memory regions + expansion ROMs */ 


350 struct resource dma resource[DEVTCE COUNT DMA|; 

351 struct resource irq resource[DEVICE COUNT IRQj; 

352 

353 char name [80] ; /* device name */ 

354 char slot name[8]; ^ /* slot name */ 

355 int. active; /* ISAPnP: device is active */ 
356 int ro; /* ISAPnP: read only */ 

357 unsigned short. regs; /* TSAPnP: supported registers */ 
358 

359 int Okprepare) (struct pci dev *dev); /* TSAPnP hooks */ 
360 int Ckactivate) (struct pei. dev *dev) ; 

361 int (*deactivate) (struct pci dev *dev); 

362  ]); 


每 个 pci_dev 数据 结构 都 同时 连 入 两 个 队列 ，“ 方 而 通过 global list 挂 入 一 个 总 的 pei. dev 结构 队 
5); 同时 又 通过 bus list 挂 入 其 所 在 总 线 的 pei. dev 结构 队列 devices， 并 且 使 指针 bus 指向 代表 着 该 总 
线 的 pci bus 数据 结构 。 如 果 共 体 的 设备 起 个 “PCI-PCI 桥 ” 则 还 要 使 其 指针 subordinate 指 问 代表 着 另 
AY PCL 总 线 (次 层 PCI 总 线 ) 的 pei. bus 数据 结构 。 
fF. pci, bus 结构 中 有 个 resource 数据 结构 数组 ,而 pei. dev 结构 中 央 有 二 个 这 样 的 数组 ,每 个 resource 
数据 结构 都 可 以 用 来 描述 个 地 址 区 间 ， 包 括 上 其 起 点 利 终点 。 地 址 本 里 就 是 种 重要 的 “资源 ”对 于 
PCI 总 线 的 初始 化 ， 目 的 就 在 于 为 各 个 设备 上 的 各 个 区 间 分 上 名和 和 设置 地 址 ， 以 代 蔡 从 前 手工 设 阁 跑 线 
或 小 开关 的 过 程 ， 因 出 在 这 个 过 程 中 所 涉及 的 首要 资源 束 是 地 址 ， 这 种 数据 结构 旭 因 此 而 得 名 。 从 大 
种 意义 上 说 , PCI 总 线 的 整个 初始 化 过 程 哎 是 与 这 些 地 址 区 间 打 父 道 。 关 十 resource 数据 结构 后 面 还 此 
详细 介绍 
随 着 代码 的 阅读 ， 读 省 白 会 明白 上 面 这 两 个 数据 结构 中 其 他 一 些 字 上 段 的 作用 。 
PAX pci_alloc_primary_bus( ) 的 代码 在 drivers/pci/pci.c "P: 








1026 struct pei bus * | init pci alloc primary bus (int bus) 


1027 | 

1028 struct pci bus *b; 

1029 

1030 if (pci bus exists(&pci root buses, bus)) { 
1031 /* If we already got to this bus through a different bridge, ignore it */ 
1032 DBG (PCL: Bus %02x already known\n”, bus); 
1033 return NULL; 

1034 } 

1035 

1036 b = pci alloc bus( ); 

1037 list add tail(&b-^node, &pci root buses); 

1038 

1039 b->number - b->secondary - bus; 

1040 b->resource[Q] - &ioport resource; 

1041 b->resource[1] = &iomem resource; 

1042 return b; 
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1043 


) 


Linux 内 核 源 代码 情景 分 析 〈 下 册 ) 


同一 PCI 总 线 只 能 由 一 个 pci, bus 结构 代表 ， 在 PCI 树 中 或 pci. root. buses 队列 中 只 能 出 现 一 次 ， 
所 以 先 要 通过 pci bus exists( ) 检 查 是 否 重复 。 参数 bus 为 相应 PCI 总 线 的 编号 ， 在 这 里 是 0( 见 前 面 的 
985 行 )。 这 里 引用 的 ioport_resource 和 iomem resource 分 别 为 反映 着 IO 空间 和 内 存 空 间 地 址 占用 情 
况 的 两 棵 资源 树 ， 后 面 我 们 还 要 讲 到 。 

为 主 PC] 总 线 分 本 了 数据 结构 以 后 ， 就 可 以 开始 扫描 了 。 天 数 pci do scan bus( ) 的 代码 在 
drivers/pci/pci.c 中 ， 


[pci_init( ) > pcibios_init( ) > pci scan bus ( ) > pci do scan bus()] 


970 
971 
972 
973 
974 
975 
976 
977 
978 
979 
980 
981 
982 
983 
984 
985 
986 
987 
988 
989 
990 
991 
992 
993 
994 
995 
996 
997 
998 
999 


1000 
1001 
1002 
1003 


static unsigned int init pci do scan bus (struct pci bus *bus) 


{ 
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unsigned int devfn, max, pass; 
struct list head *]n; 
struct pci dev *dev, dev0; 


DBG (“Scanning bus %02x\n”, bus-^number); 
max = bus—>secondary; 


/* Create a device template */ 
memset (&dev0, 0, sizeof (dev0) ) ; 
dev0. bus = bus; 

dev0. sysdata = bus—>sysdata; 


/* Go find them, Rover! */ 

for (devfn = 0; devfn < 0x100; devfn += 8) 1 
devO. devfn = devfn; 
pci scan slot (&devO) ; 


) 


/* 
* After performing arch-dependent fixup of the bus, look behind 
* all PCI-to-PCI bridges on this bus. 
*/ 
DBG (“Fixups for bus %02x\n”, bus—>number) ; 
pcibios fixup bus (bus) ; 
for (pass-0; pass € 2; pass++) 
for (In=bus~>devices. next; In != &bus—>devices; in-In-^next) 1 
dev = pci dev b(lm; 
if (dev->hdr type == PCI HEADER TYPE BRIDGE || 
dev->hdr type == PCI HEADER TYPE CARDBUS) 
max = pci scan bridge(bus, dev, max, pass); 


/* 


第 8 章 RAMI 


1004 * We've scanned the bus and so we know all about what's on 

1005 * the other side of any bridges that may be on this bus plus 

1006 * any devices 

1007 * 

1008 * Return how far we've got finding sub-buses. 

1009 */ 

1010 DBG ("Bus scan for %02x returning with max=%02x\n”, bus-^number, max); 
1011 return max; 

1012 } 


扫描 一 条 PCI 总 线 的 直接 目的 就 是 逐个 地 发 现 连 接 在 该 总 线 .上 的 PCI 疫 备 ， 为 其 建立 起 pei dev 
数据 结构 放 挂 入 相应 的 队列 ， 这 就 是 所 谓 枚 举 。 所 以 ， 这 里 先 准 备 下 一 个 空白 的 pei dev 结构 ， 然 后 依 
次 对 各 个 PCI 接口 通过 pei scan slot( ) 扫 描 , 每 次 扫描 8 个 功能 ， 妈 8 个 逻辑 设备 ,这 是 每 块 PCI 接口 
卡 上 的 最 大 容量 。 注 意 这 里 的 devin 是 将 前 述 的 5 位 设备 号 与 3 位 功能 号 合 在 一 起 的 “逻辑 设备 号 ”。 
这 个 函数 的 定义 也 在 drivers/pci/pci.c F: 


[pci init( ) > pcibios_init( ) pci, scan bus ( ) > pci do. scan, bus( ) > pci. scan, slot( )] 


932 struct pci dev * . init pci scan slot(struct pci dev *temp) 

933 { 

934 struct pci bus *bus = temp->bus; 

935 struct pci dev *dev; 

936 struct pci dev *first dev = NULL; 

937 int func = 0; 

938 int is multi = 0; 

939 u8 hdr type; 

940 

941 for (func = 0; func < 8; functt+, temp->devfntt+) { 

942 if (func && !is multi) /* not a multi-function device */ 
943 continue; 

944 if (pei read config byte(temp, PCI HEADER TYPE, &hdr type)) 
945 continue; 

946 temp->hdr_type = hdr type & Ox7f; 

947 

948 dev = pci scan device (temp) ; 

949 if (dev) 

950 continue; 

951 pci name device(dev); 

952 if (!func) ( 

953 is multi = hdr type & 0x80; 

954 first dev - dev; 

955 ) 

956 

957 /* 

958 * Link the device to both the global PCT device chain and 
959 * the per-bus list of devices. 

960 */ 
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961 list add tail(&dev-^global list, &pci devices); 
962 list add tail(&dev-»bus list, &bus->devices) ; 
963 

964 /* Fix up broken headers */ 

965 pci fixup device(PCT FIXUP HEADER, dev); 

966 } 

967 return first dev; 

968  ] 


一 个 物理 PCI 没 备 (接口 卡 ) 可 以 是 多 功能 的 , 也 可 以 是 单 功能 的 ,如果 是 单 功 能 的 则 其 逻辑 设备 号 
JE S 的 倍数 (因为 低 3 位 的 功能 号 为 0)， 而 ”个 设备 是 否 为 多 功能 最 从 设备 读 入 其 头 部 类 型 以 后 才能 
知道 ( 头 部 类 型 字 节 的 最 高 位 为 1 表示 多 功能 ), 所 以 先 假定 为 单 功能 。 然 后 , 就 以 pci_bus 结构 指针 temp 
为 参数 通过 pci_read_config_byte( ) 读 设备 的 头 部 字 节 , 注意 这 里 的 temp->devfn 为 目标 逻辑 设备 号 。 如 
前 所 述 , 这 个 孙 数 最 后 会 通过 由 一 个 pei ops 结构 提供 的 函数 指针 完成 操作 。 读 到 了 头 部 类 型 字 节 以 后 ， 
其 低 7 位 为 类 型 编码 ( 见 946 行 )， 接 着 就 可 以 通过 pci scan device( ) 进 一 步 读 取 具体 逻辑 设备 的 配置 信 
忆 了 (drivers/pci/pci.c)。 前 面 讲 过 ， 每 项 远 辑 设备 的 配置 寄存 器 组 中 有 些 信息 是 由 / 商 提 供 、 固化 在 里 
面 的 ， 有 些 信息 (如 地 址 映射 和 总 线 号 ) 则 有 待 设置 。 


[pci init( ) > pcibios init( ) > pci scan, bus ( ) > pci_do_scan_bus( ) > pci scan slot( ) 
> pci. scan, device( )] 


898 /* 

899 * Read the config data for a PC] device, sanity-check it 

900 * and fill in the dev structure... 

901 */ 

902 static struct pci dev * init pci scan device(struct pci dev *temp) 
903 { 

904 struct pci_dev *dev; 

905 u32 1; 

906 

907 if (pci read config dword(temp, PCI VENDOR ID, &1)) 

908 return NULL; 

909 

910 /* some broken boards return 0 or ~O if a slot is empty: */ 

911 if (1 == Oxfffrrree || 1 == 0x00000000 :| 1 == 0x0000ffff !| 1 == Oxffff0000) 
912 return NULL; 

913 

914 dev = kmalloc (sizeof (#dev), GFP KERNEL); 

915 if (!dev) 

916 return NULL; 

917 

918 memcpy (dev, temp, sizeof (dev) ) : 

919 dev->vendor = 1 & Oxffff; 

920 dev->device = (1 >> 16) & Oxffff; 

921 

922 /* Assume 32-bit PCI; let 64-bit PCI cards (which are far rarer) 
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923 set this higher, assuming the system even supports it. */ 
924 dev->dma mask = Oxffffffff; 

925 if (pci setup device(dev) « 0) | 

926 kfree (dev); 

927 dev = NULL; 

928 } 

929 return dev; 

930  ] 


首先 读 入 第 一 个 长 字 ， 其 低 16 位 为 厂商 编号 ， 高 16 位 为 设备 号 。 只 要 这 些 编号 不 是 全 1 或 全 0， 
就 可 以 认为 是 有 效 的 编号 ， 从 而 设备 存在 。 所 以 要 分 配 一 个 新 的 pci_dev 数据 结构 并 设 兽 有 关 的 字段 ， 
然后 ， 通 过 pci_setup_device( ) 进 … 步 从 PCI 口 读 入 有 关 这 个 设备 的 信息 ， 并 继续 设置 这 个 数据 结构 
(drivers/pci/pci.c). 


[pci init( ) > pcibios init( ) > pci scan bus ( ) > pci_do_scan_bus( ) > pci. scan, slot( ) 
> pci scan device( ) > pci setup device( )] 


841 — /* 
842 * Fill in class and map information of a device 
843 */ 
844 int pci setup device(struct pci dev * dev) 
845 { 
846 u32 class; 
847 
848 sprintf (dev—->slot. name, ”%02x:%02x. d", dev—>bus->number, 
PCT_SLOT (dev->devfn), PCI FUNC(dev-^devfn)): 
849 sprintf (dev->name, "PCI device %04x:%04x”, dev->vendor, dev—device) : 
850 
851 pci read config dword(dev, PCI CLASS REVISION, &class); 
852 class >>= 8; /* upper 3 bytes */ 
853 dev-?class - class; 
854 class >>= 8; 
855 
856 DBG ("Found %02x:%02x [%04x/%04x] %06x %02x\n”, dev—>bus—>number, 
dev~>devfn, dev->vendor, dev->device, class, dev->hdr type); 
857 
858 switch (dev->hdr_type) { /* header type */ 
859 case PCI HEADER_TYPE_NORMAL: /* standard header */ 
860 if (class == PCI_CLASS BRIDGE PCT) 
861 goto bad; 
862 pci read irq(dev); 
863 pci read bases(dev, 6, PCI ROM ADDRESS); 
864 pci read config word(dev, PCI SUBSYSTEM VENDOR ID, 
&dev-»subsystem vendor); 
865 pci read config word(dev, PCI SUBSYSTEM ID, &dev—>subsystem device); 
866 break; 
867 
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868 case PCI HEADER TYPE BRIDGE: /* bridge header */ 
869 if (class != PCT CLASS BRIDGE PCI) 
870 goto bad; 
871 pci read bases(dev, 2, PCI_ROM_ADDRESS1) ; 
812 break; 
873 
874 case PCI HEADER TYPE CARDBUS: /* CardBus bridge header */ 
875 if (class != PCI CLASS BRIDGE CARDBUS) 
876 goto bad; 
877 pci read irg(dev); 
878 pci read bases(dev, 1, 0); 
879 pci read config word(dev, PCT CB SUBSYSTEM VENDOR ID, 
&dev—>subsystem vendor); 
880 pci read config word(dev, PCI CB SUBSYSTEM ID, &dev—>subsystem device); 
881 break; 
882 
883 default: /* unknown header */ 
884 printk(KERN ERR "PCI: device %s has unknown header type %02x, ignoring. \n”, 
885 dev-^slot name, dev-^hdr type); 
886 return ~l; 
887 
888 bad: 
889 printk(KERN ERR 
"PCI: %s: class %x doesn't match header type %02x. Ignoring class. W^, 
890 dev-^slot name, class, dev-^hdr type); 
891 dev->class = PCI CLASS NOT DEFINED; 
892 } 
893 
894 /* We found a fine healthy device, go go go... */ 
895 return 0; 
896 } 


接着 是 读 入 用 于 设备 类 别 和 版 本 号 的 长 字 。 冉 往 下 就 取决 于 具体 设备 的 头 部 类 型 了 (858 íT) LH 
类 型 PCI HEADER TYPE NORMAL 表示 该 设备 为 一 般 的 PCI 设备 ，PCIL_ HEADER. TYPE BRIDGE 
表示 “PCI-PCI HF”, PCI HEADER_TYPE_CARDBUS 则 表示 “PCLCardBus BE". 

先 看 一 般 的 PCI 设备 。PCI 设备 通常 都 是 可 以 发 出 中 断 请 求 的 ， 所 以 设备 配置 寡 存 器 组 中 有 两 个 
字 节 , Bl PCI. INTERRUPT. PIN 和 PCLINTERRUPT_LINE, 反映 着 该 设备 的 中 斯 请 求 信 和 号 线 与 总 线 和 
系统 的 连接 方式 。 在 PCI 总 线 上 有 INTA—INTD 上 共 4 条 中 断 请 求 线 ， 从 而 在 PCI 插 槽 中 有 438 "et". 
并 非 所 有 的 PCI 设备 都 能 产生 中断 请 求 ， 例 如 网 形 卡 就 多 半 不 能 产生 中 断 请 求 。 如 果 
PCI INTERRUPT PIN 字 节 为 0， 就 表示 本 设备 不 能 产生 中 断 请 求 。 但 是 ， 如 果 :- 个 PCI 设备 能 产生 中 
Mink, RAAKEADRD TAA DT MRIS PCI 总 线 的 某 条 中 断 请 求 线 上 ， 此 时 
PCI INTERRUPT PIN 宁 节 的 数 信 (1~4) 表 示 该 设备 的 中 肠 请 求 连 在 哪 一 条 线 |。 这 种 连接 是 出 硬件 决 
定 的 ， 所 以 PCI INTERRUPT PIN 宁 节 是 个 只 读 的 字 节 ， 不 能 通过 软件 设置 。 可 是 ， 连 在 哪 :条 PCI 
中 断 请 求 线 上 只 是 事情 的 个 方面 ， 还 有 个 最 终 是 连接 到 系统 的 中 断 控 制 器 (8259A 或 APIC) 上 -的 哪 - 
条 中 断 请 求 线 的 问题 , 称 为 “中 断 请 求 路 径 ” 这 就 是 以 前 需 要 通过 跳 线 或 小 开关 设置 的 网 个 内 容 之 一 。 
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一 一 -一 -一 一 一 


这 是 由 软件 选择 和 设置 的 ， 选 择 的 结果 就 存储 在 PCI INTERRUPT_LINE 字 节 中 。 这 里 要 指出 ， 这 个 
寄存 器 的 目的 只 是 保存 信息 ， 人 而 并 不 带 有 控制 功能 。 所 以 如 果 把 这 个 寄存 器 的 内 容 从 8 改 成 9 并 不 意 
味 着 改变 了 连接 的 目标 。 

这 里 通过 pei read irq( ) 读 入 这 两 个 字 节 ， 并 把 中 断 请 求 线 号 记录 在 pei dev 结构 中 
(drivers/pci/pci.c)« 


[pci init( ) > pcibios_init( ) > pci scan, bus ( ) > pci do. scan bus() > pci scan slot( ) 
> pci scan device( ) > pci. setup device( ) > pci, read, irq( )] 


827 /* 

828 * Read interrupt line and base address registers. 

829 * The architecture-dependent code can tweak these, of course 
830 */ 

831 static void pci read irq(struct pci dev *dev) 

832 | 

833 unsigned char irq; 

834 

835 pci read config byte(dev, PCI_INTERRUPT_PIN, &irg); 

836 if (irg) 

837 pci read config byte(dev, PCI INTERRUPT LTNE, &irg); 
838 dev irq = irq; 

839 } 


PCL 设备 (接口 ) 中 一 般 都 带 有 - 些 RAM 和 ROM 区 间 ， 通 常 的 控制 /状态 寄存 器 和 数据 寡 存 器 也 往 
往 以 RAM 区 间 的 形式 出 现 ， 这 些 地 址 以 后 都 要 先 映射 到 系统 总 线 上 ， 再 进一步 映射 到 内 核 的 虚 存 空 
间 。 现 在 先 要 通过 pci_read_bases( ) 把 这 些 区 间 的 大 小 和 当前 的 地 址 读 进来 。 对 于 一 般 的 PCI EAS E 
多 可 以 有 6 个 这 样 的 RAM 区 间 。 函 数 pci_read_bases( ) 的 代码 在 drivers/pci/pei.c 中 ， 我 们 分 两 段 阅 读 。 


[pei_init( ) > pcibios_init( ) > pci scan bus ( ) > pci_do_scan_bus( ) > pci_scan_slot( ) 
> pci scan device( ) > pci_setup_device( ) > pci_read_bases( )] 





547 static void pci read bases(struct pci dev *dev, unsigned int howmany, int rom) 
548 f 

549 unsigned int pos, reg, next; 

550 u32 l, sz; 

551 struct resource *res; 

552 

553 for(pos-0; pos<howmany; pos = next) { 

554 next = postl; 

555 res = kdev->resource [pos] ; 

556 res->name = dev-?name; 

557 reg = PCI BASE ADDRESS 0 + (pos << 2); 
558 pci read config dword(dev, reg, &1); 
559 pci write config dword(dev, reg, ^0); 
560 pci read config dword(dev, reg, &sz); 
561 pci write config dword(dev, reg, 1): 
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562 
563 
564 
565 
566 
567 
568 
569 
570 
571 
572 
573 
574 
575 
976 
577 
578 
579 


588 
589 
590 


591 
592 
593 
594 
595 
596 
597 


Linux 内 核 源 代码 情景 分 析 (下 册 ) 
if (!sz !| sz == 0xffffffrr 


continue; 
if (1 == OxffÜC££fff) 
120; 


iF((& PCT BASE ADDRESS SPACE)--PCI BASE ADDRESS SPACE MEMORY): 
res-?start = 1 & PCI BASE ADDRESS MFM MASK; 
SZ = pci size(sz, PCl BASE ADDRESS MEM MASK) : 
} else { 
res >start = ] & PCI BASE ADDRESS IO MASK: 
Sz - pci size (sz, PCT BASE ADDRESS 10 MASK & Oxffff): 


} 
res—>end = res->start + (unsigned long) sz; 
res->flags != (1 & Oxf) | pci calc resource flags (1); 


if (C1 & (PCT BASE ADDRESS SPACE ! PCl BASE ADDRESS MEM TYPE MASK)) 
== (PCI BASE ADDRESS SPACE MEMORY ' PCI BASE ADDRESS MEM TYPE 64)) | 
pci read config dword(dev, regt4, &1): 
next-**; 
#if BITS PER LONG == 64 


E e E s 


if (1) { 
printk(KERN ERR 
"PCI: Unable to handle 64-bit address for device %s\n”, dev >slot name); 
res-?start - 0; 
res-^flags = 0; 
continuo; 


Hendif 


} 


这 里 的 dev->resource[ ] 是 pci, dev 数据 结构 中 的 -个 resource 结构 数组 ， 用 来 记录 设备 上 fr RE 
区 间 的 起 始 地 址 与 长 度 。 数 组 的 大 小 为 12， 这 十 因为 除 PCI 设备 的 6 个 常规 地 址 区 间 以 外 还 可 以 有 
个 扩充 ROM 区 间 ， 同 时 还 要 考虑 到 设备 为 PCI EHI RO ERE 

在 设备 的 机 置 宅 存 器 组 中 , 用 于 6 个 常规 地 址 区 间 的 长 字 都 是 连续 的 ,所 以 可 以 通过 一 个 for 循环 
米 读 出 ， 代 码 中 的 557 行 计 算出 各 个 长 字 的 起 始 地 址 。 操 作 时 ， 先 从 相应 的 长 字 中 读 (558 行 )， 谈 得 的 
数值 是 区 间 的 (本 地 ) 起 始 地 址 与 其 他 :一些 信息 的 组 合 ， 对 这 个 数值 的 解释 中 


首先 ， 其 最 低位 ， 邮 bito 表示 区 间 的 类 卉 ， 为 0 表示 是 个 存储 器 区 间 ， 为 1 则 类 示 是 个 JO 
地 由 ( 即 寄存器) 区 间 。 注 意 这 只 是 说 可 以 通过 什么 样 的 操作 (1/O 指令 或 访 内 指令 ) 来 访问 这 个 
区 癌 ， 而 与 共 内 容 是 耕 为 寄存 器 无 关 ， 寄 在 器 也 可 以 通过 存储 单元 的 形式 米 实 现 〈 称 尺 
“memory mapped”). 

如 采 是 存储 器 区 问 ， 那 么 其 商 28 位 就 是 起 始 地 址 的 高 28 位 (起 始 地 址 的 最 低 4 位 - ELE 0). 
如 果 是 VO 区 间 ， 那 么 其 商 29 位 就 是 起 始 地 址 的 高 29 位 (起 始 地 址 的 最 低 3 位 ERO. 
对 于 存储 器 区 间 ， 如 果 bit3 为 1， 就 帮 示 对 这 个 区 间 的 操作 可 以 流水 线 化 ， 称 为 “可 堪 挨 " 
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(prefetchable)， 人 否则 就 不 能 流水 线 化 ， 而 只 能 一 个 单元 … 个 单元 地 读 写 ( 见 后 )。 
e X. bi 为 1 表示 采用 64 位 地 址 ， 为 0 表示 采用 32 位 地 址 。 
e 最 后 ，bitl 41 表示 区 间 的 大 小 超过 1MB， 为 0 则 表示 区 间 的 大 小 在 1MB 以 下 。 


下 询 的 一 些 常数 定义 反映 了 对 这 些 标志 位 的 约定 (include/linux/pci.h): 
84  #define PCI BASE ADDRESS SPACE Ox01 /* 0 = memory, 1 = I/0 */ 
85  #define PCI BASE ADDRESS SPACE IO 0x01 


86 #define PCI BASE ADDRESS SPACE MEMORY 0x00 
87 Hdefine PCT BASE ADDRESS MEM TYPE MASK 0x06 
88 define PCI BASE ADDRESS MEM TYPE 32 0x00 /* 32 bit address */ 
. 89 ttdefine PCI BASE ADDRESS MEM TYPE 1M 0x02 /* Below 1M [obsolete] */ 
90 #define PCI BASE ADDRESS MEM TYPE 64 0x04 /* 64 bit address */ 
9] define PCI BASE ADDRESS MEM PREFETCH 0x08 /* prefetchable? */ 


从 配置 寄存 器 组 的 -个 长 字 由 读 出 了 区 间 的 起 始 地 址 以 后 ， 往 同一 长 宁 中 写 入 全 1559 47), BU 
Oxffffffftf， 接 着 再 从 同 ，- 长 字 中 读 ($60 行 )， 这 时 候 读 得 的 数值 便 是 区 间 的 大 小 。 这 个 数值 的 低 4 位 或 
低 3 位 为 控制 信息 ， 这 一 点 上 与 起 始 地 址 的 格式 相似 ， 但 是 在 其 高 28 位 或 29 位 中 只 有 位 置 最 低 的 那 
位 1 才 有 效 。 区间 的 大 小 必定 是 2 的 某 次 宕 ,所 以 其 二 进 制 数值 中 应 该 只 有 一 位 是 1， 而 其 他 各 位 均 为 
0. 483, 在 读 得 的 数值 中 却 通 常 有 多 位 是 1, 此 时 只 有 位 置 最 低 的 那个 1 才 有 效 , 所 以 要 通过 pci_size( ) 
加 以 换算 (drivers/pciypci.c)。 








[pci init( ) > pcibios_init( ) > pci scan, bus ( ) > pei do scan, bus( ) > Pei_scan_slot( ) 
> pci scan device( ) > pci, setup device( ) > pci read bases( ) > pci size( )} 


537 /* 

538 * Find the extent of a PCI decode. 

539 */ 

540 static u32 pci size(u32 base, unsigned long mask) 

54]  ( 

542 u32 size = mask & base; /* Find the significant bits */ 

543 size = size & ^ (size-D) ; /* Get the lowest of them to 
find the decode size */ 

544 return size-l; /* extent = size - 1 */ 

545  ] 


这 里 先 用 mask 把 最 低 的 4 位 或 3 RR, fue Pee II AA 1 抽取 出 米 。 例 如， 假定 把 
最 低 的 4 位 或 3 位 屏蔽 掉 以 后 得 到 size 的 数值 是 Oxffft0100, 则 (size 一 1) 为 0xffff00ff， 而 ~(size 一 1]) 就 是 
0x0000fft00， 最 后 得 到 size = Oxffff0100 & 0x0000ff00 = 0x100。 这 样 ， 就 把 size 的 进 制 数值 中 位 置 最 
低 的 那个 1 抽取 了 出 米 ， 从 而 得 到 size 的 实际 数值 为 0x100， 即 区 间 的 大 小 为 256， 而 返回 的 值 则 为 
255。 读 者 一 定 会 问 ， 为 什么 不 直接 就 读 同 0x100， 而 要 搞 得 这 么 复杂 呢 ? 当然， 前 面 邦 些 为 1 的 位 是 
HELK. ERLE, REAREA. 表示 着 区 间 的 大 小 以 外 ， 所 有 为 1 的 位 (包括 位 置 最 低 的 1) 都 
是 可 以 (在 建立 地 址 映射 时 ) 加 以 设置 的 ,而 所 有 为 0 的 位 则 不 能 设置 。 在 这 个 例子 中 ,就 表示 该 区 间 在 
映射 后 的 起 始 地 址 必须 是 64KB 边界 上 的 第 “个 或 第 二 个 256 字 节 。 我 们 在 这 里 为 了 说 明 问 题 而 举 了 
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一 个 比较 特殊 的 例子 , 多 数 情况 下 从 位 置 最 低 的 1 开始 往 上 所 有 各 位 都 是 1, 表示 区 间 的 起 点 是 与 区 间 
的 大 小 “自然 ”对 齐 的 。 

读 取 了 区 间 大 小 以 后 ， 还 要 把 起 始 地 址 写 思 这 个 长 字 (561 行 )， 恢 复 其 原状 。 

然后 ， 把 从 寄存 器 读 出 的 内 容 换 算 成 区 间 的 起 点 和 终点 ， 记 录 在 相应 的 resource 结构 中 。 

对 “可 预 取 ”这 个 概念 可 能 还 需要 一 些 说 明 。 如 上 所 述 ， 一 个 区 间 之 为 “存储 器 区 间 ” 或 “VO 区 
间 ” 取 决 于 该 区 间 的 地 址 是 在 “存储 器 地 址 空间 ”或 “IO 地 址 空间 ”实质 上 取决 于 CPU 通过 哪 一 类 
的 指令 访问 这 个 区 间 ， 而 与 在 具体 地 址 上 的 是 存储 单元 或 寄存 器 无 关 。 事 实 上 ， 有 些 CPU 根本 就 没有 
VO 指令 ， 因 而 就 没有 VO 地 址 空间 ， 所 有 的 寄存 器 都 在 存储 器 地 址 空间 中 。 另 一 方面 ， 以 前 也 讲 过 ， 
1386 处 理 器 虽 有 IO 地 址 空间 ， 但 是 其 IO 地 址 空间 比较 小 (16 位 )， 因 而 比较 拥挤 。 再 说 通过 IO 指令 
访问 就 意味 着 每 次 访问 时 都 得 调用 一 个 汇编 语言 子 程序 (因为 C 语言 中 没有 相应 的 语言 成 分 )， 而 不 像 
通过 访 内 指令 时 那样 可 以 把 寄存 器 看 作 一 个 变量 ， 因 而 不 那么 方便 ， 效 率 也 要 低 一 些 。 所 以 ， 在 PCI 
设备 中 一 般 都 倾向 于 将 寄存 器 映射 到 存储 器 地 址 空间 ， 而 避免 使 用 VO 地 址 空间 。 然 而 ， 即 使 都 使 用 
存储 器 地 址 空间 ， 寄 存 器 与 真正 的 存储 单元 还 是 有 着 本 质 的 不 同 ， 主 要 在 于 从 一 个 单元 读 出 时 是 否 可 
能 改变 其 内 容 。 对 十 普通 的 存储 单元 ， 读 操作 是 不 会 改变 其 内 容 的 ， 所 以 反复 从 同一 单元 读 出 多 次 也 
没有 关系 , 每 次 读 出 的 内 容 都 - 样 。 而 寄存 器 就 不 同 了 。 首先, 有 些 寄存 器 可 能 代表 着 一 个 FIFO 队列 ， 
从 中 读 出 时 每 次 都 是 读 出 FIFO 中 最 前 面 的 内 容 ， 因 而 每 次 都 可 能 不 同 。 其 次 , 很 多 状态 寄存 器 中 的 状 
态 位 在 读 出 时 就 清 成 了 0。 不 过 , 二 者 间 的 这 种 区 别 对 十 个 别 的 读 操 作 ， 即 每 次 只 从 一 -个 单元 的 读 出 并 
无 影响 。 但 是 ， 对 于 连续 的 、 成 块 的 读 出 就 有 影响 了 。 为 了 提高 成 块 读 出 的 效率 ，PCI 总 线 对 成 块 的 
读 出 加 以 流水 线 化 ， 在 应 CPU 的 要 求 读 出 单元 N 后 预先 就 把 N+1 也 读 入 流水 线 ， 这 样 当 CPU 真 的 接 
着 要 求 读 出 单元 N+1 时 就 不 用 等 待 了 ， 这 就 是 所 谓 “ 预 取 ”。 显 然 ， 顶 取 是 建立 在 对 CPU 意图 的 猜测 
上 的 ， 这 种 猜测 有 可 能 ( 道 常 ) 成 真 ， 也 有 可 能 失败 。 如 果 猜 测 失败 了 ， 预 取 的 内 容 就 丢掉 了 ， 对 于 存储 
单元 这 并 无 害处 ， 下 次 需要 时 再 读 就 是 了 。 可 是 对 寄存 器 就 不 同 了 ， 下 次 再 读 时 很 可 能 其 内 容 已 经 因 
为 预 取 而 变化 了 。 所 以 ， 一 般 而 言 ， 映 射 在 存储 器 地 址 空间 中 的 寡 存 器 是 不 可 预 取 的 。 

我 们 在 这 里 不 关心 64 位 PCI 总 线 设备 , 即 采用 64 位 地 址 的 设备 ,所 以 跳 过 对 此 的 检查 和 处 理 (575~ 
596 行 )。 

除 常规 的 6 个 存储 区 间 外 ， 设 备 上 还 可 能 提供 一 个 扩充 ROM 区 间 ， 用 于 这 个 区 间 的 长 字 与 前 面 
这 6 个 不 连 在 一 起 ， 所 以 要 放 在 for 循环 外 面 单独 处 理 。 不 过 ， 所 作 的 处 理 与 前 面 并 盛大 的 不 同 ， 我们 
把 下 面 这 段 代 码 留 给 读者 。 


[pci_init( ) > pcibios init( ) > pci scan bus () > pci_do_scan_bus( ) pci scan slot( ) 
> pci scan device( ) > pci setup device( ) > pci read bases( )] 


598 if (rom) { 

599 dev-^rom base reg = rom; 

600 res = &dev-^resource[PCl ROM RESOURCE]:; 

601 pci read config dword(dev, rom, &1); 

602 pci write config dword(dev, rom, "PCI ROM ADDRESS ENABLE); 
603 pci read config dword(dev, rom, &sz); 

604 pci write config dword(dev, rom, 1); 

605 if (1 == Oxffffffff) 

606 1-20; 
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-一 -一 -一 


607 if (sz && sz !- Oxffffffff) | 

608 res->flags = (1 & PC1 ROM ADDRESS ENABLE) | 

609 IORESOURCE MEM | IORESOURCE PREFETCH | 
IORESOURCE READONLY | IORESOURCE CACHEABLE ; 

610 res->start = 1 & PCT ROM ADDRESS  MASK; 

611 sz = pei size(sz, PCT ROM ADDRESS MASK); 

612 res—>end = res-^start + (unsigned long) sz; 

613 } 

614 res->name = dev-^name; 

615 } 

616} 


对 ROM 区 间 地 址 的 解读 与 RAM 区 间 的 有 所 不 同 ， 其 最 低 的 11 位 都 是 保留 的 ， 其 中 bito 为 
PCI ROM_ADDRESS_ENABLE， 为 1 时 表示 区 间 有 效 。 

回 到 pci, setup. device ) 的 代码 中 (864 行 )， 还 要 把 设备 的 子 系统 号 和 子 系统 厂商 号 也 读 进 来 。 

这 里 对 “PCI-PCI 桥 ? 的 处 理 (869 一 872 行 ) 就 比较 简单 了 , 许多 字段 , 如 中 断 请 求 等 等 ,对 十 "PCI-PCI 
桥 ” 都 是 无 意义 的 。 所 以 对 此 只 需要 调用 pci_read_bases( ) 就 可 以 了 。 同 时 , “PCILPCI I” Eo AR 
存储 区 间 数 量 也 少 ， 最 多 只 能 有 两 个 。 当 然 ， 实 际 上 上 对 “PCI-PCI 桥 ” 的 处 理 更 为 复杂 ， 因 为 还 得 进 … 
步 扫 描 次 层 PCI 总 线 ， 不 过 这 是 以 后 的 事 。 

至 此 ， 对 pei scan device( ) 的 调用 已 经 完成 ， 回 到 了 pei scan zio ) 中 ， 返 回 的 是 一 个 pei. dev 4 
构 指针 ， 如 果 该 指针 为 0 则 表示 PCI 总 线 上 没有 /所 指定 的 逻辑 设备 。 接 着 的 pci_name_device( ) 将 从 设 
备 中 读 入 的 厂商 编号 和 设备 编号 转换 成 字符 串 。 内 核 中 为 此 设置 了 一 个 小 小 的 数据 库 ( 转 换 表 )， 其 内 容 
见 drivers/pcijpei,ids， 这 里 略 举 其 中 数 行 让 读者 有 个 印象 : 


1469 10b7 3Com Corporation 

1470 0001 3c985 1000BaseSX 

1471 3390 Token Link Velocity 

1472 3590 3c359 TokenLink Velocity XL 


意思 是 厂商 编号 0x10b7 代表 者 3Com, 而 芳 设 备 编号 为 0x0001 则 表示 这 是 该 公司 生产 的 3c985 网 
络 卡 。 这 个 文件 中 包括 了 几乎 所 有 知名 的 厂商 和 它们 的 产品 。 

接着 , 把 pci_scan_device( ) 返 回 的 pci. dev 数据 结构 挂 入 总 的 队列 pci. devices 以 及 该 设备 所 在 总 线 
的 队列 。 前 面 讲 过 ， 这 个 队列 的 头 在 代表 着 这 个 总 线 的 pei. bus 数据 结构 中 。 

本 来 ， 从 一 个 逻辑 设备 读 出 头 部 信息 并 为 之 建立 相应 的 数据 结构 以 后 ， 对 这 个 设备 的 校 举 就 完成 
了 。 如 前 所 述 ， 这 些 信息 是 固化 在 芯片 中 的 。 可 是 ， 有 些 厂商 在 并 始 出 售 它们 的 某 些 产品 以 后 却 发 现 
固化 在 里 耐 的 信息 有 错 ， 因 而 需要 在 读 出 这 些 信息 以 后 通过 软件 于 段 加 以 修正 。 有 的 修正 需要 在 从 设 
备 读 出 头 部 信息 后 进行 ， 有 的 则 需要 在 设置 了 各 个 区 间 的 总 线 地 址 以 后 进行 。 调 厂商 ， 则 在 出 售 产 品 
时 随同 提供 -- 段 相应 的 程序 。 这 样 的 情况 不 是 - -个 两 个 ， 淹 是 有 许多 。 为 此 月 的 ，Linux 内 核 中 设计 了 
一 种 统 -的 机 制 来 进行 这 样 的 修正 。 首 先是 个 数据 结构 (类 型 )pci_fixup， 定 义 丁 include/linux/pei.h: 


660 /* 
661 * The world is not perfect and supplies us with broken PCI devices 
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662 
663 
664 
665 
666 
667 
668 
669 
670 
671 


Linux 内 核 源 代码 情景 分 析 《下 册 》 


* For at least a part of these bugs we need a work-around, so both 
* generic (drivers/pci/quirks.c) and per-architecture code can define 
* fixup hooks to be called for particular buggy devices. 


*/ 


struct pci fixup { 
int pass; 
ul6 vendor, device; /* You can use PCI ANY ID here of course */ 
void (*hook) (struct pci dev *dev) ; 


F 


这 个 数据 结构 表示 : 对 于 由 厂商 vendor 提供 的 设备 device， 需 要 在 什么 时 候 〈pass) 执行 遂 过 函 


数 指针 hook 提供 的 函数 。 内 核 中 有 两 个 pci_fixup 结构 数组 ， 提 供 了 对 已 知 广 商 和 产品 的 修正 手段 ， 
分 别 定义 于 arch/i386/kernel/pci-pc.c 和 drivers/pci/quirks.c 中 。 为 篇 幅 的 原因 ， 我 们 从 这 两 个 结构 数组 
中 删 去 了 许多 元 素 ， 只 留 下 几 个 ， 让 读者 有 个 印象 。 


927 
928 


929 


938 


939 
940 


250 
251 
252 
253 
254 
255 


284 
285 
286 


287 
288 


struct pci fixup pcibios fixups[ ] = { 
{ PCI FIXUP HEADER, PCI VENDOR ID INTEL, 
PCI DEVICE 1D INTEL. 82451NX, pci fixup i450nx }, 
{ PCI FIXUP HEADER, PCI VENDOR ID INTEL, 
PCI DEVICE ID INTEL 82454CX, pci fixup i450gx }, 


{ PCI FIXUP HEADER, PCI VENDOR ID SI, 


PCI DEVICE ID SI 5598, pci fixup latency }, 
{0} 
F; 
/* 
* The main table of quirks 
*/ 


static struct pci fixup pci fixups| | initdata = { 
{ PCI FIXUP FINAL, PCI VENDOR ID INTEL, 
PCI DEVICE ID INTEL 82441, quirk passive release ], 
( PCI FIXUP HEADER, PCT VENDOR ID AL, 
PCI DEVICE TD AL M7101, quirk_ali7101 acpi }, 
[ PCI FTXUP HEADER, PCI VENDOR ID INTEL, 
PCT DEVICE ID INTEL 82371SB 2, quirk piix3 usb }, 
{ PCI FIXUP HEADER, PCI VENDOR ID INTEL, 
PCI DEVICE 1D INTEL 82371AB 2, quirk piix3 usb }, 





10] 





例如 ，928 THA: XI T Intel 的 82451NX 芯片 (是 “宿主 一 PCI 桥 ”) 需 昌 在 读 出 了 头 部 信 ， 
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调用 pci_fixup_i450nx( ) 进 行 修正 (PCI FIXUP HEADER 存 include/linux/peih 中 定义 为 1, 
PCI_FIXUP_FINAL 则 为 2)。 具 体 的 修 下 是 由 pei. fixup. device( ) 完 成 的 ， 其 代码 在 drivers/pci/quirks.c 
中 ， 注 意 这 里 的 调用 参数 pass 为 PCL FIXUP_HEADER， 表 示 是 读 出 头 部 信息 以 后 的 修正 。 


[pci init( ) > pcibios_init( ) pci scan bus ( ) > pci_do_scan_bus( ) > pci_scan_slot( ) > pci fixup device( )] 


305 
306 
307 
308 
309 


void pci fixup device(int pass, struct pci dev *dev) 
{ 

pei do fixups(dev, pass, pcibios fixups); 

pci do fixups(dev, pass, pci fixups); 


) 


这 个 函数 对 上 述 两 个 数组 分 别 调用 pci_do_fixups( )， 其 代码 在 同一 文件 (quirks.c) 中 : 


[pei_init( ) > pcibios_init( ) > pci scan bus ( ) > pci_do_scan_bus( ) pci scan slot( ) > pci_fixup_device( ) 
»pci do fixups( )] 


290 
291 
292 
293 
294 
295 
296 
297 
298 
299 
300 
301 
302 
303 


static void pci do fixups(struct pci dev *dev, int pass, struct pci fixup *f) 
{ 
while (f->pass) { 
if (f-pass == pass && 

(f->vendor == dev->vendor || f->vendor == (ul6) PCI ANY 1D) && 

(f->device == dev device !| f->device == (ul6) PCI ANY ID)! 
#ifdef DEBUG 

printk("PCI: Calling quirk %p for %s\n”, f->hook, dev—>slot name); 
#endif 

f-^hook (dev) ; 


f+: 


) 


TER 293 行 的 条 件 , B ERREI ER pass 中 才 会 执行 。 全 于 具体 的 修正 函数 ， 我 们 就 不 看 了 。 

"| #1) pci do scan. bus( ) 的 代码 中 , 完成 了 对 pei, scan, slot( ) 的 循环 调用 后 , 对 -条 PCI 总 线 的 扫描 
与 枚 举 穆 则 上 山 经 完成 了 ,但 是 , 对 得 到 的 信息 也 可 能 需要 作 一 些 调整 和 修正 。 消 数 pcibios_fixup_bus( ) 
的 代码 在 arch/i386/kernel/pci-pc.c 中 : 


[pci init( ) > pcibios init( ) > pci scan bus ( ) > pci do. scan, bus( ) > pcibios fixup_bus( )] 


942 
943 
944 
945 
946 
947 
948 


/* 
* Called after each bus is probed, but before its children 
* are examined. 


*/ 


void __init pcibios fixup bus (struct pci bus *b) 


{ 
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949 pcibios fixup ghosts (b); 
950 pci read bridge bases (b) ; 
951 } 


为 什么 要 有 这 种 调整 和 修正 呢 ? 原来 ， 不 光 是 PCI 芯片 中 的 信息 会 有 错误 ， 有 些 系统 母 板 的 设计 
b 会 发 生 错 误 。 实 践 中 发 现 ， 丰 有些 母 板 上 会 在 两 个 不 同 的 综合 地 址 (总 是 相距 16) 中 读 出 同一 设备 的 
头 部 信息 ， 从 而 在 枚 举 的 过 程 中 造成 重复 枚 举 ， 在 所 形成 的 PCI 树 中 引入 了 “幻影 ?所 以 ， 要 通过 
pcibios fixup ghosts( ) 进 行 一 次 扫描 ， 把 “ 约 影 ”去 掉 。 这 个 函数 的 代码 在 arch/i386/kernel/pci-pc.c tP, 
我 们 在 这 里 就 不 看 了 。 

的 数 pci_read_bridge_bases( ) 的 代码 在 drivers/pci/pci.c P: 


[pei init( ) > pcibios init( ) > pci scan bus ( ) > pci_do_scan_bus( ) > pcibios fixup bus( ) 
> pci read bridge bases()] 


618 void init pci read bridge bases (struct pci bus *child) 








619 { 

620 struct pci dev *dev = child— self; 

621 u8 io base lo, io limit lo; 

622 ul6 mem base 1o, mem limit lo, io base hi, io limit hi; 

623 u32 mem base hi, mem limit hi; 

624 unsigned long base, limit; 

625 struct resource *res; 

626 int i; 

627 

628 if (Idev) /* It's a host bus, nothing to read */ 

629 return; 

630 

631 for(i-0; i<3; i++) 

632 child->resource[i] = &dev->resource[PCI BRIDGE RESOURCES+i]: 
633 

634 res = child->resource [0] ; 

635 pci read config byte(dev, PCI IO BASE, &io base lo); 

636 pci read config byte(dev, PCI IO LIMIT, &io limit, lo); 

637 pci read config word(dev, PCL IO BASE UPPERI6, &io base hi); 

638 pci read config word(dev, PCI IO LIMIT UPPERI6, &io limit hi); 
639 base = ((io base lo & PCI IO RANGE MASK) << 8) | (io base hi << 16); 
640 limit = ((io limit lo & PCT TO RANGE MASK) << 8) | (io limit hi << 16); 
641 if (base && base <= limit) ( 

642 res-^flags = (io base lo & PCI TO RANGE TYPE MASK) | IORESOURCE I0; 
643 res->start = base; 

644 res—>end = limit + Oxfff; 

645 res->name = child->name; 

646 ) else { 

647 /* 

648 * Ugh. We don't know enough about this bridge. Just assume 
649 * that it’s entirely transparent. 
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650 */ 

651 printk( "Unknown bridge resource %d: assuming transparent\n’, 0); 
652 child resource[0] = child parent-^resource[0] ; 

653 } 

654 

655 res = child-?resource[1]: 

656 pci read config word(dev, PCT MEMORY BASE, &mem base. lo) ; 

657 pci read config word(dev, PCT MEMORY LIMIT, &mem limit 1o); 

658 base = (mem base lo & PCI MEMORY RANGE MASK) << 16; 

659 limit = (mem limit lo & PCI MEMORY RANGE MASK) << 16; 

660 if (base && base <= limit) { 

661 res->flags - (mem base lo & PCI MEMORY RANGE TYPE MASK) | TORESOURCE MEM: 
662 res->start = base; 

663 res->end = limit + Oxfffff; 

664 . res» >name = child->name; 

665 } else { 

666 /* See comment above. Same thing */ 

667 printk('Unknown bridge resource %d: assuming transparent\n’, 1); 
668 child->resource[1] = child->parent->resource[1]; 

669 } 

670 

671 res = child—>resource[2]; 

672 pci read config word(dev, PCl PREF MEMORY BASE, &mem base lo); 

673 pci read config word(dev, PCI PREF MEMORY LIMIT, &mem limit lo); 
674 pci read config dword(dev, PCI PREF BASE UPPER32, &mem base hi); 
675 pci read config dword(dev, PCI PREF LIMIT UPPER32, &mem limit hi); 
616 base = (mem base lo & PCI MEMORY RANGE MASK) << 16; 

677 limit = (mem limit lo & PCT MEMORY RANGE MASK) << 16; 

678 #if BITS PER LONG == 64 

679 base |= ((long) mem base hi) << 32; 

680 limit |= ((iong) mem limit hi) << 32; 

681 #else 

682 if (mem base hi || mem limit hi) { 

683 printk(KERN ERR 


"PCI: Unable to handle 64-bit address space for *sWn^, child-^namo); 
684 return; 





685 } 

686 Rendif 

687 if (base && base <= limit) | 

688 res-^flags = (mem base lo & PCI MEMORY RANGE TYPE MASK) i 
IORESOURCE MEM | IORESOURCE PRETFRTCI; 

689 res—>start = base; 

690 res »end = limit + Oxfffff; 

691 res-»name = child->name; 

692 } eise 1 

693 /* See comments above */ 

694 printk("Unknown bridge resource %d: assuming transparent\n”, 2); 

695 child-^resource[2] = child->parent—>resource[2]; 
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696 } 
697 } 


PCI 桥 的 配置 寄存 器 组 与 一 般 PCI 设备 的 不 同 。 如 前 所 述 ， 一 般 PCI 设备 可 以 有 6 个 地 址 区 间 ， 
外 加 -个 ROM 区 间 ， 代 表 着 设备 上 实际 存在 的 存储 器 或 寄存 器 区 间 ， 而 PCI 桥 ， 则 本 身 并 不 一 定 有 
存储 器 或 寄存 器 区 间 ， 但 是 却 有 三 个 用 于 地 址 过 滤 的 区 间 。 每 个 地 址 过 滤 区 间 决 定 了 一 个 地 址 窗口 ， 
从 靠近 CPU “ 侧 发 出 的 地 址 ， 如 果 落 在 PCI 桥 的 某 个 窗口 之 内 ， 就 可 以 穿 过 PCI 桥 而 到 达 其 所 连接 的 
总 线 上 。 反 过 来 ， 从 总 线 一 侧 由 PCI 设备 发 出 的 地 址 (如 果 有 的 话 )， 则 要 在 相应 PCI 桥 的 所 有 窗口 之 
外 才能 穿 过 PCI 桥 到 达 靠 近 CPU … 侧 。 此 外 ，PCI 桥 的 命令 寄存 器 中 还 有 “memory access enable" Xi 

“I/O access enable” 岗 个 控制 位 ， 当 这 两 个 控制 位 为 0 时， 这些 窗口 就 全 都 关上 了 (两 个 方向 都 关上 )。 
在 林 完 成 对 PCI 总 线 的 初始 化 之 前 ， 还 没有 为 PCI 设备 上 的 各 个 区 间 分 配合 适 的 总 线 地 址 时 ， 正 是 因 
为 这 两 个 控制 位 为 0， 才 不 会 对 CPU 一 侧 造成 干扰 。 

显然 ， 每 个 窗口 的 大 小 和 位 置 应 该 是 总 线 上 各 个 相应 区 间 的 总 和 ， 而 总 线 上 的 各 个 区 间 则 应 该 基 
LAME ARABS. Al, 个 窗口 实际 上 也 是 一 个 区 间 ， 所 以 也 用 个 resource 数据 结构 
上 衣 示 。 不 过 ， 说 是 各 个 相应 区 间 的 总 和 ， 实 际 上 窗口 一 定 是 按 某 种 边界 对 齐 的 ， 其 人 小 可 能 会 大 于 实 
际 的 需要 (从 而 造成 少量 浪费 )。 

第 一 个 区 问 是 VO HAH A. PCI 桥 上 有 两 个 8 位 寄存 器 ， 即 PCI IO BASE 和 PCI IO LIMIT, 
用 来 确定 具体 窗口 的 起 点 和 终点 。 其 中 高 4 位 就 是 16 位 VO 地 址 中 的 最 高 4 位 , 低 4 位 则 册 定 为 0( 对 
16 位 VO 地 址 而 言 ， 见 下 )。 窗 山 的 大 小 为 4KB 的 倍数 ， 并 与 4KB 边界 对 齐 。 其 起 点 为 PCL IO. BASE 
的 高 4 位 后 面 添上 12 位 0, 终 点 则 为 PCI_IO_LIMIT 的 高 4 位 后 而 添上 12 位 1。 例 如 ,此 是 PCI IO BASE 
的 高 4 位 为 6 fi PCI IO. LIMIT 的 高 4 位 为 7, RA AH OMIA 0x6000 至 0x7fff。PCI 总 线 并 不 是 
专 为 1386 处 埋 器 设计 的 ， 有 些 处 理 器 可 能 使 用 32 位 LO 地 址 空间 。 所 以 ， 如 果 具 体 的 PCI 设备 支持 
32 位 VO Hout, WE 步 通过 PCI_IO_BASE_UPPER16 FU PCL IO_LIMIT_UPPER1I6 两 个 16 位 寄存 器 
提供 窗口 起 点 和 终点 的 高 16 位 ， 并 且 使 PCI_IO_BASE 和 PCI IO LIMIT 中 的 低 4 位 阁 定 为 1。 

第 二 个 区 间 站 存储 器 地 址 的 窗 贞 。 寄 在 器 PCI MEMORY BASE 和 PCI. MEMORY. LIMIT 的 构造 
与 作用 跟 上 述 PCI IO BASE 和 PCL IO LIMIT 相似 ， 只 不 过 是 16 位 寄存 器 ， 除 最 低 4 位 为 0 以 外 ， 
其 高 12 位 为 32 位 存储 器 地 址 中 的 最 高 12 位 。 窗 口 的 大 小 则 为 IMB 的 倍数 ， 并 与 IMB iL ROS. f] 
如 ， 要 是 PCI MEMORY BASE 的 高 12 位 为 Oxa81 而 PCI MEMORY LIMIT 的 高 12 位 也 是 0xa81， 
就 表示 窗口 的 范围 为 0xa8100000 一 0Oxaglfffff, 共 1MB .这 个 区 问 主 要 用 禧 映 射 在 存储 器 地 址 空间 的 IO 
寄存 器 。 

第 三 个 区 间 是 “可 预 取 ” 存储 器 地 址 的 窗 11。 寄 在 器 PCIPREF MEMORY BASE 和 
PCI PREF MEMORY LIMIT 的 构造 与 作用 跟 PCI MEMORY. BASE 和 PCI MEMORY LIMIT 相似 ， 
但 是 其 最 低 4 位 并 不 总 是 0， 而 是 以 0 表示 32 位 地 址 ， 以 1 表示 64 位 地 址 。 对 于 64 位 地 址 ，PCI 桥 

上 还 有 PCI. PREF. BASE, UPPER32 和 PCI_PREF_LIMIT_UPPER32 两 个 32 位 寄存 器 用 于 地 址 的 高 32 
位 。 

[PIE] pci do. scan bus( ) 的 代 砂 中， 现在 一 条 PCI 总 线 上 的 所 有 设备 都 已 经 枚 举 完毕 了 。 但 是 ,其 
中 有 些 设备 可 能 是 “PCL-PCI 桥 ”"， 对 这 些 设 备 还 得 “ 顺 芯 措 瓜 ” 进 … 步 扫描 相应 的 次 屋 PCI 总 线 。 对 
此 ， 代 码 中 分 两 赵 ( 见 996 行 ) 扫 描 当 前 PCI 总 线 的 队列 devices， 如 果 发 现 一 个 设备 的 类 型 为 “PCI-PCI 
桥 ” 或 “PCI-CardBus 桥 ”(999 行 )， 就 对 其 调用 pci scan bridge( )， 这 个 函数 的 代码 在 drivers/pci/pci.c 
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中 。 那 么 ， 为 什么 要 分 两 趟 扫描 呢 ? 这 是 因为 在 两 趟 打 描 中 针对 的 情况 是 不 同 的 ， 第 - 趟 扫描 是 针对 
已 经 由 BIOS 进行 过 处 理 的 PCI 桥 ， 第 一 趟 扫描 则 是 针对 未 经 BIOS 处 理 的 PCI BF. 





[pci_init( ) > pcibios_init( ) > pci. scan, bus ( ) > pci_do_scan_bus( ) > pci scan bridge( )] 


146 /* 

747 * If it’s a bridge, configure it and scan the bus behind it 

748 * For CardBus bridges, we don't scan behind as the devices will 
749 * be handled by the bridge driver itself 

150 * 

751 * We need to process bridges in {wo passes -- first we scan those 
752 * already configured by the BIOS and after we are done with all of 
753 * them, we proceed to assigning numbers to the remaining buses in 
154 * order to avoid overlaps between old and new bus numbers. 

155 */ 


756 static int __init pci scan bridge(struct pci bus *bus, 
struct pci dev * dev, int max, int pass) 


757 4 

758 unsigned int buses; 

759 unsigned short cr; 

760 struct pci bus *child; 

761 int is cardbus = (dev-^hdr type == PCI HEADER TYPE CARDBUS); 

762 

763 pci read config dword(dev, PCI PRIMARY BUS, &buses) ; 

764 DBG(^Scanning behind PCI bridge %s, config %06x, pass %d\n", 
dev->slot_name, buses & Oxffffff, pass); 

765 if ((buses & Oxffff00) && !pcibios assign all busses( )) { 

166 /* 

167 * Bus already configured by firmware, process it in the first 

768 * pass and just note the configuration. 

769 */ 

710 if (pass) 

771 return max; 

772 child = pci add new bus(bus, dev, 0); 

773 child->primary = buses & OxFF; 

774 child->secondary = (buses >> 8) & OxFF; 

775 child—>subordinate = (buses >> 16) & OxIF; 

776 child->number = child-^secondary; 

711 if (lis cardbus) { 

778 unsigned int cmax = pci do scan_bus (child); 

779 if (cmax > max) max = cmax; 

780 | else 1 

181 unsigned int cmax = child->subordinate; 

782 if (cmax > max) max = cmax; 

783 } 

784 } else { 

785 /* 
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786 * We need to assign a number to this bus which we always 
187 * do in the second pass. We also keep all address decoders 
788 * on the bridge disabled during scanning. FIXME: Why? 
789 */ 

790 if (!pass) 

791 return max; 

792 pci read config word(dev, PCI COMMAND, &cr): 

793 pci write config word(dev, PCI COMMAND, 0x0000) ， 

794 pci write config word(dev, PCI STATUS, Oxffff); 

795 

796 child = pci add new bus(bus, dev, ++max): 

797 buses = (buses & Oxff000000) 

798 | ((unsigned int) (child->primary) « 0) 

799 | ((unsigned int) (child->secondary) << 8) 

800 | ((unsigned int) (child->subordinate) << 16); 

801 /* 

802 * We need to blast all three values with a single write 
803 */ 

804 pci write config dword(dev, PCI PRIMARY BUS, buses); 
805 if (lis cardbus) { 

806 /* Now we can scan all subordinate buses... */ 

807 max = pci do scan bus(child); 

808 } else { 

809 /* 

810 * For CardBus bridges, we leave 4 bus numbers 

811 * as cards with a PCI-to-PCI bridge can be 

812 * inserted later. 

813 */ 

814 max += 3; 

815 } 

816 /* 

817 * Set the subordinate bus number to its real value 

818 */ 

818 child->subordinate = max; 

820 pci write config byte(dev, PCI SUBORDINATE BUS, max); 
821 pci write config word(dev, PCI COMMAND, cr); 

822 ) 

823 sprintf (child->name, 


(is cardbus ? “PCI CardBus #%02x” : "PCI Bus #%02x”), child->number) : 
824 return max; 
825} 


首先 从 PCI PACE A 77 EA PHA EARS” RAR” SEK, KH 
字 节 为 主 总 线 号 ， 在 此 之 上 的 两 个 字 节 则 依次 为 次 总 线 号 利 子 树 中 的 最 大 总 线 号 。 目 前 ， 
pcibios assign all busses( ) 是 个 空 操作 , 固定 地 定义 为 0, 所 以 只 要 两 个 较 高 字 节 不 为 全 0 就 能 满足 765 
行 的 条 件 。 这 两 个 字 节 不 为 全 0 说 明 在 此 之 前 这 条 总 线 已 经 枚 举 过 一 次 ， 所 以 已 经 分 配 了 次 总 线 号 或 
最 人 “ 子 总 线 号 ”一 般 而 言 这 发 生 于 系统 加 电 时 由 PCI BIOS 进行 的 扫描 枚 举 。 对 于 这 样 的 情况 ， 下 
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ij 772—783 行 的 代码 只 在 第 -- 趟 扫描 时 执行 。 
既然 是 发 现 了 一 条 新 的 PCI 总 线 ， 当 然 就 要 为 之 建立 一 个 pci_bus 数据 结构 。 当 然 ，BIOS EHH 
中 必定 也 建立 了 某 种 形式 的 数据 结构 ， 记 录 了 相应 的 信息 ,但 是 在 这 里 内 核 要 撤 开 BIOS， 独 立地 建立 
其 自己 的 数据 结构 。 函 数 pci_add_new_bus( ) 的 代码 在 drivers/pei/pci.c FP: 





[pci init ) > pcibios, init( ) > pci. scan bus ( ) > pci do scan, bus( ) > pci. scan. bridge( ) 
> pci add new. bus( )] 


712 static struct pci bus * _ init pci add new bus(struct pci bus *parent, 
struct pci dev *dev, int busnr) 


713 | 

714 struct pei bus *child; 

715 int i; 

716 

717 /* 

718 * Allocate a new bus, and inherit stuff from the parent.. 
719 */ 

720 child = pci alloc bus( ); 

721 

722 list add tail (&child->node, &parent->children) ; 
723 child->self = dev; 

724 dev-^subordinate = child; 

725 child->parent = parent; 

726 child->ops = parent—>ops; 

727 child->sysdata = parent—>sysdata; 

728 

729 /* 

730 * Set up the primary, secondary and subordinate 
731 * bus numbers. 

732 */ 

733 child->number = child->secondary = busnr; 

734 chiJd->primary = parent—>secondary; 

735 child-^subordinate = Oxff; 

136 

737 /* Set up default resource pointers.. */ 

738 for (i = 0; i € 4; i++) 

739 child->resource[i] = &dev—>resource[PCI_BRIDGE_RESOURCES+i] ; 
740 

741 return child; 

742 .] 


我 们 把 这 段 代码 留 给 读者 。 
回 到 上 面 pci_scan_bridge( ) 的 代码 中 ， 在 进步 设置 了 新 的 pci bus 数据 结构 以 后 ， 就 对 这 条 次 层 
PCI 总 线 调用 pci_do_scan_bus( ) 进 行 扫描 枚 举 。 EA, 这 是 对 pci, do. scan, bus ) 的 递归 调用 , 因为 CPU 
此 时 正 是 在 这 个 函数 的 下 面 专 行 。 可 见 ， 这 是 在 对 系统 的 PCI 总 线 结构 作 深 度 优 先 的 搜索 。 
再 看 当 765 行 的 条 件 不 能 满足 , 即 首次 扫描 枚 举 一 条 次 层 PCI 总 线 时 的 操作 , 那 就 是 代码 中 的 785 一 
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821 ÍT. R-RABA MHITA. MFA BIOS 处 理 的 PCI 桥 ， 第 一 越 提 描 的 日 的 只 在 于 
知道 总 线 写 已 经 用 到 了 多 大 ， 这 样 才 可 以 在 第 二 趟 扫描 中 在 此 基础 上 继续 分 配 总 线 号 ， 上 于 将 分 配 的 纺 
号 设置 进 该 “PCLPCI 桥 ” 的 配置 寄存 器 组 。 这 里 先 读 入 命令 寄存 器 的 内 容 并 保存 起 来 ， 然 后 往 命 令 寄 
存 器 写 入 全 0， 往 状态 寄存 器 写 入 全 1( :者 均 为 16 位 寄存 器 )。 接 着 通过 pei add new bus( ) 为 其 建立 
一 个 pci_bus 数据 结构 ， 注 意 这 里 调用 pei add. new. bus ) 时 的 第 三 个 参数 max 为 次 层 总 线 的 编号 ， 这 
就 是 当前 的 最 大 总 线 号 ， 并 且 先 已 加 1。 然 后 ，797 行 拼 组 起 包含 着 此 总 线 号 的 长 字 ， 并 在 804 行将 其 
写 入 配置 寄存 器 组 。 同 样 地 ， 对 于 “PCLPCI BF” 要 递归 调用 pci_do_scan_bus( )， 这 个 函数 返回 已 经 在 
该 了 树 中 使 用 的 最 大 总 线 号 , 820 行将 其 写 入 配置 寄存 器 组 中 的 PCI. SUBORDINATE BUS 字 节 。 最 后 ， 
821 行 恢复 命令 寄存 器 原来 的 内 容 。 

[IF] pcibios_init( ) 的 代码 中 (987 行 )。 对 0 号 PCI 总 线 的 (递归 的 ) 扫 描 枚 举 本 身 己 经 完成 了 ， 系 统 
己 经 部 分 地 (在 大 多 数 情况 下 实际 上 是 全 部 ) 知 道 了 自己 的 “家 底 ”， 下 面 就 可 以 统筹 地 进行 对 设备 的 设 
毅 了 。 这 种 设置 包括 两 方面 的 内 容 ， 其 一 是 设备 的 中 断 请 求 线 与 系统 中 的 中 断 控制 器 之 间 的 连接 ， 其 
二 是 说 备 上 各 个 区 间 在 总 线 上 的 地 址 映射 。 如 前 所 述 ， 这 就 是 从 前 要 通过 跷 线 或 小 开关 设置 的 内 人 内 
容 。 不 过 ， 实 际 上 很 可 能 BIOS 已 经 在 系统 加 电 自 检 的 阶段 已 经 进行 了 设置 ， 所 以 往往 只 是 加 以 确认 
NE. A 方面， 系统 中 除 0 号 总 线 之 外 还 可 能 有 其 他 主 总 线 存 在， 也 需要 加 以 扫描 ， 介 是 下 面 读者 
就 会 看 到 : 出 于 效率 的 考虑 ， 这 种 扫描 要 推迟 到 处 理 中 断 请 求 线 时 才 进 行 。 

前 面 讲 过 , 在 PCI 总 线 上 有 INTA-INTD 共 4 条 中 断 请 求 线 。 凡 是 能 产生 中 新 请 求 的 PCI 设备 , 其 
中 断 请 求 必定 连接 在 其 中 的 一 条 上 ， 此 时 其 寄存 器 PCI INTERRUPT. PIN 的 内 容 (1 一 4 表示 连接 在 哪 
一 条 线 上 。 按 PCI 总 线 规格 书 的 规定 , 凡是 单 功 能 PCI 模块 (接口 二 ) 的 中断 请 求 都 应 该 连接 在 INTA E, 
多 功能 模块 (多 个 逻辑 设备 共存 于 间 物理 模块 上 ) 才 可 以 在 使 用 INTA 之 余 再 使 用 其 他 的 中 断 请 求 线 。 
ABA IX INTA~INTD 4 条 中 断 请 求 线 又 怎样 连接 到 中 断 摔 制 器 的 中 断 请 求 输入 线 呢 ? PCI 总 线 规格 书 
对 此 并 没有 作 硬 性 的 规定 ， 给 具体 系统 的 设计 和 实现 留 上 了 变通 的 余地 。 通 常 ， 系 统 的 中 断 控 制 回 一 
共有 16 AD WMA. FED PCI 设备 的 中 断 请 求 线 ( 如 果 有 的 话 ) 就 是 要 选择 连接 到 其 中 的 “条 上 
去 。 理 想 的 情况 当然 是 每 条 中 断 请 求 输入 线 最 多 只 连接 一 个 中 断 源 ， 但 是 : 般 而 言 这 是 难以 办 到 的 ， 
实际 上 只 能 对 各 项 设备 加 以 适当 的 组 合 ， 让 兰 二 设备 共用 同一 条 中 断 请 求 输入 线 。 配 备 有 PCI 总 线 的 
PC 机 术 板 一 般 都 采用 一 种 可 编程 中 断 请 求 路 径 互 连 器 (router， 通 常 与 PCLISA 桥 集成 在 同一 芯片 中 )， 
由 软件 设置 4 条 PCI 中 断 请 求 线 与 中 断 控制 器 的 中 断 请 求 输入 线 之 间 的 互 壬 ， 图 8.4 是 种 典型 设计 
的 示意 图 。 

从 图 中 可 以 看 出 ， 在 PCI 接口 卡 上 :将 中 断 请 求 都 连接 看 INTA 上 其 实 只 有 局 限 十 具体 PCI 插 模 的 
意义 ， 只 是 使 接 门 卡 的 结构 比较 划一 而 已 。 实 际 上 ，( 这 种 ) 系 统 母 板 的 设计 月 动 将 各 种 设备 的 中 斯 请 求 
分 布 到 了 路 径 互 连 器 的 各 条 得 入 线 上 。 从 系统 软件 的 基 度 ， 我 们 关切 的 有 两 个 方面 。 一 是 选 拼 、 价 定 ， 
并 通过 路 径 互 连 器 实施 互 连 ， “二 是 要 搞 清楚 具体 插 模 中 具体 设备 的 中 斯 请 求 到 底 连 接 到 了 中 斯 控制 器 
的 哪 “ 条 输入 线 上 , 这 样 才 能 伺 定 应 该 把 设备 的 中 断 服 务 程序 “登记 ”到 哪 一 个 中 断 服务 程序 队列 中 ( 见 
第 3 章 )。 为 达到 这 个 目的 ，BIOS 通常 提供 一 个 “中 断路 径 表 ”， 为 各 条 PCI 总 线 的 各 个 揪 槽 提供 其 4 
条 中 断 请 求 线 的 去 向 ， 就 是 在 母 板 上 连接 到 了 路 径 互 连 器 的 哪 条 输入 线 上 。 至 十 路 径 互 连 器 的 输出 ， 
则 总 是 一 对 一 地 连接 到 中 断 控 制 器 上 。 

可 见 ， 对 于 PCI 总 线 中 断 机 制 的 初始 化 ， 中 断路 径 表 和 路 径 互 连 器 是 两 个 关键 。 事 实 上 
peibios_irq_init( ) 正 是 从 中 断路 径 表 升 始 的 ， 其 代码 在 arch/i386/kernel/pci-irq.c 中 。 
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Pirdl 
中 断 控制 器 
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图 8.4 PCI 总 线 上 中 断 请 求 线 的 互 连 


[pci init( ) > pcibios init( ) > pcibios irq init( )] 


516 void | init pcibios irq init (void) 


517 { 

518 DBG (“PCI: IRQ initW1) ; 

518 pirq table - pirq find routing table( ); 

520 #ifdef CONFIG PCI BIOS 

521 if (!pirq table && (pci probe & PCI BIOS IRQ SCAN)) 
522 pirq table = pcibios get irq routing table( ); 
523 #endif 

524 if (pirq table) { 

525 pirq peer trick( ); 

526 pirq find router( ); 

527 if (pirq table-^exclusive irqs) { 

528 int i; 

529 for (i-0; i416; i++) 

530 if (!(pirq table-»exclusive irqs & (1 «€ i))) 
531 pirg penalty[i] += 100; 

532 } 

533 /* If we're using the I/O APIC, avoid using the PCL 1RQ routing table */ 
534 if (io apic assign pci irqs) 

535 pirq table - NULL; 

536 ] 

537 ] 


如 上 所 述 ，PCI 总 线 的 4 RPA RRS ER TR HESS ERE ARHAR Wn RR. POR AA 
母 板 上 的 BIOS 提供 -个 PCI“ 中 断 请 求 路 径 表 ”， 其 数据 结构 定义 本 arch/i386/kernel/pci-i386.h: 
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54 struct irq routing table | 


55 u32 signature; /* PIRQ SIGNATURE should be here */ 

56 ul6 version; /* PIRQ VERSION x/ 

51 ul6 size; /* Table size in bytes */ 

58 u8 rtr bus, rtr devfn; /* Where the interrupt router lies */ 

59 ul6 exclusive irqgs; /* IRQs devoted exclusively to PCL usage */ 

60 ul6 rtr vendor, rtr device; /* Vendor and device ID of interrupt router */ 
61 u32 miniport data; /* Crap */ 

62 u8 rfu[11]; 

63 u8 checksum; /* Modulo 256 checksum must give zero */ 

64 struct irq info slots[0]; 


65 } attribute _ ((packed)) ; 


路 径 表 的 第 … 个 长 宁 … 定 是 :个 特殊 的 数值 PIRQ. SIGNATURE, 实际 上 是 4 个 特殊 的 字符 , 版 本 
号 则 必须 是 PIRQ_VERSION， 均 定义 于 arch/i386/kernel/pci-i386.h 中 。 路 径 表 的 起 点 一 定 是 与 16 字 节 
边界 对 齐 的 ， 但 并 不 固定 在 某 个 特定 的 位 置 上 ， 所 以 需 此 扫描 寻找 。 


22 Hdefine PIRQ_SIGNATURE (C$ << 0) + CP'«€ 8) + CT’ 16) + CR «< 24)) 
23 . #define PIRQ VERSION 0x0100 


这 个 irq routing. table 数据 结构 其 实 只 是 中 断 请 求 路 径 表 的 头 部 , 表 的 主体 slots 是 一 个 irq. info £i 
构 数 组 ， 这 种 数据 结构 的 定义 在 arch/i386/kernel/pci-i386.h 中 : 


44 struct irq info { 


45 u8 bus, devfn; /* Bus, device and function */ 

46 struct ( 

4T u8 link; /* IRQ line ID, chipset dependent, O=not routed */ 
48 ul6 bitmap; /* Available IRQs */ 

49 ) attribute — ((packed)) irg[4]; 

50 u8 slot; /* Slot number, O-onboard */ 

51 u8 rfu; 


52 ) attribute | ((packed)) ; 


对 于 系统 中 每 条 PCI 总 线 [的 每 个 模块 ， 路 径 表 中 都 有 个 irq_info 结构 。 结 构 中 给 出 了 其 4 条 中 
断 请 求 线 与 路 径 互 连 器 输入 线 的 连接 ， 则 时 还 有 个 位 图 ， 说 明了 可 供 选 择 的 连接 对 象 ， 即 中 断 控制 器 
的 各 条 输入 线 。 

首先 通过 pirq find routing table( ) 在 BIOS 所 在 的 区 间 扫 描 ， 以 找到 中 断 请 求 路 径 表 ， 其 代码 在 
arch/i386/kernel/pci-irq.c 中 ， 


[pci init( ) > pcibios init( ) > pcibios irq. init ( ) > pirq. find routing table( )] 


46 /* 

47 * Search Oxf0000 -- Oxfffff for the PCI IRQ Routing Table. 
48 */ 

49 
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50 static struct irq routing table * ^ init pirq find routing table (void) 


51 { 

52 u8 *addr; 

53 struct irq routing table *rt; 

54 int i; 

55 u8 sum; 

56 

57 for (addr = (u8 *) . va(0xf0000); addr < (u8 *) . va(0x100000); 
addr += 16) { 

58 rt = (struct irq routing table *) addr; 

59 if (rt->signature != PIRQ SIGNATURE || 

60 rt->version != PTRQ VERSION || 

61 rt->size % 16 || 

62 rt->size < sizeof (struct irq routing table) ) 

63 continue; 

64 sum = 0; 

65 for(i-0; i<rt->size; i++) 

66 sum += addr[i]; 

67 if (sum) | 

68 DBG (“PCI: Interrupt Routing Table found at Ox%p\n”, rt); 

69 return rt; 

70 } 

71 } 

72 return NULL; 

733] 


内 核 中 有 个 全 局 的 指针 pirq_table， 指 向 从 BIOS FREI PMR. Un RESI T X SER 
(524 行 )， 就 要 进一步 加 以 处 理 了 。 函 数 pirq peer trick( ) 的 代码 在 arch/i386/kernel/pci-irq.c 中 : 


[pci init( ) > pcibios_init( ) > pcibios_irg_init( ) > pirq. peer. trick( )] 


15 /* 

76 * If we have a IRQ routing table, use it to search for peer host 
77 * bridges. It’s a gross hack, but since there are no other known 
78 * ways how to get a list of buses, we have to go this way 

79 */ 

80 

81 static void __ init pirq peer trick(void) 

82 

83 struct irq routing table *rt - pirq table; 

84 u8 busmap[256]; 

85 int i; 

86 struct irq info *e; 

87 

88 memset(busmap, 0, sizeof (busmap)); 

89 for (i=0; 


i € (rt->size - sizeof(struct irq routing table)) / sizeof(struct irg info); i++) 
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90 e = &rt->slots[il]: 

91 #ifdef DEBUG 

92 { 

93 int j; 

94 DBG ("%02x :%02x slot=%02x”, e-^bus, e->devfn/8, e->slot); 

95 for (j=0; j44; j++) 

96 DBG(^ %d:%02x/%04x”, j, e->irą[j]. link, e-^irqLj]. bitmap) ; 

97 DBG C An^) ; 

98 } 

99 #endif 

100 busmap[e->bus] = 1; 

101 } 

102 for(i-1; i<256; i++) 

103 /* 

104 * It might be a secondary bus, but in this case its parent is already 

105 * known (ascending bus order) and therefore pci scan bus returns 
immediately. 

106 */ 

107 if (busmap[i] && pci scan bus (i, pci root bus-^ops, NULL)) 

108 printk (CPCl: Discovered primary peer bus %02x [IRQ]\n”, i); 

109 pcibios last bus = -1: 

110 ] 


代码 中 先 道 过 89 行 的 for 循环 对 中 断 请 来 路 径 表 中 各 个 表 项 所 涉及 的 总 线 作 WA, RAR 
以 后 ， 凡 是 与 数组 busmap[ ]( 以 总 线 号 为 下 标 ) 中 为 1 的 表 项 相对 应 的 总 线 都 是 在 路 径 表 中 有 表 项 的 。 
一 般 而 言 ， 这 些 总 线 应 该 都 已 经 侍 前 一 阶段 中 完成 了 扫描 榴 举 ， 但 是 从 pcibios_init( ) 中 通过 
pei_scan_bus( ) 扫 描 的 是 从 0 号 总 线 开始 的 … 棵 例 ， 如 果 系 统 中 除 此 之 外 还 有 其 他 的 PCI 主 总 线 ， 则 尚 
未 受到 扫描 ,现在 , 既然 有 了 AAA PCI 总 线 的 清单 , 就 可 以 在 其 指引 上 有 有 只 标 地 通过 pci, scan. bus( ) 
Hii AS RANT GS fts PCI 总 线 实际 小 不 起 作用 ， 并 返回 0( 读 者 最 好 到 有 关 的 代码 中 验证 一 
下 ); 而 车 返 癌 非 0， 则 说 明 扫 描 到 了 一 条 未 经 扫描 的 PCI 总 线 (更 确切 地 说 是 一 棵 树 )， 而 这 必定 是 一 
条 主 总 线 。 最 后 ， 代 码 中 把 一 个 全 局 量 pcibios last bus 设 成 一 1， 表 示 系 统 中 所 有 的 土 总 线 都 已 打 描 ， 
以 后 就 不 用 再 为 此 操心 了 。 
回 到 pcibios_irq_init ) 的 代码 中 ， 补 上 了 可 能 的 遗漏 以 后 ， 接 着 就 要 来 处 理 路 径 互 连 器 了 。 中 断路 
径 互 连 器 通常 与 PCI-ISA 桥 集 成 在 同一 芯片 中 ， 并 且 也 作为 PCI 设备 连接 在 PCI 总 线 上 。 路 径 表 头 部 
的 rtr bus 和 rtr_devfn 两 个 字段 指明 了 该 设备 所 在 的 位 置 , rtr_vendor, 利 rtr. device 两 个 字段 则 为 芯片 的 
提供 者 及 其 产品 编号 。 函 数 pirq_find_router( ) 的 作用 就 是 找到 这 个 设备 的 pei dev 数据 结构 ， 并 根据 其 
提供 者 及 产品 编号 找到 相应 的 驱动 水 数 ， 其 代码 也 人 在 arch/i386/kernel/pci-irq.c 路: 
[pci init( ) > pcibios init( ) > peibios irq init( ) > pirg_find_router( )] 
347 static struct irq router *pirq router; 
348 static struct pci dev *pirq router dev; 


349 
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static void | init pirq find router (void) 

{ 
struct irq routing table *rt = pirq table; 
struct irq router *r; 


#ifdef CONFIG_PCI_BIOS 
Hendif 
/* fall back to default router if nothing else found */ 


pirq router = pirq routers + 
sizeof(pirq routers) / sizeof(pirq routers[0]) - 1; 


pirq router dev = pci find slot(rt- rtr bus, rt—rtr devfn); 
if (!pirq router dev) { 
DBG (“PCI: Tnterrupt router not found at %02x:%02x\n’, 
rt-»rtr bus, ri—>rtir_devfn) ; 
return; 


} 


for(r=pirq routers; r->vendor; r++) { 
/* Exact match against router table entry? Use it! */ 


if (r>vendor == rt->rtr vendor && r-^»device == rt->rtr_device) | 
pirq router = r; 
break; 


} 
/* Match against router device entry? Use it as a fallback */ 
if (rOwendor == pirq router _dev—>vendor && 
r-»device == pirq router dev-»device) { 
pirqg router = r; 
} 
} 
printk("PCI: Using IRQ router %s [%04x/%04x] at %s\n”", 
pirq_router->name, 
pirq router dev->vendor, 
pirq router dev-^device, 
pirq router dev-5slot name); 


} 
中 断路 径 互 连 器 由 一 个 irq_router 数据 结构 代表 ， 定 义 寺 arch/i386/kernel/pci-irq.c: 


struct irq router | 
char *name; 
ul6 vendor, device; 
int (*get) (struct pci dev *router, struct pci dev *dev, int pirqg); 
int (set) (struct pci dev *router, struct pci dev *dev, int pirg, int new); 
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结构 中 的 函数 指针 get 和 set 用 于 读 出 和 改变 芯片 中 的 此 连 ， 不 同 的 芯片 可 能 有 不 同 的 get 和 set 
eX. PC 机 中 可 能 采用 的 此 类 芯片 有 好 几 种 ，arch/i386/kernel/pci-irq.c 中 定义 了 一 个 irq_router 结构 数 
组 pirq_routers[ ]， 里 面包 括 了 各 种 常用 的 芯片 。 为 减 小 篇 幅 ， 我 们 从 中 删 去 了 一 部 分 。 


323 = static struct irq router pirq routers[ ] = { 


324 { "PIIX^, PCI VENDOR ID INTEL, PCI DEVICE ID TNTEL, 82371FB 0, 
pirq piix get, pirg piix set }, 
325 { “PIIX”, PCI VENDOR ID INTEL, PCT DEVICE ID INTEL 82371SB 0, 


pirq piix get, pirq piix set }, 


$9 09 s 9 n 


330 { "ALI", PCI VENDOR ID AL, PCT DEVICE ID AL M1533, 
pirq ali get, pirg ali set ], 
331 { “VIA”, PCT VENDOR ID VIA, PCI DEVICE 1D VIA 82C586 0, 


pirq via get, pirq via set }, 


336 { “OPTI”, PCI VENDOR ID OPTI, PCI DEVICE ID OPTT 82C700, 
pirq opLi get, pirq opti set ], 
337 { “NatSemi”, PCI VENDOR ID CYRIX, PCT DEVTCE ID CYRIX 5520, 


pirq cyrix get, pirq cyrix set ], 


344 { “default”, 0, 0, NULL, NULL } 
345 js 


内 核 中 有 个 全 局 的 指针 pirq_router， 有 几 来 措 问 中 斯 路 径 互 连 器 的 irq router 数据 结构 。 先 通过 

pci_find_slot( ) 找 到 其 pci dev 数据 结构 。 如 果 找 不 到 就 让 指针 pirq_router 指向 pirq_routers[ ] 中 的 最 后 

-项 “default”， 即 不 存在 get 和 set 鸯 个 函数 。 合 则 就 在 pirq_routers[ ] 中 找到 所 用 的 中 断路 径 互 连 器 芯 
片 ， 并 使 pirq_router 指向 相应 的 irq_router 数据 结构 。 

此 外 ， 路 径 表 中 还 有 个 位 图 exclusive_irqs， 位 图 中 为 1 的 位 表示 中 断 控制 器 的 相应 输入 应 该 应 该 
专用 , 而 避免 为 多 个 中 断 源 所 共用 。 所 以 ,对 才 这 些 中 断 请 求 输入 线 , 代码 中 在 一 个 数组 pirq_penalty[ ] 
的 相应 元 素 上 增加 了 -一 个 “和 到 前 量 ”100， 使 得 在 选择 中 断路 径 互 连 时 不 太 会 选择 这 些 作 为 对 象 。 

还 要 注意 ， 中 断路 径 互 连 器 仪 在 采用 常规 的 8259A 中 断 控制 器 时 才 使 用 ， 所 以 若 系统 采用 “高 级 
可 编程 中 断 控制 器 ”APIC 就 在 前 面 的 535 行 把 全 局 指针 pirq_table 设 成 0， 因为 APIC 本 来 就 是 “可 纺 
程 ” 的 。 

那么 ， 要 是 在 BIOS 中 找 不 到 中 断 请 求 路 径 表 或 者 找 林 到 路 径 互 连 器 怎么 办 昵 ? 那 就 只 要 采用 默 
认 的 连接 ， 不 需要 设置 。 

前 面 ， 在 pirq_peer_trick( ) 中 ， 根 据 中 断路 径 表 的 指引 对 系统 中 除 0 号 总 线 以 外 的 主 总 线 进 行 了 有 
目标 的 补充 扫描 。 但 是 ， 如 果 根 本 就 没有 路 答 表 昵 ? 那 就 只 好 进行 穷 举 式 的 所 描 了 。 当 然 ， 穷 举 扫描 
的 效率 比 有 上 且 标 的 扫描 要 低 ， 这 就 是 为 什么 把 对 其 他 主 总 线 的 扫描 推迟 到 找到 了 (或 找 不 到 ) 中 断路 径 
表 以 后 的 原因 。 当 然 ， 其 代价 是 使 代码 更 难 懂 了 。 

函数 pcibios fixup peer bridges( ) 对 除 0 号 总 线 以 外 的 主 总 线 进 行 穷 举 扫描 。 但 是 如 果 忆 经 在 路 径 
表 的 指引 下 进行 了 扫描 ， 则 全 局 量 pcibios_last_bus 为 负 ( 见 前 面 pirq_peer_trick( ) 的 代码 )， 因 而 立即 就 
返回 。 这 个 也 数 的 代 伺 在 arch/i386/kernel/pci-pe.c P: 
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[pci init( ) > pcibios init( ) > pcibios_fixup_peer_bridges( )] 


776 /* 

777 * Discover remaining PCI buses in case there are peer host bridges 
778 * We use the number of last PCI bus provided by the PCI BIOS. 

779 */ 

780 static void _ init pcibios fixup peer bridges (void) 


781 
782 int n; 
783 struct pci bus bus; 
784 struct pci dev dev; 
785 ul6 1; 
786 
787 if (pcibios last bus <= 0 || peibios last bus >= Oxff) 
788 return; 
789 DBG (“PCI: Peer bridge fixup\n”) ; 
190 for (n-0; n <= pcibios last bus; n++) { 
791 if (pci bus exists(&pci root buses, n)) 
792 continue; 
193 bus. number = n; 
794 bus. ops = pci_root_ops; 
795 dev. bus = &bus; 
796 for (dev. devfn=0; dev. devfn<256; dev. devfn += 8) 
797 if (!pei read config word(&dev, PCI VENDOR ID, &1) && 
798 1 !- Ox0000 && 1 !- Oxffff) { 
799 DBG('Found device at %02x:%02x [%04x]\n”, n, dev.devfn, 1); 
800 printk( PCI: Discovered peer bus %02x\n", n); 
801 pci scan bus(n, pci root ops, NULL); 
802 break; 
803 } 
804 } 
805 } 
我 们 把 这 个 函数 贸 给 读者 。 


回 到 pcibios_init( ) 的 代码 中 , 我 们 继续 阅读 有 关中 断 请 求 路 径 互 连 的 代码 , 函数 pcibios_fixup_irqs( ) . 
的 代码 在 arch/i386/kernel/pci-irq.c 中 ， 我 们 抽 去 了 采用 APIC 时 的 条 件 编译 部 分 。 


fpci_init( ) > pcibios_init( ) > pcibios fixup 'irqs( )] 


539 void | init pcibios fixup irqs (void) 


540 {f 

541 struct pci dev *dev; 

542 u8 pin; 

543 

544 DBG (“PCI: IRQ fixup\n”); 
545 pci for each dev(dev) { 
546 /* 
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547 * If the BIOS has set an out of range IRQ number, just ignore it. 
548 * Also keep track of which IRQ's are already in use. 
549 */ 
550 if (dev irq >= 16) { 
551 DBG( %s: ignoring bogus IRQ *din", dev-»slot name, dev-»irq); 
552 dev->irg = 0; 
553 } 
554 /* If the JRQ is already assigned to a PCI device, 
ignore its ISA use penalty */ 
555 if (pirq_penalty[dev->irq] >= 100 && pirq penalty[dev-^irq] < 100000) 
556 pirq_penalty[dev—-irq] = 0; 
557 pirq penaltyl[dev>irg]+t: 
558 } 
559 
560 pci for each dev(dev) { 
561 pci read config byte(dev, PCI INTERRUPT PIN, &pin); 


562 #ifdef CONFIG X86 IO APIC 


595 Sendif 

596 /* 

597 * Still no IRQ? Try to lookup one.. 
598 */ 

599 if (pin && !dev-^irq) 

600 pcibios lookup ira(dev, 0); 

601 } 

602 } 


这 里 的 pei. for each dev( ) 是 个 宏 定义 ， 是 个 对 全 局 pci_dev 数据 结构 队列 pci, devices 的 循环 ， 定 
X T include/linux/pci.h: 


305 . &define pci for each dev (dev) \ 

306 for(dev = pci dev g(pci devices. next): \ 
dev != pci dev g(&pci devices); \ 
dev = pci dev g(dev-^global list. next)) 


WITIR, FES WG TPR PR PSE ae Ur fonti BR DU ACA nh AE D, pA 
器 的 16 条 输入 线 并 不 是 可 以 随意 选用 的 ， 例 如 0 号 中 断 请 求 线 就 应 该 由 时 钟 中 断 专 用 。 另 一 方面 ,还 
要 尽 可 能 把 各 项 PCI 设备 均匀 地 分 布 到 不 同 的 中 断 请 求 线 上 。 为 此 ， 内 核 中 设立 了 个 (整数 ) 数 组 
pirq_penalty[ ]， 与 一 个 简单 的 算法 结合 在 一 起 ， 就 可 以 确定 中 斯 请 求 输入 线 的 选择 ， 这 个 数组 定义 于 
arch/i386/kernel/pci-irq.c FP: 


2T /* 

28 * Never use: 0, 1, 2 (timer, keyboard, and cascade) 

29 * Avoid using: 13, 14 and 15 (TP error and IDE). 

30 * Penalize: 3, 4, 6, 7, 12 (known ISA uses: serial, floppy, parallel and mouse) 
3l */ 
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32 unsigned int pcibios irq mask = Oxfff8; 


33 

34 static int pirq penalty[l6] = { 

35 1000000, 1000000, 1000000, 1000, 1000, 0, 1000, 1000, 
36 0, 0, 0, 0, 1000, 100000, 100000, 100000 

37 o 


数组 的 大 小 为 16, 对 应 着 16 条 中 断 请 求 输入 线 。 每 个 元 素 代 表 着 内 选用 相应 中 断 请 求 输入 线 而 受 
到 的 “惩罚 ”(penalty)， 所 以 选择 时 总 是 要 选用 受 悉 罚 最 小 的 。 中 断 请 求 输入 线 0、1、2、13、14、 和 
15 的 惩罚 一 开始 就 起 1000000, 所 以 实际 上 永远 不 会 选用 这 几 条 输入 线 。 一 开始 时 , 中 断 请 求 输入 线 5、 
8、9、10、 和 11 的 惩罚 为 0， 所 以 开始 时 总 是 在 这 几 条 线 中 选择 。 对 于 同一 条 中 断 请 求 输入 线 ， 选 用 
它 的 设备 愈 多 ， 则 再 次 选用 它 时 受到 的 “惩罚 ”就 您 大 。 所 以 ， 只 要 设备 的 数量 不 是 太 大 ， 则 中 断 请 
RAAR 3. 4. 6. 7 和 12 也 实际 上 个 会 被 选用 。 而 负荷 的 均 句 分布， 则 在 选择 的 过 程 中 自然 得 到 了 
保证 。 

代码 中 通过 一 个 for 循环 (545 行 ) 扫 描 系 统 中 所 有 的 PCL 设备 ， 对 使 用 中 断 控 制 器 各 条 输入 线 的 设 
备 计数 (S57 行 )， 从 而 在 pirq. penalty[ ] 中 累积 起 选用 各 条 中 断 请 求 输入 线 的 惩罚 量 。 中 断 控 制 句 的 有 些 
输入 线 最 好 能 保留 给 ISA 总 线 上 的 设备 专用 ， 路 径 表 中 通过 一 个 位 图 指明 了 这 些 答 入 线 。 为 此 ， 前 面 
peibios_irq_init( ) 中 在 pirq, penalty[ ] 的 相应 元 素 上 增加 了 一 个 惩 苦 量 100。 吕 是 ， 那 只 是 为 了 让 PCI 设 
备 洲 免 使 用 这 些 输 入 线 ， 如 果 发 现 其 个 PCI 设备 已 经 在 使 用 这 样 的 输入 线 ， 那 就 又 另 当 别论 了 。 既 然 
LZA PCO 设备 在 用 ， 戒 规 已 经 打破 ， 履 就 木 妨 让 判 的 PCI 设备 也 来 使 用 ， 所 以 这 里 (556 行 ) 干 脆 把 惩 
罚 量 设 成 0， 重新 计数 。 

然后 ， 又 通过 for 循环 再 米 一 次 对 所 有 PCI 设备 的 扫描 (560 行 )。 如 果 从 宕 人 在 器 
PCI INTERRUPT PIN 读 入 的 内 容 非 0， 就 表示 该 设备 有 中 断 功 能 。 此 时 如 果 dev->irq 为 0， 即 尚 不 知 
道 与 中 断 控 制 嚣 的 哪 :条 中 断 请 求 输入 线 相 连 ， 就 要 通过 pcibios_lookup_irq( ) 寻 找 。 寻 找 什么 呢 ? fl 
前 所 述 ， 如 果 知 道 一 个 设备 的 中 断 请 求 连 到 了 路 径 互 连 器 的 哪 : -条 输入 线 ， 并 且 发 现 这 条 线 已 经 在 路 
径 互 连 器 中 连接 到 了 路 断 控 制 占 ， 也 就 知道 了 或 者 说 发 现 了 该 设备 的 中 断 请 求 的 最 终 去 向 。 但 是 ， 如 
果 在 路 径 贞 连 器 中 尚未 连接 昵 ?” 此 时 是 否 烛 在 中 断 控制 占 的 输入 线 中 作出 选择 并 完成 连接 呢 ? 这 是 由 
第 一 个 调用 参数 决定 的 。 这 里 (600 行 )， 把 参数 设 成 0， 表 示 如 果 疝 未 连接 就 留 着 再 说 。 这 个 孙 数 的 代 
HE arch/i386/kernel/pci-irq.c 中 ， 这 个 函数 比较 长 ， 我 们 分 段 阅读 。 


[pci init( ) > pcibios init( ) > pcibios fixup irqs( ) > pcibios lookup irq( )] 


405 static int pcibios lookup irq(struct pci dev *dev, int assign) 
406 { 


407 u8 pin; 

408 struct irq info *info; 

408 int i, pirq, newirq; 

410 int irq = 0; 

All u32 mask; 

412 struct irg router *r = pirq router; 
413 struct pci dev *dev2; 

414 char *msg - NULL; 
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415 

416 if (lpirqg table) 

417 return 0; 

418 

419 /* Find IRQ routing entry */ 

420 pci read config byte(dev, PCI INTERRUPT PIN, &pin); 

421 if (Ipin) { 

422 DBG(^ -> no interrupt pin\n’); 

423 return 0; 

424 } 

425 pin = pin - 1; 

426 

427 DBG ("IRQ for %s:%d”, dev->slot name, pin): 

428 info = pirq get info(dev); 

429 if (linfo) { 

430 DBG(^ -> not found in routing table\n’); 

431 return 0; 

432 ] 

433 pirq = info-^irg[pin]. link; 

434 mask = info->irq[(pin]. bitmap; 

435 if (!pirq) ( 

436 DBG(” -> not routed\n”); 

437 return 0; 

438 } 

439 DBG(” -> PIRQ %02x, mask %04x, excl %04x”, 
pirq, mask, pirq_table->exclusive irqs); 

440 mask &= pcibios irq mask; 

44] 

442 /* 

443 * Find the best IRQ to assign: use the one 

444 * reported by the device if possible. 

445 */ 

446 newirq = dev-^irq; 

447 if (!newirq && assign) { 

448 for (i = 0; i «16; i++) { 

449 if (!(mask & (1 << i))) 

450 continue; 

451 if (pirq penalty[i] € pirq penalty[newirq] && 

452 !request irq(i, pcibios test irq handler, SA SHIRQ, ^pci-test/, dev)) { 

453 free irq(i, dev); 

454 newirg = i; 

455 } 

456 } 

457 } 

458 DBG(^ -> newirg=%d”, newirg); 

459 


先 从 设备 的 配置 寄存 器 组 读 入 寄存 器 PCIL_ INTERRUPT_PIN， 以 得 知 其 中 断 请 求 连 在 PCI 总 线 的 
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哪 一 条 中 断 请 求 线 上 。 这 个 数值 是 从 1 开始 的 ， 所 以 要 把 它 调整 成 从 0 开始 (425 17). 然后， 通过 
pirg get info( ) 从 BIOS 提供 的 中 断路 径 表 中 找到 所 在 总 线 和 插 槽 的 路 径 信息 ， 这 个 函数 的 代码 在 


arch/i386/kernel/pci-irq.c H: 
[pci_init( ) > pcibios init( ) > pcibios. fixup. irqs( ) > pcibios lookup irq( ) > pirq. get info( )] 


389 static struct irq info *pirq get info (struct pci dev *dev) 


390 (1 
391 struct irq routing table *rt = pirq table; 
392 int entries = (rt size ~ 

sizeof(struct irq routing table)) / sizeof(struct irq info); 
393 struct irq info *info; 
394 
395 for (info = rt slots; entries--; info++) 
396 if (info bus == dev—->bus->numher && 

PCI SLOT (info->devfn) == PCI SLOT (dev ->devfn) ) 

397 return info; 
398 return NULL; 
39  ] 


如 果 根 据 总 线 号 和 插 槽 号 找到 了 相应 的 irq_info 数据 结构 ， 那 么 这 个 结构 中 的 数组 irq[ ] 记 录 着 这 
个 特定 插 横 的 4 条 中 断 请 求 线 跟 中 断路 径 孔 连 器 的 连接 。 对 于 每 条 中 断 请 求 线 ， 数 据 结构 中 提供 了 遇 
个 字段 。 其 中 link 的 主体 是 路 径 互 连 器 的 输入 线 号 ，bitmap 则 是 一 个 位 图 ， 表 示 哪 一 些 中 斯 控制 器 的 
答 入 是 可 以 选择 作为 日 标的 。 在 bitmap 的 基础 |:， 内 核 中 还 有 个 全 局 的 屏蔽 位 图 pcibios_irq_mask， 定 
义 为 0xfff8， 表 示 中 断 请 求 号 0 1, 2 是 不 能 选用 的 (440 行 )。 

我 们 继续 往 下 看 pcibios_lookup_irq( ) I) f&&(arch/i386/kernel/pci-irq.c) . 


[pci_init( ) > pcibios_init( ) > pcibios fixup irqs( ) > pcibios_lookup_irq( )] 


460 /* Check if it is hardcoded */ 

461 if ((pirq & Oxf0) == OxfO) | 

462 irq = pirq & Oxf; 

463 DBG(” -> hardcoded IRQ %d\n”, irq); 

464 msg = "Hardcoded"; 

465 if (dev irq && dev->irq != irq) { 

466 printk(^IRQ routing conflict in pirq table! Try 'pci-autoirq' W^) ; 
467 return 0; 

468 i 

469 ) else if (r->get && (irq = rget(pirq router dev, dev, pir?) | 

470 DBG(” -> got TRQ %d\n”, irq); 

471 msg = “Found”; 

472 /* We refuse to override the dev >irq information. Give a warning! */ 
473 if (dev->irq && dev->irq != irq) | 

474 printk(^IRQ routing conflict in pirq table! Try 'pci-autoirq m^) ; 
475 return 0; 

476 } 
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477 } else if (newirq && r-»set && 
(dev->class >> 8) != PCI CLASS DISPLAY VGA) { 
478 DBG(^ -> assigning IRQ %d”, newirg); 
479 if (rÓset(pirq router dev, dev, pirq, newirq)) { 
480 eisa set level irq(newirg); 
481 DBG(” ... OK\n”); 
482 msg = “Assigned”: 
483 irq = newirg; 
484 } 
485 } 
486 
487 if (tirg) { 
488 DBG(” ... failed\n”): 
489 if (newirq && mask == (1 << newirg)) { 
490 msg = "Guessed"; 
AQ] irq = newirq; 
492 } else 
493 return 0; 
494 } 
495 printk(^PCI: %s IRQ %d for device %s\n", msg, ira, dev—>slot_name) ; 
496 


CECE PIE, FE link 的 高 4 位 为 1 时 表示 路 径 互 连 器 内 部 的 连接 是 “ 硬 连 接 ” 此 
时 其 低 4 位 就 是 中 断 控 制 器 的 输入 线 号 ， 否 则 使 表示 路 径 互 连 器 内 部 的 连接 可 以 通过 get 和 set WAR 
数 指针 读 出 或 设置 。 所 以 ， 对 于 一 般 的 路 径 互 连 器 ， 只 要 其 函数 指针 get dE 0， 就 可 以 通过 它 读 出 连接 
的 目标 。 如 果 这 个 函数 的 返回 值 (irq) 非 0， 那 就 是 所 连接 的 日 标 ， 否 则 说 明 尚 未 连接 。 尚 未 连接 又 怎么 
办 呢 ? MAHI. RAR, BAILA SAAR BARR. 

如果 已 经 连接 。 则 我 们 已 经 搞 清楚 了 目标 设备 中 断 请 求 的 最 终 去 向 ， 把 这 个 信息 记录 在 dev->ing 
中 就 可 以 了 。 但 是 ， 系 统 中 可 能 有 很 多 PCI 设备 都 连 在 同一 条 中 断 请 求 线 上 ， 因 而 有 着 相同 的 去 向 ， 
应 该 ;这些 设备 分 享 这 个 信息 。 我 们 继续 往 下 看 pcibios_lookup_irq( ) e arch/i386/kernel/pci-irq.c). 


[pci init( ) > peibios_init( ) > pcibios_fixup_irqs( ) > pcibios lookup. irq( )] 


497 /* Update IRQ for all devices with the same pirq value */ 
498 pci for each dev(dev2) { 

499 Pci read config byte(dev2, PCI INTERRUPT PIN, &pin); 
500 if (!pin) 

501 continue; 

502 pin--; 

503 info - pirq get info(dev2); 

504 if (!info) 

505 continue; 

506 if (info irq[pin]. link == pirq) ( 

307 dev2-^irq = irq; 

508 pirq penaliy[irq]-**; 

509 if (dev != dev2) 
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510 printk (“PCI: The same IRQ used for device %s\n”, 
dev2-^slot name); 


511 } 
512 } 
513 return 1; 
514} 
这 段 代码 就 很 简单 了 。 


AT PERMA, F REAR PCI 设备 中 的 各 个 地 址 区 间 分 配 总 线 地 址 ， 并 设置 好 
各 个 PCI 设备 对 这 些 区 间 ( 到 总 线 地 址 ) 的 映射 了 。 我 们 在 前 面 已 经 看 到 ， 每 个 PCI 设备 才 通 过 配置 寄 
存 器 组 提供 其 各 个 区 间 的 起 始 地 址 利 区 间 大 小 ， 但 那 可 能 只 是 在 设备 内 部 的 地 址 ， 或 者 是 由 BIOS 分 
配 的 总 线 地 址 。 所 以 ， 对 于 前 者 需要 在 一 个 统一 的 总 线 地 址 空间 为 这 些 区 间 分 配 地 址 并 建立 映射 ， 对 
于 后 者 则 要 加 以 验证 和 确认 ， 并 为 之 建立 起 相应 的 数据 结构 。 对 于 CPU 来 说 ， 总 线 地 此 相当 于 物理 地 
址 ， 以 后 在 此 基础 上 还 要 再 加 上 一 层 映射 ， 将 虚拟 地 址 映射 到 总 线 地 址 。 在 分 配 的 过 程 中 ， 只 要 点 来 
己 经 分 配 的 地 址 可 用 ， 就 尽量 维持 原状 ， 对 这 些 地 址 只 是 验 让 一 下 ， 并 为 之 建立 起 相应 的 数据 结构 。 
那么 ， 什 么 样 的 地 址 才 是 不 可 用 的 从 而 需要 另行 分 配 的 呢 ? 后 而 读者 将 会 看 到 详情 ， 这 里 先 简单 说 
下 。 首先 ， 在 系统 初始 化 以 后 ， 已 经 把 物理 地 址 空间 低 端 的 -大 块 分 配给 了 内 核 本 身 ， 这 些 地 址 当然 
不 能 再 用 十 PCI 总 线 ， 而 设备 内 部 的 地 址 都 在 低 端 ， 因 此 需要 为 之 男 行 分 配 地 址 。 其 次 ，PCI 设备 的 
各 个 区 间 不 允许 互相 冲突 ， 如 果 发 生 冲 突 也 要 作出 调整 。 对 于 UO 地 址 也 是 一 样 。 

对 于 存储 器 和 VO 两 种 地 址 资源 的 管理 ， 内 核 中 有 一 套 地 址 资源 管理 机 制 。 每 一 个 邮 辑 意义 上 独 
立 的 连续 地 址 区 间 都 以 一 个 resource 数据 结构 代表 ， 定 义 于 include/linux/ioport.h: 


ll — /* 

12 * Resources are tree-like, allowing 

13 * nesting etc.. 

14 */ 

15 struct resource { 

16 const char *name; 

17 unsigned long start, end; 

18 unsigned long flags; 

19 struct resource *parent, *sibling, *child; 
20." }; 


结构 中 的 start 和 end 表示 该 区 间 的 地 址 范围 ,flags 是 表示 区 问 性 质 的 一 些 标志 位 。 指 针 child. sibling 
和 parent 则 用 来 维系 可 以 上 下 两 个 方向 攀援 的 树 形 结构 。 每 个 区 间 ( 的 resource 结构 ) 孝 通过 指针 child 
RAR ATE, 而 同 一 区 间 的 所 有 子 区 间 则 通过 指针 sibling 形成 一 个 单 链 ， 并 都 通过 指针 parent 
指向 其 父 区 间 。 例 如 ， 假 定 有 一 块 2KB 的 地 址 空间 0x1000 一 0x17ff， 这 区 间 已 经 分 配给 某 项 特定 的 用 
途 ， 假 定 是 在 一 块 4 口 串 行 接口 卡 上 用 作 接 收 缓冲 区 ， 所 以 已 经 有 了 一 个 resource 数据 结构 。 然 后 ， 
对 于 此 项 特定 的 用 途 ， 又 把 其 中 0x1000~0x11ff, 0x1200~0x13ff 和 0x1400--0x15ff 三 个 512 学 节 的 
子 区 间 进 一 步 分 配给 了 这 块 卡 上 的 三 个 串 行 口 ， 但 是 还 剩 下 最 后 512 守节 疝 林 分 配 出 去 ， 才 么 在 2KB 
的 resource BEAR FRAT 3 个 resource 数据 结构 的 队列 ， 如 图 8.5 ras. Wie, SRA 4S 
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TELA ACARI, JETE 2KB 的 resource 数据 结构 中 找到 该 区 间 的 顶端 为 0x17ff， 而 在 其 子 区 间 队 
列 中 则 找到 已 经 分 配 的 最 高 地 址 为 0x15ff， 并 月 在 此 之 前 并 无 合适 的 空洞 可 供 分 配 ， 所 。 正好 可 以 把 
最 后 512 字 节 分 配 出 去 ， 并 且 在 其 子 区 间 队 列 中 青 挂 上 一 个 0x 1600~0x17fF l resource 数据 结构 。 






0x1000--0x17ff 


图 8.5 地 址 空间 分 配 示意 图 





0x1400~0x15ff 


最 初时 ， 系 统 中 只 有 两 个 区 间 ， 一 个 代表 着 UO 地 址 空间 ， 另 一 个 代表 着 内 存 地 址 。 前 面 讲 过 ， 
对 于 IO 地 址 空间 只 能 通过 VO 指令 访问 , 而 对 内 存 地 址 空间 则 只 能 通过 访 内 指令 访问 。 这 两 个 区 间 的 


resource 结构 定义 于 kernel/resource.c: 


18 struct resource ioport resource = { "PCI 10”, 0x0000, 
IO SPACE LTMIT, IORESOURCE IO }; 
19 struct resource iomem resource = { “PCT mem’, 0x00000000, 
Oxffffffff, LORESOURCE_MEM }: 


我 们 在 前 面 也 已 看 到 ， 在 为 主 PCI RAW pci bus 结构 时 ， 它 的 两 个 区 间 指 针 一 个 指向 
ioport_resource， 表 示 如 果 需 要 VO 地 址 区 间 就 从 ioport_resource 中 分 配 ， 另 … 个 指向 iomem_resource， 
表示 如 果 需 要 内 存 地 址 区 间 就 从 iomem_resource 中 分 配 。 不 过， 系统 在 初始 化 阶段 已 经 从 这 两 个 空间 
中 分 配 了 许多 资源 ， 所 以 已 经 不 再 是 像 它 们 的 初 值 所 表示 的 整个 VO 地 址 空间 或 整个 内 存 地 址 空间 了 。 

对 总 线 地 址 的 确认 与 分 配 是 由 pcibios resource survey( ) 完 成 的 ， 其 代码 在 
arch/i386/kernel/pci-i386.c F: 


[pci init( ) > pcibios init( ) > pcibios resource survey ( )] 


297 void | init pcibios resource survey (void) 


2908 — | 

299 DBG (“PCI: Allocating resources\n’) ; 

300 pceibios_allocate_bus_resources (&pci_root_buses) ; 
301 peibios_allocate_resources (0) ; 

302 pcibios allocate resources(]l); 

303 pcibios assign resources( ); 

304  ] 
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首先 通过 pcibios allocate bus resources( ) 为 等 条 PCI 总 线 分 配 地 址 资源 ， 其 代码 在 同一 文件 
(pci-386.c) s 


[pci, init( ) > pcibios init( ) > pcibios resource. survey ( ) > pcibios allocate bus resources( )] 


152 /* 

153 * Handle resources of PCI devices. If the world were perfect, we could 
154 * just allocate all the resource regions and do nothing more. It isn't 
155 * On the other hand, we cannot just re-allocate all devices, as it would 
156 * require us to know lots of host bridge internals. So we attempt to 
157 * keep as much of the original configuration as possible, but tweak it 
158 * when it's found to be wrong. 

159 * 

160 * Known BIOS problems we have to work around: 

161 * ~ I/O or memory regions not configured 

162 * - regions configured, but not enabled in the command register 

163 * -— bogus I/0 addresses above 64K used 

164 * -— expansion ROMs left enabled (this may sound harmless, but given 
165 * the fact the PCI specs explicitly allow address decoders to be 

166 * shared between expansion ROMs and other resource regions, it's 

167 * at least dangerous) 

168 . * 

169 * Our solution: 

170 * (1) Allocate resources for all buses behind PCI-to-PCI bridges. 

171 * This gives us fixed barriers on where we can allocate 

172 * (2) Allocate resources for all enabled devices. If there is 

173 * a collision, just mark the resource as unallocated. Also 

174 * disable expansion ROMs during this step. 

175 * (3) Try to allocate resources for disabled devices. If the 

176 * resources were assigned correctly, everything goes well, 

177 * if they weren t, they won't disturb allocation of other 

178 * resources. 

179 * (4) Assign new addresses to resources which were either 

180 * not configured at all or misconfigured. If explicitly 

181 * requested by the user, configure expansion ROM address 

182 * as well. 

183 */ 

184 

185 static void | init pcibios allocate bus resources (struct list head *bus list) 
186 { 

187 struct list head *in, 

188 struct pci bus *bus; 

189 struct pci dov *doev; 

190 int idx; 

191 struct resource *r, *pr; 

192 

193 /* Depth-First Search on bus tree */ 
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194 for (ln=bus list-^next; In != bus list; In=ln->next) | 

195 bus = pci bus b(n); 

196 if ((dev = bus-^self)) { 

197 for (idx - PCI BRIDGE RESOURCES; idx < PCI NUM RESOLRCES; idxt++) { 

198 r = &dev—>resource [idx] ; 

199 if (!r->start) 

200 continue; 

201 pr - pci find parent resource(dev, r); 

202 if (pr || request resource(pr, r) < 0) 

203 printk (KERN ERR "PCI: Cannot allocate resource region %d of 
bridge %s\n”, idx, dev—^slot name); 

204 } 

205 } 

206 pcibios allocate bus resources (&bus->children) ; 

207 } 

208. ] 


参数 bus list 指向 一 个 队列 头 ， 实 际 上 是 一 个 pei bus 结构 队列 ， 第 一 次 调用 这 个 函数 时 指向 队列 
pci_root_buses， 即 所 有 通过 “宿主 一 PCI 桥 ” 相 连 的 PCI 总 线 (通常 只 有 一 条 )。 如 前 所 述 ， 每 条 PCI 
总 线 都 有 可 能 通过 “PCI-PCI 桥 ” 连 接 到 更 次 层 的 其 他 PCI 总 线 ， 所 以 每 个 pci_bus 数据 结构 中 都 有 个 
BAS Sk children， 用 来 维持 次 层 PCI 总 线 的 pci_bus 结构 队列 。 完 成 了 对 PCI 总 线 和 设备 的 检举 以 后 ， 
这 些 数据 结构 都 已 经 各 就 各 位 了 。 既 然 PCI 总 线 的 系统 结构 是 递归 的 ， 对 整个 PCI 结构 的 资源 分 配 就 
自然 也 是 递归 的 ， 所 以 206 行 对 次 层 pci, bus 结构 队列 递归 调用 pcibios_allocate_bus_resources( )， 向 下 
作 深度 优先 的 通 历 。 代 码 中 外 层 的 for 循环 (194 行 ) 是 对 同一 队 全 中 所 有 pei. bus 结构 的 循环 。 对 于 总 线 
本 号 ， 即 PCI 桥 ， 由 内 层 的 for 循 玉 (197 行 ) 对 其 4 个 (从 7 至 10) 地 址 区 间 加 以 检验 。 

ix HU C PCL BRIDGE RESOURCES 和 PCL NUM_RESOURCES 均 定义 于 include/linux/pci.h: 


367 /* 

368 * For PCI devices, the region numbers are assigned this way: 

369 * 

370 * 0-5 standard PCI regions 

371 * 6 expansion ROM 

372 * 7-10 bridges: address space assigned to buses behind the bridge 
373 */ 

374 


315 Rdefine PCT ROM RESOURCE 6 
376 &define PCI BRIDGE RESOURCES 7 
377 #define PCT_NUM_RESOLRCES 11 


对 于 普通 的 PCI 设备 ， 其 pci_dev 结构 中 的 开头 6 个 (0 至 9) 地 址 区 间 是 设备 La E K ia, 第 7 

个 区 间 (6) 古 可 能 有 的 扩充 ROM 区 间 。 如 果 这 设备 是 个 PCI 桥 ， 则 后 面 偿 有 4 个 区 间 ，pci_bus 结构 中 

的 4 个 resource 指针 就 分 别 指向 这 4 个 区 间 。 前 面 ， 我 们 在 阅读 pci_read_bridge_bases( t Uit, PCI 

恬 本 身 并 不 “使 用 ”这 些 区 间 中 的 地 址 ， 调 是 用 这 些 区 间作 为 地 址 过 滤 的 窗口 。 其 中 第 … 个 窗 册 用 于 

VO 地 址 ， 第 -二 个 用 于 存储 右 地 址 ， 第 一个 则 为 “可 预 取 ” 存储 内 地 址 区 间 。 此 外 ， 还 有 一 个 用 十 扩 
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JE ROM 区 间 的 窗口 。 次 层 总 线 上 所 有 设备 (包括 PCI 桥 ) 所 使 用 的 地 址 部 必须 在 这 些 窒 口中 .换言之 , 这 
些 设备 所 需要 的 地 址 资源 都 要 从 这 些 区 问 中 分 配 。 所 以 ， 每 个 PCI 桥 或 者 说 每 条 PCI AR, gs RM 
其 上 层 “ 批 发 ”下 一 些 地 址 资源 ， 然 后 “零售 ”分 瑟 给 连接 在 这 条 总 线 上 的 所 有 设备 ， 包 括 把 其 由 的 
一 部 分 批发 给 更 次 层 总 线 。 就 这 样 ， 每 一 条 PCI 总 线 上 的 设备 都 向 其 所 在 的 总 线 批发 地 址 资源 ， 册 总 
线 则 向 其 上 层 总 线 批发 。 那 么 ， 顶 层 的 PCI 总 线 又 向 谁 批 发 呢 ? 那 就 是 ioport_resource 和 
iomem_resource， 这 是 两 种 地 址 资源 终极 的 米 源 。 

如 果 PCI 桥 的 某 个 区 间 已 经 有 了 对 资源 的 需求 ， 就 紫 先 通过 pei. find. parent, resource ) 看 看 其 “ 父 
节点 ”是 否 拥有 其 所 需 的 地 址 资源 ， 其 代码 在 include/linux/pci.h 中 : 





[pci_init( ) > Pcibios_init( ) > pcibios_resource_survey ( ) > pcibios allocate bus resources( ) 
»pci find parent resource( )] 


164  /** 

165 * pci find parent resource - return resource region of parent bus of given region 
166 * @dev: PCT device structure contains resources to be searched 

167 * @res: child resource record for which parent is sought 

168 * 

169 * For given resource region of given device, return the resource 

170 * region of parent bus the given region is contained in or where 

171 * it should be allocated from. 

172 */ 


173 siruct resource * 
174 pci find parent resource (const struct pci dev *dev, struct resource *res) 
175 { 


176 const struct pci bus *bus = dev—>bus; 

177 int i; 

178 struct resource *best - NULL; 

179 

180 for(i-0; i<4; iti) f 

181 struct resource *r = bus- resource[i]; 

182 if (i) 

183 continuo; 

184 if (res start && !'(res— start >= r—siart && res->end <= r->end)) 
185 continue; /* Not contained */ 

186 if ((res)O flags | r— flags) & (IORESOURCE TO | IORESOURCE MEM)) 

187 continue; /* Wrong type */ 

188 if (!((res->flags ^ r— flags) & IORESOURCE, PREFETCIT) ) 

189 return r; —/* Exact match */ 

190 if ((res->flags & IORESOURCE_PREFETCH) && ! (r->flags & IORESOURCE PREFETCH) ) 
191 best = r; /* Approximating prefetchable by non-prefetchable */ 
192 } 

193 return best; 

194  ] 


参数 dev 指向 代表 着 次 层 总 线 的 PCL 桥 的 pei. dev 数据 结构 ，res 则 指向 代表 着 所 需 地 址 区 间 的 
resource 结构 。 分 配 时 依次 扫描 PCI 桥 所 在 总 线 的 4 个 地 址 区 癌 。 
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分 配 的 大 原则 是 地 址 的 范围 必须 相符 (185 行 ), 并 且 类 型 (存储 器 地 址 或 VO 地 址 ) 必 须 相符 (187 行 )。 
其 次 ， 是 否 “ 可 预 取 ” 也 最 好 能 一 致 。 野 不然 ， 如 果 所 要 求 的 区 间 用 于 “可 预 取 ”的 存储 器 ， 而 总 线 
上 的 区 间 本 来 是 供 不 可 预 取 的 寄存 器 使 用 的 ， 邦 么 虽然 有 些 勉强 ， 也 还 不 失 为 一 个 选择 (191 和 193 fT, 
反 过 来 就 不 行 了 )。 

如 果 在 父 节点 中 找到 了 能 够 满足 要 求 的 区 闻 ， 则 函数 返回 指向 该 区 间 的 指针 (否则 为 0)， 说 明 所 需 
的 地 址 资源 是 有 保障 的 ， 所 以 就 通过 request resource( ) 加 以 分 配 ， 这 个 函数 的 代码 在 kernel/resource.c 
中 ; 


[pci init( ) > pcibios init( ) > pcibios resource survey ( ) > pcibios allocate bus resources( ) > 
request. resource ( )] 


114 int request resource(struct resource *root, struct resource *new) 
115 ( 

116 struct resource **conflict; 

117 

118 write lock(Kresource lock); 

119 conflict = | request resource(root, new); 

120 write unlock(&resource lock); 

121 return conflict ? -EBUSY : 0; 

122 } 


落实 资源 分 配 的 过 程 涉及 队列 操作 ， 不 容许 受到 打扰 ， 所 以 必须 加 锁 。 具 体 的 操作 则 由 
. request resource( ) 完 成 ， 其 代码 也 在 同一 文件 中 ; 


[pci init( ) > pcibios_init( ) > pcibios resource, survey ( ) > pcibios allocate bus resources( ) > 
request resource () > | request resource( )] 


66 /* Return the conflict entry if you can't request it */ 
67 static struct resource * . request resource (struct resource *root, 
struct resource *new) 


68 | 

69 unsigned long start = new->start; 
70 unsigned long end = new->end; 

了 1 struct resource *tmp, **p; 

72 

73 if (end € start) 

74 return root; 

75 if (start € root start) 

76 return root; 

77 if (end > root->end) 

78 return root; 

79 p = &root->child; 

80 for (;;) 1 

81 tmp = *p; 

82 if (!tmp |! tmp->start > end) { 
83 new->sibling = tmp; 
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84 *p = new; 

85 new->parent = root; 
86 return NULL; 

87 } 

88 p = &tmp->sibling; 

89 if (tmp->end < start) 
90 continue; 

91 return tmp; 

92 } 

93 |] 


这 颗 的 参数 root 指向 总 线 的 某 个 resource 数据 结构 , 而 new 则 指向 PCI 桥 ， 即 次 层 总 线 的 resource 
数据 结构 。 代 码 中 通过 - :个 for 循环 在 root 的 子 区 间 队 询 中 为 new 找到 适当 的 位 兽 ， 然后 将 new 插入 
该 队列 中 。 如 果 发 现 new 与 已经 存在 的 子 区 间 冲 突 ， 则 操作 失败 而 返回 与 其 冲突 的 区 间 指 针 。 

当 完 成 了 对 pcibios_allocate_bus_resources( ) 的 递归 调用 时 ， 所 有 PCI 总 线 所 需 的 地 址 资源 都 已 经 
分 配 好 了 。 但 是 ,读者 大 概 也 看 出 来 了 ， 除 对 十 冲突 的 检验 以 外 ， 这 里 所 谓 “分配” 其 实 只 龙 -种 “ 事 
后 追认 ”而 已 。 这 些 区 间 的 范围 本 来 就 是 从 PCI 桥 中 读 出 来 的 ， 现 在 也 并 未 加 以 改变 。 所 做 的 只 是 为 
这 些 区 间 建 立 起 了 resource 结构 ， 并 插入 到 整个 地 址 资源 树 中 的 某 个 位 置 上 ， 以 供 检验 冲突 之 用 。 那 
A, 这些 PCI 桥 是 怎么 知道 应 该 有 什么 样 的 窗口 的 呢 ? 这 是 由 BIOS REN., BRU, ux 
有 必要 推倒 重 来 。 如 果 BIOS 并 水 设置 ， 那 也 不 难 通 过 扫描 已 经 建立 起 的 pei bus 和 pei, dev 数据 结构 
统计 出 来 ， 或 者 在 扫描 、 枚 举 的 过 程 中 计算 出 来 。 

回 到 pcibios_resource_survey( ) 的 代码 中 ， 接 着 就 可 以 为 所 有 的 PCI 设备 分 配 地 址 资源 了 ， 这 里 分 
两 越 调用 pcibios_allocate_resources( ), 这 个 函数 的 代码 在 arch/i386/kernel/pci-i386.c H, 同样, Pri 
配 ” 实 际 上 往往 只 是 退 认 。 


[ci init( ) > pcibios_init( ) > pcibios, resource survey ( ) > peibios allocate resources( )] 


210 static void init pcibios allocate resources(int pass) 


gt x 

212 struct pci dev *dev; 

213 int idx, disabled; 

214 ul6 command; 

215 struct resource *r, *pr; 

216 

217 pci for each dev(dev) | 

218 pci read config word(dev, PCI COMMAND, &command) ; 
219 for(idx = 0; idx < 6; idx++) { 

220 r = &dev—->resourceLidx]; 

221 if (r->parent) /* Already allocated */ 
222 continue; 

223 if (Ir start) /* Address not. assigned at all */ 
224 continue; 

225 if (r-^flags & TORESOURCE I0) 

226 disabled = ! (command & PCI COMMAND IO); 
227 else 
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228 disabled = ! (command & PCI, COMMAND MEMORY) ; 

229 if (pass == disabled) | 

230 DBG( PCT: Resource *081x-*08lx (f-Wlx, d=%d, p=%d) \n”, 
23] r->start, r->end, r->flags, disabled, pass); 

232 pr = pci find parent resource(dev, r); 

233 if (!pr || request resource(pr, r) < 0) { 


234 printk(KERN ERR "PCI: Cannot allocate resource region %d of device *sWn^, 
idx, dev-^slot name); 


235 /* We' 1l assign a new address later */ 
236 r-^end -= r->start: 
237 r~>start = 0; 
238 } 
239 } 
240 } 
241 if (!pass) { 
242 r = &dev-^resource[PCT ROM RESOURCE]; 
243 if (r->flags & PCI ROM ADDRESS ENABLE) { 
244 /* Turn the ROM off, leave the resource region, 

but keep it unregistered. */ 
245 u32 reg; 
246 DBG( PCI: Switching off ROM of %s\n”, dev-^slot name); 
247 r-^flags &- "PCI ROM ADDRESS ENABLE; 
248 pci read config dword(dev, dev-^rom base reg, &reg); 
249 pci write config dword(dev, dev-^rom base reg, 

reg & "PCI ROM ADDRESS ENABLE) : 

250 } 
251 } 
252 } 
253 } 


这 是 个 对 所 有 pci_dev 数 据 结构 的 循环 。 对 十 每 -项 PCI 设 备 的 6 个 常规 区 间 ， 如 时 这 些 区 间 已 经 
生效 (可以 接受 访问 ) 就 在 第 一 趟 扫描 (pass 为 0) 时 分 配 地址 资源 ， 否 则 就 在 第 - 趟 扫描 (pass 为 1) 时 分 配 。 
对 扩充 ROM 区 间 则 只 在 第 一 越 ， 其 参数 pass 为 0 时 如 以 处 理 。 

PCT 设备 的 这 些 区 间 有 几 种 可 能 。 第 一 种 是 凯 经 分 配 了 地 址 资源 ， 因 而 其 指针 parent 已 指 向 其 父 
节点 ， 对 这 种 节点 无 需 作 任何 处 理 ， 所 以 把 它 中 过 就 行 了 (222 行 )。 第 二 种 是 区 间 的 起 始 地 址 为 0， 这 
种 x 间 战 者 是 本 来 就 不 需要 为 之 分 配 空间 ， 或 者 是 山 知 其 父 节点 暂时 不 能 满足 其 需要 ， 这 里 也 把 它 跌 
过 (224 行 )。 第 三 种 就 是 需要 分 配 地 址 资源 的 了 ， 如 果 通 过 pci_find_parent_resource( ) 发 现 这 部 分 地 址 
资源 已 经 包含 在 父 节点 的 资源 中 ， 屠 就 可 以 通过 request resource( ) 分 配 了 ， 这 两 个 函数 的 代码 我 们 都 
己 在 前 面谈 过 。 如 果 发 现 不 能 在 当前 的 起 始 地 址 上 从 父 节 点 分 配 到 所 需 的 地 址 资源 ， 即 地 址 范围 不 符 
或 者 发 生 了 冲突 ， 就 先 将 该 区 间 平 移 到 起 始 地 址 为 0 的 地 方 (236 一 237 行 )， 这 些 区 间 的 起 始 地 址 需要 
加 以 变更 才 行 。 这 里 此 说 明 ， 对 这 些 区 间 的 地 址 资源 分 配 之 所 以 失败 并 不 是 由 于 父 节点 中 的 资源 短缺 
血 古 内 为 对 起 始 地 第 的 要 求 不 能 满足 。BIOS 在 人 备 定 父 节 点 的 窗口 大 小 时 是 经 过 计算 的 ， 加 上 对 窗口 位 
秆 的 对 齐 ， 父 节点 的 窗口 ~- 般 都 要 比 实际 的 需 此 上 大。 所 以 ， 只 要 允许 将 区 间 适 当 平 移 ， 就 - 定 能 分 配 
到 所 需 的 地 址 资源 。 
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对 于 ROM 区 间 ， 则 在 第 一 趟 扫描 时 予以 关闭 。ROM 区 间 一 般 只 是 在 初始 化 时 由 BIOS 或 具体 的 
设备 驱动 程序 使 用 ， 所 以 现在 可 以 关闭 了 。 但 是 其 地 址 资源 暂时 还 保存 着 ， 如 果 需 要 还 可 以 在 设备 驱 
EPP PITH 
WEAR BEA A ae ee Mot EA a AG ak KE, EU 0 的 区 间 ， 要 通过 
peibios assign resources( ) 加 以 分 舟 ， 实 际 上 这 才 是 真 止 意义 上 的 “分 配 ” 而 不 是 追认 。 这 个 函数 的 代 
码 在 arch/i386/kernel/pci-i386.c 中 : 





[pci_init( ) > pcibios init( ) > pcibios resource survey ( ) > pcibios assign resources( )] 


255 static void _ init pcibios assign resources (void) 
256 f 
257 struct pci dev *dev; 
258 int idx; 
259 struct resource *r; 
260 
261 pci for each dev(dev) | 
262 int class ~ dev->class >> 8; 
263 
264 /* Don't touch classless devices and host bridges */ 
265 if (class ,| class — PCI CLASS BRIDGE HOST) 
266 continue; 
267 
268 for (idx=0; idx<6; idx++) { 
269 r = &dev—->resource[lidx] ; 
270 
271 f* 
272 * Don’t touch IDE controllers and 1/0 ports of video cards! 
273 */ 
214 if ((elass — PCI CLASS STORAGE IDE && idx < 4) | 
215 (class == PCI CLASS DTSPLAY VGA && 
(r-^flags & IORESOURCE I0))) 
216 continue; 
277 
278 /* 
219 * We shall assign a new address to this resource, either because 
280 * the BLOS forgot to do so or because we have decided the old 
281 * address was unusable for some reason. 
282 */ 
283 if (r->start && r->end) 
284 pci assign resource(dev, idx); 
285 } 
; 286 
287 if (pci probe & PCI ASSIGN ROMS) { 
288 r = &dev-»resource[PCI ROM RESOURCE]; 
289 r->end 一 r->start; 
290 r-^start = 0; 


- 237 . 





Linux A EG AEST DT (下 册 》 


291 if (r-^end) 

292 pci assign resource(dev, PCI ROM RESOURCE); 
293 ) 

294 } 

295} 


XX ^P ABR MRE for 循环 , 对 于 系统 中 的 所 有 PCI 设备 ， 只 要 这 个 设备 有 效 ( 类 型 字段 非 0)， 

并 且 不 是 PCI 桥 , 就 在 内 层 循 环 中 检查 其 6 个 可 能 的 地 址 区 间 。 只 要 是 需要 分 配 地 此 资源 的 地 址 区 间 ( 起 
始 地 址 为 0 而 终点 地 址 非 0)， 便 通过 pci assign resource ( ) 为 其 分 配 总 线 地 址 ， 并 将 其 设置 入 具体 设 
备 的 配置 寄存 器 组 。 回 顾 一 下 前 面 pcibios_allocate_resources( ) 的 代码 ， 就 可 以 看 出 这 些 区 间 正 是 在 那 
里 没有 能 解决 的 区 间 。 当 时 之 所 以 没有 能 解决 是 因为 指定 了 起 始 地 址 ， 贡 在 则 放宽 了 条 件 。 

Ait, IDE 存储 设备 ( 便 盘 ) 的 前 4 个 区 间 和 VGA 显示 设备 的 WO 地 址 区 间 是 特例 ， 这 些 区 间 的 地 址 
不 需要 分 配 、 也 不 能 改变 (内 为 已 经 在 用 了 )。 

函数 pci assign resource ( ) 的 代码 在 drivers/pci/setup-res.c P: 


[pci init( ) > pcibios_init( ) > pcibios_resource_survey ( ) > pcibios assign resources( ) 
> pci assign resource( )] 


99 int 
100 pci assign resource (struct pci dev *dev, int i) 
101 { 
102 const struct pci bus *bus = dev->bus; 
103 struct resource *res = dev—>resource + i; 
104 unsigned long size, min; 
105 
106 size = res—>end - res-?start + 1; 
107 min = (res->flags & IORESOURCE IO) ? PCIBIOS_MIN IO : PCIBIOS MIN MEM; 
108 
109 /* First, try exact prefetching match.. */ 
110 if (pci assign bus resource(bus, dev, res, size, 
min, IORESOURCE PREFETCH, i) < 0) { 
111 /* 
112 * That failed. 
113 * 
114 * But a prefetching area can handle a non-prefetching 
115 * window (it will just not perform as well). 
116 */ 
117 if (!(res->flags & IORESOURCE PREFETCH) |; 
pci assign bus resource(bus, dev, res, size, min, 0, i) « 0) 
{ 
118 printk (KERN ERR 
"PCI: Failed to allocate resource %d for %s\n”, i, dev->name); 
119 return -EBUSY; 
120 } 
121 } 
122 
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123 pBGC((” got res[%lx:%lx] for resource %d of %s\n”, res->start, 
124 res->end, i, dev-^name)); 

125 

126 return 0; 

OF. 13) 


这 个 函数 通过 pci. assign, bus resource( ) 为 给 定 设备 从 其 所 在 的 总 线 分 配 地 址 区 间 。 为 设备 上 的 每 
个 区 间 分 配 地 址 时 ， -方面 要 考虑 区 间 的 实际 大 小 ， 另 一 方面 对 其 位 置 也 有 所 限制 ， 对 于 VO 地 址 区 
间 其 起 点 不 得 低 于 PCIBIOS_MIN_IO， 对 于 内 存 地 址 区 间 则 不 得 低 于 PCIBIOS_MIN_MEM， 这 两 个 常 
数 均 定 义 于 include/asm-i386/pci.h: 


12 #define PCIBIOS MIN IO 0x1000 
13 #define PCIBIOS MIN MEM 0x10000000 


REW, VO 地 址 区 间 的 位 置 不 得 低 于 4KB， 而 内 存 地 址 区 间 的 位 置 不 得 低 于 256MB. 0) M., 
对 于 地 址 区 间 还 有 个 是 否 必 须 满足 “可 预 取 ”要 求 的 问题 ， 所 以 这 里 (110 行 ) 移 以 
IORESOURCE. PREFETCH 为 参数 调用 一 次 pci_assign_bus_resource( )， 表 示 要 求人 在 “可 预 取 ” 方 面相 
符 。 若 不 能 满足 要 求 ， 则 根据 情况 再 以 0 为 参数 调用 一 -次 (117 行 )， 表示 在 这 方面 不 相符 也 可 以 ， 但 这 
只 适用 于 设备 上 的 区 间 为 “可 预 取 ”， 即 用 于 人 存储 器 的 情况 下 ， 反 过 来 就 不 可 以 了 。 函 数 
pd assign bus resource( ) 的 代码 也 在 drivers/pci/setup-res.c H, 


[pci_init( ) > pcibios_init( ) > pcibios resource, survey ( ) > pcibios_assign_resources( ) 
> pci assign. resource( ) > pci_assign_bus_resource( )] 


59 /* 

60 * Given the PCI bus a device resides on, íry to 
61 * find an acceptable resource allocation for a 
62 * specific device resource.. 

63 */ 


64 static int pci assign bus resource (const struct pci bus *bus, 
65 struct pci dev *dev, 


66 struct resource *res, 

67 unsigned long size, 

68 unsigned long min, 

69 unsigned int type mask, 

10 int resno) 

71 { 

72 int i; 

73 

74 type mask |= IORESOURCE IO | IORESOURCE MEM; 
75 for ($0 i 4; i++) d 

76 struct resource *r = bus->resourcel[i]; 
77 if (tr) 

78 continue; 

79 
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80 /* type mask must match */ 
81 if ((res->flags ` r->flags) & type mask) 
82 continue; 
83 
84 /* We cannot allocate a non-prefetching resource 
from a pre-fetching area */ 

85 if ((r-^flags & IORESOURCE PREFETCH) && ! (res-^flags & IORESOURCE PREFETCH)) 
86 continue; 
87 
88 /* Ok, try it out.. */ 
89 if (allocate resource(r, res, size, min, -1, size, 

pcibios align resource, dev) < 0) 
90 continue; 
91 
92 /* Update PCI config space.  */ 
93 pcibios update resource(dev, r, res, resno); 
94 return 0; 
95 } 
96 return -EBUSY; 
97  ] 


从 哪里 分 配 地 址 区 间 呢 ? 设备 在 哪 一 条 PCI AE b. PRM CURE "HEART ACR eR Ag HE LX 
问 中 分 配 。 这 里 的 参数 bus 指向 总 线 的 pci bus 44, if res 则 指向 : -个 resource 数据 结构 ， 结 构 中 记 
载 着 对 目标 区 间 的 要 求 。 代 码 中 通过 一 个 for 循环 依次 尝试 该 总 线 的 4 个 可 能 的 区 间 。 如果 二 者 类 型 相 
F, MEA WO 地 址 或 同 为 内 存 地 址 ， 并 且 是 否 “ 可 预 取 ” 也 相符 (如 果 要 求 的 话 )， 就 道 过 
allocate_resource( ) 为 其 分 配 总 线 地 址 (kernel/resource.c), 如 果 分 村 成 功 就 道 过 pcibios_update_resource( ) 
将 其 设置 进 日 标 设 备 。 


[pci init( ) > pcibios init( ) > pcibios resource survey ( ) > pcibios assi gn resources( ) » 
pci assign resource( ) > pci assign bus resource( ) > allocate, resource( )] 


185  /* 

186 * Aliocate empty slot in the resource tree given range and alignment. 
187 */ 

188 int allocate resource (struct resource *root, struct resource *new, 

189 unsigned long size, 

190 unsigned long min, unsigned long max, 

191 unsigned long align, 

192 void (kalignf) (void *, struct resource *, unsigned long), 
193 void *alignf data) 

194 { 

195 int err; 

196 

197 write lock(&resource lock); 

198 err = find resource(root, new, size, min, max, align, alignf, alignf data): 
199 if (err >= 0 && — request resource(root, new)) 
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200 err = -EBUSY; 

201 write unlock(&resource lock); 
202 return err; 

203 ] 


参数 root 指向 “个 resource 数据 结构 ， 代 表 着 设备 所 在 总 线 半 的 -个 地 址 区 间 : 而 new 则 指向 另 
一 个 resource 数据 结构 ， 代 表 着 待 分 配 的 地 址 区 间 。 这 妃 地 址 的 大 小 由 参数 size M E. Ki b. 定 是 2 
HRR. MEITE min 与 max 之 间 ，align 则 与 边界 对 齐 有 关 。 对 赂 前 面 对 这 个 函数 的 调用 ， 就 可 以 
看 出 这 里 size 是 实际 的 区 间 大 小 , min 为 PCIBIOS_MIN_IO 或 PCIBIOS_MIN_MEM, max 为 0xffffffff， 
Tj align 与 size 相同 。 HA, 参数 alignf 是 个 函数 指针 , 实际 上 指向 pcibios_align_resource( ). alignf data 
则 实际 上 指向 目标 设备 的 pei. dev 数据 结构 。 注 意 这 里 的 max 起 个 无 符号 整数 , 所 以 一 1 实际 上 是 全 d. 
这 些 参 数 原 封 不 动 地 传 给 find_resource( )， 先 通过 这 个 函数 找到 符合 要 求 的 区 间 ， 其 代码 侍 


kernel/resource.c H: 


[pci init( ) > pcibios_init( ) > pcibios resource survey ( ) > pcibios assign resources( ) 
> pci assign resource( ) > pci assign bus resource( ) > allocate resource( ) 
> find, resource( )] 


148 /* 
149 * Find empty slot in the resource tree given range and alignment. 
150 */ 


151 static int find_resource (struct resource *root, struct resource *new, 
152 unsigned long size, 


153 unsigned long min, unsigned long max, 

154 unsigned long align, 

155 void (kalignf) (void *, struct resource *, unsigned long), 
156 void *alignf data) 

157 f 

158 struct resource *this - root->child; 

159 

160 new->start = root-^start; 

161 foray { 

162 if (this) 

163 new->end = this->start; 

164 else 

165 new->end = root-?end; 

166 if (new->start < min) 

167 new->start - min; 

168 if (new->end > max) 

169 new->end = max; 

170 new >start = (new->start + align - 1) & "(align 1); 
171 if (alignf) 

172 alignf(alignf data, new, size); 

173 if (new start € new>end && new-^end - new->start + 1 >= size) f 
174 new-»end = new->start + size - 1; 

175 return 0; 
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176 ] 

177 if (!this) 

178 break; 

179 new->start = this->end + 1; 
180 this = this-^sibling; 

181 } 

182 return ~EBUSY; 

183 } 


具体 的 分 配 并 不 复杂 。 如 果 总 线 的 地 址 区 间 是 个 整体 ， 出 root 所 指 的 resource 数据 结构 是 个 叶 节 
点 ， 那 么 其 起 点 就 用 作 待 分 配 区 间 的 起 点 ， 然 后 将 起 点 按 要 求 进行 边界 对 齐 ， 并 作 必 要 的 调整 ， 上 再 来 
检查 区 间 的 大 小 。 否 则 ， 要 是 root->child 非 0， 则 需要 扫描 各 个 子 区 间 ， 从 中 发 现 足够 大 的 子 区 间 。 分 
配 成 功 时 函数 返回 0， 否 则 返回 一 EBUSY。 初 步 确定 了 分 配 的 起 始 地 址 ， 并 且 作 了 边界 对 齐 以 后 ， 可 
能 (如 果 alignf dE 0) 还 要 调整 :下 起 点 地 址 。 在 这 里 ,用 来 调整 的 邱 数 是 pcibios_align_resource( )， 其 代 
码 在 arch/i386/kernel/pci-i386.c 中 ， 


[pci init( ) > pcibios init( ) > pcibios resource, survey ( ) > pcibios assign resources( ) 
> pci assign resource( ) > pci assign bus, resource( ) > allocate resource( ) 
> find resource( ) > pcibios align resource( )] 


125 /* 

126 * We need to avoid collisions with mirrored’ VGA ports 
127 * and other strange ISA hardware, so we always want the 
128 * addresses to be allocated in the 0x000-Ox0ff region 

129 * modulo 0x400. 

130 * 

131 * Why? Because some silly external IO cards only decode 
132 * the low 10 bits of the IO address. The OxO0-Oxff region 
133 * is reserved for motherboard devices that decode all 16 
134 * bits, so it's ok to allocate at, say, 0x2800-0x28ff, 
135 * but we want to try to avoid allocating at 0x2900-Ox2bff 
136 x which might have be mirrored at 0x0100-0x03ff.. 

137 */ 

138 void 


139 pcibios align resource (void *data, struct resource *res, unsigned long size) 
140 1 


141 if (res-^flags & IORESOURCE TO) { 

142 unsigned long start = res—>start; 

143 

144 if (start & 0x300) ( 

145 start = (start + Ox3ff) & "Ox3ff; 
146 res-?start = start; 

147 } 

148 } 

149 } 


- 242. 


第 8 章 设备 驱动 

这 种 调整 只 是 针对 IO 地 址 的 (141 行 )。 为 什么 要 作 调 整 呢 ?这 是 因为 在 早期 的 PC 机 中 规定 外 设 
接口 卡 只 能 使 用 4KB 以 下 的 VO 地 址 ， 而 其 中 0x00~0x 任 义 是 保留 给 母 板 使 用 的 。 所 以 ， 早 期 的 接口 
卡 往往 只 对 VO 地 址 的 低 10 位 ， 即 4KB 的 范围 解码 ， 但 是 同时 这 些 接口 卡 又 不 会 使 用 Ox00—Oxff, BD 
bitg 和 bito 为 0 的 这 段 区 间 。 央 此 ， 要 避免 使 用 地 址 中 bits 或 bit9 ASE 0 的 孝 些 地 址 ， 以 免 与 这 样 的 
接口 卡 冲突 。 不 过 ， 实 际 上 PCI 设备 通常 都 将 寄存 器 映射 到 存储 器 空间 (而 不 是 VO 空间 )， 所 以 真正 需 
要 作出 这 种 调整 的 机 会 是 不 多 的 。 

回 到 allocate_resource( ) 的 代码 中 ， 如 果 对 find_resource( ) 的 调用 成 功 了 ， 找 到 了 所 党 的 地 址 资源 ， 
就 要 进一步 通过 ^ request, resource( ) 将 代表 着 新 分 本 区 间 的 resource 结构 new 搬入 root 的 child 队列 
中 。 我 们 已 在 前 面 看 过 这 个 函数 的 代码 。 全 此 为 止 ， 这 种 “分 配 ” 还 只 是 “账面 ”上 的 , 只 是 在 resource 


非 0 指针 。 

为 日 标 设备 上 的 日 标 区 间 分 配 了 总 线 地 址 以 后 ， 便 返回 到 pei assign bus resource( ) 中 ， 接 者 便 通 
过 pcibios_update_resource( ) 将 起 始 地 址 设置 到 目标 设备 中 ， 从 而 建立 起 地 址 映射 。 这 个 函数 的 代码 在 
arch/i386/kernel/pci-i386.c |! : 


[pci, init( ) > pcibios_init( ) > pcibios resource survey ( ) > pcibios assign resources( ) 
> pci, assign, resource( ) > pci assign bus resource( ) > pcibios update resource( )] 


97 void 

98 pcibios update resource (struct pci dev *dev, struct resource *root, 

99 struct resource *res, int resource) 

100 | 

101 u32 new, check; 

102 int reg; 

103 

104 new = res-»start | (res~>flags & PCI REGION FLAG MASK) ; 

105 if (resource < 6) { 

106 reg = PCI BASE ADDRESS 0 + 4*resource; 

107 } else if (resource == PCI ROM RESOURCE) | 

108 res->flags |= PCI ROM ADDRESS ENABLE: 

109 new |- PCT ROM ADDRESS ENABLE; 

110 reg = dev—->rom base reg; 

111 } else { 

112 /* Somebody might have asked allocation of a non-standard resource */ 

113 return; 

114 } 

115 

116 pci write config dword(dev, reg, new); 

117 pci read config dword(dev, reg, &check) ; 

119 if ((new ^ check) & ((new & PCI BASE ADDRESS SPACE IO) ? 
PCI BASE ADDRESS IO MASK : PCI BASE ADDRESS MEM_MASK)) { 

119 printk(KERN ERR "PCI: Error while updating region ” 

120 ^$Ws/*d (W08x !- %08x)\n”, dev->slot name, resource 

121 new, check): 
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122 } 
123 } 


这 里 的 参数 res 指向 月 标 设备 上 日 标 区 间 的 resource 数据 结构 ,其 中 的 字段 stat 就 是 为 其 分 配 的 (起 
全 ) 总 线 地 址 ， 整 数 (下 标 )resource 则 表明 是 设备 中 的 哪 一 个 区 间 。 如 前 所 述 ， 这 个 总 线 地 址 一 定 是 与 
16 字 节 边界 对 齐 的 ， 所 以 其 最 低 4 位 用 于 控制 日 的， 这 些 标志 位 来 自 res->flags 的 最 低 4 位 。 总 线 地 址 
的 设置 和 映射 的 建立 倒是 很 简单 的 ， 只 要 把 所 分 配 的 总 线 地 址 连同 标志 位 邱 入 目标 设备 的 配置 寄存 器 
组 中 相应 区 闻 的 寄存 器 就 行 了 。 这 里 116 行将 新 的 地 址 通过 配置 寄存 器 组 写 入 目标 设备 ， 然 后 再 读 问 
来 加 以 验证 。 

不 过 ， 设 置 了 区 间 的 地 址 并 不 意味 着 这 个 区 闻 已 经 可 以 访问 了 。 配 置 寄存 器 纽 中 的 命令 寄存 器 里 
有 两 个 控制 位 ， 即 PCL COMMAND IO 和 PCI COMMAND_MEMORY， 就 好 像 是 两 个 总 升 关 ， 分 别 
控制 着 设备 的 所 有 VO 地 址 区 间 利 存储 器 地 址 区 问 。 最 终 ， 还 要 把 这 上 山 个 控制 位 都 设 成 1 才能 使 这 些 
区 间 真 正 地 连接 到 PCI 总 线 上 。 我 们 看 到 ， 这 里 并 没有 走出 这 最 后 一 步 ， 实 际 上 :是 留 给 了 具体 的 设备 
驱动 程序 。 

完成 了 对 所 有 设备 、 所 有 区 癌 的 地 址 设置 以 后 ， 逐 层 返 问 到 pei init( h, REAR CAMPER Pe 
个 设备 调用 pci fixup device( )。 我 们 已 在 前 面 看 过 它 的 代码 ， 不 过 上 一 次 调用 时 的 参数 pass 为 
PCI FIXUP_HEADER， 进 行 的 是 对 从 设备 读 出 的 头 部 信息 的 修 止 ;而 这 一 次 为 PCL_FIXUP_FINAL， 
是 对 设置 了 地 址 以 后 的 修正 。 


至 此 ， 对 PCI 总 线 的 初始 化 已 经 完成 ， 内 存 中 已 经 建立 起 代表 着 全 部 PCI 总 线 和 PCR ANAT 
棵 (通常 只 是 一 棵 ) 树 ， 伯 每 项 设备 的 每 个 地 址 区 闻 都 乙 有 了 总 线 地 址 。 这 样 ， 给 定 -项 设备 (更 确切 地 
说 是 :项 功能 ) 的 有 关 信 息 ， 例 如 设备 的 类 型 、 由 谁 制造 ， 就 可 以 通过 搜索 这 些 树 找到 代表 着 此 项 设备 
的 pci dev 数据 结构 。 为 此 ， 内 核 提供 了 - -个 函数 pci_find_device( )， 其 代码 在 drivers/pei/pci.c 中 : 


96 struct pci dev * 


97 pci find device(unsigned int vendor, unsigned int devico, 

const struct pci dev *from) 
98 { 
99 return pci find subsys(vendor, device, PCI ANY 1D, PCI ANY ID, from); 
100 ] 


这 个 函数 的 主体 是 pci_find_subsys( )， 其 代码 也 在 同 文件 中 : 


63 struct pci dev * 
64 pci find subsys(unsigned int vendor, unsigned int device, 


65 unsigned int ss vendor, unsigned int ss device, 

66 const struct pci dev *from) 

67 { 

68 struct list head *n = from ? from—>global_list. next : pci_devices. next: 
69 

70 while (n != &pci devices) { 

71 struct pci dev *dev = pci dev gí(n); 

72 if ((vendor == PCI ANY TD || dev->vendor == vendor) && 
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73 (device == PCI ANY ID || dev->device == device) && 
14 (ss vendor == PCI ANY ID || dev->subsystem vendor == ss vendor) && 
75 (ss device == PCI ANY TD |! dev-^subsystem device == ss device)) 
76 return dev; 
11 n = n-^next; 
18 } 
79 return NULL; 
80 ] 


4 PC] RETE SOK A) fe rd T PIA PER Ethernet 接口 卡 ), 可 以 逐次 以 不 同 的 起 
点 from 调用 pci_find_device( )， 下 至 找到 所 有 这 些 设备 的 pei. dev 数据 结构 。 | 

如 果 关 心 的 不 是 由 谁 制造 ， 而 是 模块 的 功能 和 用 途 ， 则 可 以 道 过 pei find class( ) 寻 找 ， 其 代码 也 
# drivers/pci/pci.c 中 


115 struct pci dev * 
116 pei find class(unsigned int class, const struct pci dev *from) 


Hr. d 

118 struct list head *n = from ? from->global list.next : pci devices. next; 
119 

120 while (n != &pci devices) | 

121 struct pci dev *dev = pci dev g{n); 
122 if (dev->class == class) 

123 return dev; 

124 n = n-next; 

125 } 

126 return NULL; 

127} 


找到 了 目标 设备 的 pei. dev 数据 结构 ， 就 可 以 通过 其 指针 数组 resource[ ] 找 到 各 个 总 线 地 址 区 间 的 
resource 结构 ， 从 放 取 得 各 个 区 问 的 总 线 地 址 。 在 这 个 基础 上 ， 通 过 __ioremap( ) 为 这 些 区 间 建 立 起 虚 
拟 地 址 的 映射 ， 青 通过 设备 的 命令 寄存 器 打开 其 所 有 区 间 ， 就 可 以 像 访问 内 存 空 间 一 样 地 访问 这 些 区 
间 了 。 此 外 ， 如 果 日 标 设备 共有 中 汤 功能 ， 则 还 要 进 - 步 落实 好 中 汤 请 求 线 。 内 核 为 设备 驱动 程序 提 
供 了 一 个 inline tK X pcibios_enable_device( ) 米 帮助 驱动 程序 做 这 些 事情 ， 其 代码 在 include/linux/pci.h 
di 


1042 ^ int pcibios enable device (struct pci dev *dev) 


1043 { 

1044 int err; 

1045 

1046 if ((err = pcibios enable resources (dev)) < 0) 
1047 return err; 

1048 pcibios enable irq(dev); 

1049 return 0; 

1050 } 
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首先 就 是 通过 pcibios enable resources( ) 打 开设 备 的 各 个 地 址 区 间 ， 其 代码 在 
arch/i386/kernel/pci-i386.c 中 : 


[pcibios enable device( ) > pcibios enable resources( )] 


306 int pcibios enable resources (struct pci dev *dev) 


307 { 

308 ul6 cmd, old cmd; 

309 int idx; 

310 struct resource *r; 

311 

312 pci read config word(dev, PCI COMMAND, &cmd); 

313 old cmd = cmd; 

314 for(idx-0; idx«6; idxt+) { 

315 r = &dev—resource[idx]; 

316 if (!r->start && r-»end) { 

317 printk(KERN ERR "PCI: Device %s not available because of resource 
collisions\n”, dev-5slot name); 

318 return -EINVAL; 

319 } 

320 if (r->flags & IORESOURCE IO) 

321 emd |= PCI COMMAND IO; 

322 if (r->flags & IORESOURCE MEM) 

323 cmd |= PCI COMMAND MEMORY; 

324 } 

325 if (dev~>resource[PC1_ ROM RESOURCE]. start) 

326 emd |= PCI COMMAND MEMORY: 

327 if (cmd != old cmd) { 

328 printk(’PCI: Enabling device %s (%04x -> %04x) \n” 

dev~>slot_name, old cmd, cmd); 

329 pci write config word(dev, PCI COMMAND, cmd); 

330 } 

331 return 0; 

332  ] 


这 段 代 码 很 简单 ， 我 们 就 不 多 加 解释 了 。 

接着 是 对 中 断 请 求 线 的 处 理 ， 目 的 是 要 搞 清楚 该 设备 的 中 断 请 求 最 终 连 接 到 了 中 断 控制 器 的 哪 一 
条 输入 线 ， 这 样 才能 正确 地 登记 其 中 断 服务 程序 。 丽 数 pcibios enable irq( ) 的 代码 在 
arch/i386/kernel/pci-irq.c P: 


[pcibios enable device( ) > pcibios_enable_resources( )] 


613 void pcibios enable irq(struct pci dev *dev) 


614 i 

615 u8 pin; 

616 pci read config byte(dev, PCI,INTERRUPT PIN, &pin); 
617 if (pin && !pcibios lookup irq(dev, 1) && !dev->irg) { 
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618 char *msg; 
619 if (io apic assign pci irqs) 
620 msg = ” Probably buggy MP table. ^; 
621 else if (pci probe & PCI BIOS TRQ SCAN) 
622 msg = "^: 
623 else 
624 msg = ^ Please try using pci-biosirq. "; 
625 printk (KERN. WARNING 
“PCI: No IRQ known for interrupt pin %c of device Ws. XsWn^, 
626 'A! + pin - 1, dev-^slot name, msg); 
627 } 
628} 


这 里 的 617 行 表 示 : 如 果 从 寄存 器 PCLINTERRUPT_PIN 读 出 的 数值 非 0， 就 说 明 设 备 具 有 中 断 
功能 ， 因 此 调用 pcibios lookup irq( ) 寻 找 其 中 断 请 求 线 的 去 向 。 要 契 这 个 函数 正常 返回 ， 但 dev->irg 
仍 为 0， 那 就 说 明 有 问题 了 。 

前 面 , 在 pcibios_fixup_irqs( ) 中 也 曾 对 所 有 设备 逐个 地 调用 过 pcibios_lookup_irq( )， 当 时 的 第 二 个 
调用 参数 为 0， 表示 如 果 其 中 断 请 求 线 尚 木 连接 就 留 着 再 说 。 和 而 现在 ， 则 第 二 个 调用 参数 为 1， 表 示 若 
尚未 连接 就 要 选择 一 个 合适 的 对 象 并 完成 连接 。 为 什么 要 把 这 一 步 留 到 现在 呢 ? 一 方面 这 是 “lazy 
computaion”, 插 在 总 线 上 的 设备 未 必 就 是 实际 要 用 的 , 如 果 花 费 了 代价 而 实际 上 并 不 使 用 是 一 种 浪费 ， 
所 以 留 到 具体 设备 (也 许 是 可 安装 模块 ) 初 始 化 的 时 候 再 米 处 理 是 合理 的 。 另 gu, HA, 25 
时 在 循环 尚未 结束 之 前 并 不 知道 系统 中 到 底 有 多 少 设备 连 在 同 -… 条 PCI 中 断 请 求 线 上 ， 也 不 清楚 中 断 
控制 器 的 各 条 输入 线 的 负荷 ， 因 而 不 易 作 出 真正 合理 的 选择 ， 而 现在 ， 则 显然 可 以 作出 更 合理 的 选择 
了 。 我 们 再 看 一 下 pcibios_lookup_irq( ) 有 关 的 两 个 片段 (archyi386/kemel/pci-irq.c); 


[pcibios_enable_device( ) > pcibios enable resources( ) > pcibios_lookup_irq( )] 


442 [x 

443 * Find the best IRQ to assign: use the one 

444 * reported by the device if possible. 

445 */ 

446 newirg ~ dev->ira; 

447 if (Inewirq && assign) | 

448 for (i = 0; i < 16; i++) 1 

449 if ( (mask & (1 << i))) 

450 continue; 

451 if (pirq penalty[i] € pirq penalty[newirq] && 


452 !request irq(i, pcibios test irq handler, SA SHIRQ, “pci-test”, dev)) { 
453 free irq(i, dev); 


454 newirg = i; 

455 } 

456 } 

457 } 

458 DBG(” -> newirq-Xd/, newirq); 
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459 

477 } else if (newirq && r— set && (dev->class >> 8) !- PCI CLASS DISPLAY VGA) { 
478 DBG(^ -> assigning TRQ %d”, newirg): 

479 if (r->set(pirq router dev, dev, pirg, newirq)) { 

480 eisa set level irq(newirg); 

481 DBG(^ ... OK\n”); 

482 msg = “Assigned”; 

483 irq = newirq: 

484 } 

485 ] 


XX PN Fr BED A SC AE A STILI, GRE TE UTR IDE eC CARA. PELA RM ERY 
该 有 困难 。 但 是 ， 对 452 行 却 需要 作 一 点 说明。 对 于 中 断 控制 器 一 侧 候 选 的 中 断 清 求 输入 线 ， 这 里 通 
过 request_irq( )( 见 第 3 章 ) 试 着 登记 一 个 空 函数 pcibios_test_irq_handler( ), 如 果 成 功 再 通过 free_irq() 
将 其 撤销 ， 这 样 就 保证 了 以 后 登记 真正 的 中 断 服务 程序 时 也 能 成 功 。 否 则 ， 如 果 试 登记 失败， 就 不 能 
把 这 条 输入 线 作为 候选 .代码 中 还 调用 了 一 个 函数 eisa_set_level_irq( ), 那 完 企 是 因为 硬件 的 特殊 要 求 ， 
我 们 就 不 关心 了 。 


有 些 设备 的 情况 还 要 更 复杂 ， 所 以 内 核 中 又 提供 了 更 为 一 般 化 的 inline 函数 pci_module_init( ) (以 
及 与 之 有 关 的 “系列 函数 ) 来 帮助 设备 驱动 程序 的 设计 和 实现 ， 读 者 可 参阅 本 章 第 9 节 “ 通 用 中 行 外 
部 总 线 USB”. 


8.5” 块 设备 的 驱动 


块 设备 古文 件 系统 的 物质 基础 。 而 文件 系统 ， 则 就 是 对 块 设备 上 所 存储 的 内 容 按 某 种 格式 加 以 组 
识 的 结果 。 因 此 ， 对 块 设备 (内容) 的 访问 就 有 两 种 方式 。 一 种 是 忽略 对 其 内 容 的 组 织 ， 即 忽略 文件 
系统 的 存在 ， 而 将 其 看 成 个 记录 块 的 阵列 (数组)， 另 种 则 遵循 文件 系统 的 组 织 ， 将 其 看 成 通过 各 
层 日 录 组 织 在 一 起 的 文件 集合 ,而 每 个 文件 则 义 是 若干 记 水 块 的 有 序 集合 。 由 十 “记录 块 数组 ”和 “ 记 
于 块 的 有 序 集合 ”部 是 有 序 的， 在 迪 缉 上 又 串 以 把 它们 看 成 线性 的 “ 字 节 流 ”。 以 书本 为 例 ， 我 们 可 以 
把 .本 书 看 成 一 普 页 面 ， 按 页 号 找到 其 中 的 内 容 ， 也 可 以 把 它 看 成 由 若干 帝 节 构成 ， 放 按 第 几 童 第 几 
节 找 到 其 内 容 。 同 时 ， 我 们 可 以 说 第 几 页 上 的 第 几 个 字 是 什么 ， 力 至 整 本 书 (假定 每 页 上 的 字数 是 固 
定 的 ) 的 第 儿 个 宁 是 什么 ， 也 可 以 说 第 几 章 第 几 节 的 第 几 个 字 是 什么 。 当 打开 个 代表 块 设备 的 文件 
节点 ， 对 这 个 “ 块 设备 文件 ” 读 / 写 时 ， 我 们 把 这 设备 (的 内 容 ) 看 作 一 个 字 节 流 ， 而 忽略 对 其 内 容 的 组 
织 即 文件 系统 的 存在 。 同 样 ， 当 打开 一 个 存在 于 块 设备 上 的 普通 文件 时 ， 我 们 把 这 个 特定 的 文件 看 作 
一 个 字 刷 流 ， 但 是 这 个 学 节 流 按 一 定 的 人 属 式 和 规则 映 时 到 块 设备 上 。 前 者 在 Unix 由 称 为 “原始 设备 六 
并 且 看 成 是 字符 设备 ， 以 水 与 后 音 的 区 别 。 这 一 点 在 Linux 中 有 了 改变 ， 块 设备 还 是 块 设备 ， 只 要 足 
通过 设备 文件 (节点) 访问 就 是 “原始 ”的 。 而 在 安装 以 后 的 块 设备 上 ， 对 普通 文件 的 访问 则 自然 不 
能 忽略 文件 系统 的 组 织 了 。 这 里 还 旨 说 明 ， 即 使 是 对 “原始 ”设备 的 访问 ， 首 先 也 必须 在 文件 系统 中 
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找到 代表 着 这 个 设备 的 文件 节点 ， 在 这 个 过 程 中 当然 不 能 忽略 文件 系统 的 组 织 。 

在 “文件 的 读 与 殷 ” 一 节 中 ， 读 者 已 经 看 到 对 普 道 文 件 的 访问 怎样 变换 成 了 对 块 设备 上 记录 块 的 
访问 ， 最 后 转化 成 对 函数 1L_rw_block( ) 的 调用 ， 从 这 个 责 数 开始 就 进入 了 设备 层 。 我 们 在 这 一 节 中 继 
续 往 下 看 ， 不 过 在 此 之 前 还 要 先 看 下 对 “原始 ” 块 设备 文件 的 访问 ， 包 括 打 开 文 件 以 及 对 文件 的 读 / 
写 。 从 概念 上 说 ， 这 些 内 容 或 许 应 该 放 存 “ 闵 件 系统 ”一 章 中 ， 但 是 因为 设备 文件 的 “文件 层 ” 很 薄 ， 
其 内 容 义 与 设备 驱动 关系 很 紧密 ， 所 以 我 们 把 它 放 让 这 里 与 设备 驱动 一 起 介绍 。 

先 看 块 设备 文件 的 打开 。 在 “系统 调用 mknod()” - 节 中 读者 已 经 看 到 , 设备 文件 是 通过 mknod() 
创建 的 ， 创 建 时 将 设备 的 类 卉 〈 块 设备 或 字符 设备 )、 主 设备 号 、 次 设备 号 都 写 入 了 代表 该 文件 的 索引 
节点 中 。 这 个 索引 节点 本 身 也 存在 于 :个 块 设备 上 ， 有 具体 取决 于 该 设备 文件 节点 所 在 的 文件 系统 。 同 
时 它 又 代表 着 一 个 块 设备 。 . 朝 可 以 相同 ， 也 可 以 不 同 。 打 井 文件 时 ， 人 在 path_walk( ) 中 找到 该 设备 文 
件 节 点 所 在 的 日 录 ， 再 根据 日 了 项 的 指引 从 文件 系统 所 在 的 设备 上 读 入 这 个 索引 节点 ， 并 检验 它 的 模 
式 , 看 看 它 所 代表 的 是 普通 义 件 , 还 是 日 录 、 符号 连接 ,或 者 是 包括 设备 文件 在 内 的 特殊 文件 。 就 Ext2 
文件 系统 而 言 ， 这 部 分 换 作 是 在 函数 ext2_read_inode( ) 中 进行 的 。 我 们 已 经 在 “从 路 径 名 到 目标 节点 ?” 
一 节 中 列 出 了 这 个 函数 的 代码， 读者 可 以 同 过 去 重读 ~ 下。 对 于 包括 设备 文件 看 内 的 特殊 文件 ， 这 个 
函数 调用 init_sperial_inode( ) 来 初始 化 为 这 个 文件 创建 的 inode 数据 结构 , 这 是 在 fs/ext2/inode.c 中 的 第 
1077 行 执行 的 : 


'961 void ext2 read inode (struct inode * inode) 

962 { 

1077 init special inode(inode, inode-^i, modo, 

1078 1e32 to cpu(raw inode— i block[0])) ; 
1102 } 


这 里 inode 指向 为 该 文件 创建 的 inode 4444, EH) i mode 字段 已 经 根据 从 设备 上 读 入 的 索引 节点 
中 的 有 关 信 息 设 置 好 了 ， 调 raw_inode 则 指向 从 设备 上 读 入 的 索引 节点 ， 即 ext2_inode 数据 结构 。 我 们 
已 经 在 “系统 调用 mknod( )” 一 节 中 读 过 init special inode( ) 的 代 色 ， 此 处 再 列 出 其 中 有 关 块 设备 的 几 
ÍT (fs/devices?: 


200 void init special inode (struct inode *inode, umode t mode, int rdev} 
201 { 


$3 o5 9 x 党 


206 ) else if (S ISBLK(mode)) ( 

207 inode->i fop = &def blk fops; 
208 inode->i_rdev = to kdev t(rdev); 
209 inode-^i bdev = bdget (rdev) ; 

210 } else if (S_ISFIFO (mode) ) 

216 } 


经 过 了 这 几 行 ，inode 结构 中 的 指针 i_fop HRI SHIR VEA file operations REAM. m, 
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inode 结构 中 还 有 一 个 专用 于 块 设备 的 指针 i_bdev， 指 向 代表 着 具体 块 设备 的 block. device 数据 结构 。 
这 个 数据 结构 或 许 已 经 存在 于 内 存 中 ， 或 许 需要 创建 ， 由 没 备 号 惟 " -地 加 以 确定 。 在 “系统 调用 
mknod( )” 一 节 中 己 经 列 出 了 函数 bdget( ) 的 代码 ， 块 设备 的 fie_operations 数据 结构 定义 见 
fs/block_dev.c: 


709 struct file operations def blk fops = { 


710 open: bikdev_open, 
711 release: bikdev_close, 
712 llseek: block llseek, 
713 read: block. read, 
114 write: block write, 
115 fsync: block fsync, 
116 ioctl: blkdev_ioct], 
717 l3 


这 样 ， 就 为 对 blkdev open ) 的 调用 铺 半 了 道路 。 当 path. walk( ) 结 束 的 时 候 ， 目 标 文件 的 inode Z5 
构 已 经 与 块 设备 的 文件 层 捍 上 了 钩 。 不 过 此 时 具体 block device 结构 中 的 指针 bd op 还 没有 设置 (如 
果 是 新 创建 的 block_device 结构 ), 也 就 是 还 没有 与 具体 块 设备 的 操作 提 上 钩 , 那 要 到 进入 blkdev open() 
以 后 再 来 处 理 。 所 以 这 也 是 个 走 一 步 看 一 步 ,“ 摸 着 石头 过 河 ” 的 过 程 。 

最 后 ， 在 dentr_open( ) 中 《 见 “ 文 件 的 打开 与 关闭 ”) 把 目标 文件 inode 结构 中 的 指针 f_ops 复制 到 
file 结构 中 〈f_op 指针 )， 并 通过 相应 file operations 结构 中 的 函数 指针 open 调用 blkdev_open( )。 这 个 
函数 的 代码 也 在 fs/block dev.c FP: 


[sys open( ) > filp open( ) > dentry _ open( ) > blkdev open( )] 


644 int blkdev open(struct inode * inode, struct file * filp) 


645 { 

646 int ret = -ENXIO; 

647 struct block device *bdev = inode->i_bdev; 
648 down (&bdev—>bd_sem) ; 

649 lock_kernel ( }; 

650 if (!bdev—bd op) 

651 bdev-^bd op = get blkfops(MAJOR(inode— i rdev)); 
652 if (bdev->bd op) 1 

653 ret = 0; 

654 if (bdev-»bd op-^open) 

655 ret = bdev->bd_op->open (inode, filp); 
656 if (!ret) 

657 atomic inc(&bdev-5bd openers); 

658 else if (latomic read(&bdev-^bd openers)) 
659 bdev-»bd op = NULL; 

660 } 

661 unlock kernel ( ); 

662 up(&bdev-^bd sem); 

663 return ret; 
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664 


) 


Ab AAMAS BS e FLUE ROBERT A “个 类 似 于 人 file_operations 那样 的 数据 结构 ， 


Kj block, device operations, 4E XIU include/linux/fs.h: 


760 
761 
762 
763 
764 
765 
766 


struct block_device_operations { 
int (open) (struct inode *, struct file *); 
int (*release) (struct inode *, struct file *); 
int (*ioctl) (struct inode *, struct file *, unsigned, unsigned long); 
int (check media change) (kdev 0); 
int (krevalidate) (kdev 0); 


}; 


如 果 说 file operations 数据 结构 是 连接 虚拟 的 、 抽 象 的 vfs 文件 操作 与 具体 文件 系统 (或 文件 类 型 ) 
的 文件 操作 之 间 的 枢纽 ,那么 block_device_operations 就 是 连接 抽象 的 块 设备 操作 与 其 体 块 设备 类 型 的 
操作 之 闻 的 枢纽 。 块 设备 的 类 型 是 由 主 设备 号 惟 确定 的 ， 所 以 主 设备 号 慌 一 地 确定 了 -- 个 具体 的 
block. device. operations 数据 结构 ， 而 blkdev_open( ) 的 任务 就 是 根据 主 设备 号 找到 相应 的 数据 结构 ， 并 
使 block_device 结构 中 的 指针 指向 这 个 数据 结构 ， 然 后 调用 由 这 个 数据 结构 中 的 函数 指针 open 所 指向 
的 函数 (如 果 该 指针 不 是 NULL )。 如 果菜 种 设备 在 打开 它 的 时 候 不 党 要 做 任何 事 ， 那 么 它 的 
block, device. operations 结构 中 的 指针 open 就 是 NULL. 


寻找 具体 块 设备 类 型 的 block device operations 数据 结构 是 由 get blkfops( ) 完 成 的 ， 其 代码 在 


fs/block dev.c 中 : 


[sys open( ) > filp open( ) > dentry_open( ) > blkdev. open( ) > get blkfops( )] 


487 
488 
489 
490 
491 
492 
493 
494 
495 
496 
497 
498 
499 
500 
501 
502 
503 
504 
905 
506 


/* 
Return the function table of a device. 
Load the driver if needed 
*/ 
const struct block_device operations * get_blkfops (unsigned int major) 


{ 


const struct block device operations *ret = NULL; 


/* major 0 is used for non-device mounts */ 
if (major && major < MAX BLKDEV) { 
#ifdef CONFIG KMOD 
if (tblkdevs[major]. bdops) { 
char name[20] ; 
sprintf (name, "block-major-*d', major): 
request module (name) ; 
} 
#endif 
ret = blkdevs[ma jor]. bdops; 
} 


return ret; 
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507 } 


内 核 中 有 一 个 数组 blkdevs[ ]， 以 主 设备 号 为 下 标 就 可 以 通过 数组 中 的 表 项 找到 各 种 设备 的 
block device operations 数据 结构 。 这 个 数组 也 是 在 fs/block dev.c 中 定义 的 : 


468 static struct { 

469 const char *name; 

470 struct block device operations *bdops; 
471 } blkdevs [MAX BLKDEV] ; 


内 核 在 初始 化 时 根据 系统 的 配置 将 有 关 块 设备 的 block_device_operations 结构 连同 设备 名 -起 登记 
入 数组 中 的 相应 表 项 。 这 样 ，get_blkfops( ) 只 要 以 主 设备 号 为 下 标 就 可 以 找到 给 定 设备 的 这 个 数据 结构 
了 《 见 代 码 中 的 第 504 行 )。 值 得 注意 的 是 ， 如 果 内 核 支 持 可 安装 模块 ， 那 么 即使 内 核 在 初始 化 时 没有 
登记 某 种 块 设备 , 也 可 以 在 常 要 时 通过 reguest_module( ) 把 用 米 支持 该 种 设备 的 代码 和 数据 结构 安装 过 
来 。 对 这 种 模块 的 命名 有 个 规则 ， 那 就 是 “block-major-* 加 上 具体 设备 的 主 设备 写 〈 见 代码 500 行 )， 

在 这 里 我 们 假定 所 用 的 块 设备 为 IDE 硬盘 ， 因 为 这 是 最 党 用 的 。 在 PC 机 上 最 多 可 以 有 主 、 次 

(primary/secondary) 两 个 IDE 接口 ， 每 个 IDE 接口 勾 可 以 支持 主 、 从 (master/slave) 共 两 个 IDE i 

盘 ， 所 以 最 多 可 以 有 4 个 IDE 硬盘 (包括 光 檬 )， 其 中 第 一 个 IDE 接口 上 证 硬 舱 的 主 设备 号 为 3( 其 余 
硬盘 的 主 设备 号 依次 为 22、33 和 34)。IDE 便 盘 都 带 有 内 装 的 控制 器 (IDE 为 Integrated Drives Electronics 
的 缩写 )， 所 以 只 需要 “接口 ”而 并 不 需要 “控制 卡 ”。 在 过 去 的 十 年 中 ， 这 种 硬 稻 有 了 很 大 的 发 展 ， 
以 至 于 早期 IDE 硬盘 所 用 的 block device operations 数据 结构 hd ops 已 经 不 适用 于 新 型 前 IDE WA, 
而 只 好 另外 定义 新 的 数据 结构 ide_fops， 其 定义 在 drivers/ide/ide.c 中 


3492 struct block device operations ide fops[ ] = (| 


3493 open: ide open, 

3494 release: ide release, 

3495 ioctl: ide ioctl, 

3496 check media change: ide check media change, 
3497 revalidate: ide revalidate disk 

3498s} } 


注意 ， 这 里 说 的 是 定义 新 的 数据 结构 ， 而 不 是 数据 结构 类 型 .之 所 以 定义 新 的 数据 结构 是 因为 有 了 
一 组 新 的 函数 。 实 际 上 ， 这 里 定义 的 是 一 个 结构 数组 ， 只 是 数组 中 只 有 一 个 表 项 。 这 样 就 为 将 来 预 贸 
下 进一步 的 发 展 空间 。 

回 到 blkdev_open( ) 的 代码 中 。 至 此 ， 我 们 已 经 把 对 抽象 的 “ 块 设备 文件 ”的 操作 逐 层 地 具体 化 为 
对 块 设备 的 谨 作 。 但 是 “ 块 设备 ”还 是 个 抽象 的 概念 ， 还 需 此 进步 具 体 化 ， 这 就 需 此 进入 为 IDE i 
fi $e Gt RU PR E T. MÆ, block device 结构 中 的 指针 bd op 已 经 指向 新 型 IDE f pd) 
block. device operations 结构 ide_fops， 而 其 中 的 指针 open 又 指向 ide_open(), ATLL Z blkdev open() 
代码 中 的 655 行 就 通过 这 个 指针 调用 ide_open( )， 其 代码 在 drivers/ide/ide.c F: 


[sys open( ) > filp open( ) > dentry_open( ) > blkdev_open( ) > ide open( )] 
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1832 
1833 
1834 
1835 
1836 
1837 
1838 
1839 
1840 
1841 
1842 
1843 
1844 
1845 
1846 
1847 
1848 
1849 
1850 
1851 
1852 
1853 
1854 
1855 
1856 
1857 
1858 
1859 
1860 
1861 
1862 
1863 
1864 
1865 
1866 


static int ide open (struct inode * inode, struct file * filp) 
{ 

ide drive t *drive; 

int rc; 


if ((drive = get info ptr(inode-^i rdev)) == NULL) 
return -ENXIO; 
MOD INC USE COUNT; 
if (drive->driver == NULL) 
ide driver module( ); 
#ifdef CONFIG KMOD 
if (drive->driver == NULL) { 
if (drive->media == ide disk) 
(void) request module(^ide-disk/); 


if (drive->media == ide cdrom) 
(void) request module (^idc-cd^) ; 
if (drive—>media == ide tape) 


(void) request module("ide-tape"); 
if (drive->media == ide floppy) 
(void) request module("ide-floppy^); 
} 
Hendif /* CONFIG KMOD */ 
while (drive-»busy) 
sleep on(&drive-^wqueue); 
drive-»usaget*; 
if (drive->driver !- NULL) { 
if ((rc = DRIVER(drive)-^open(inode, filp, drive))) 
MOD DEC USE COUNT; 
return rc; 
} 
printk (“%s: driver not present\n”, drive->name) ; 
drive->usage—-; 
MOD DEC USE COUNT; 
return —ENXIO; 
j 


数据 结构 ide ops[ ] 中 提供 了 对 IDE 硬盘 操作 的 函数 跳 转 表 , 但 是 对 具体 IDE 硬 玲 的 操作 述 需 归 有 


关 具 体 设备 的 许多 数据 ， 需 要 有 个 具体 设备 的 “控制 块 ”， 这 就 是 ide_drive 数据 结构 ， 有 关 的 定义 在 


include/linux/ide.h 路， 


257 
258 
259 
260 
261 
262 
263 


/* 
* Now for the data we need to maintain per-drive: ide drive t 


*/ 


#define ide scsi 0x21 
#define ide disk 0x20 
#define ide_optical 0x7 
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264 
265 
266 
267 
268 
269 
210 
271 
272 
213 
274 
275 
276 
277 
278 
279 
280 
281 
282 
283 
284 
285 
286 
287 
288 
289 
290 
291 
292 
293 
294 
295 
296 
297 
298 
299 
300 
301 
302 
303 
304 
305 
306 
307 


308 
309 
310 
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Hdefine ide cdrom 0x5 
Hdefine ide tape Ox! 
üdefine ide floppy 0x0 


typedef union { 
unsigned all : 8; 
struct { 
unsigned set_geometry 
unsigned recalibrate 
unsigned set multmode 
unsigned set tune  : l; 
unsigned reserved : 4; 
} b; 
} special t; 


typedef struct ide drive s { 
request queue t queue; 
struct ide drive s ‘*next; 
unsigned long sleep; 


unsigned long service start; 


unsigned long service time; 
unsigned long timeout; 
special t special; 

byte keep settings; 
byte using dma; 

byte waiting for dma; 
byte unmask; 

byte slow; 

byte bswap; 

byte dsc overlap; 

byte nicel; 

unsigned present 1 
unsigned noprobe EN E 
unsigned busy 1 
unsigned removable 1 
unsigned forced geom ME 
unsigned no unmask : 1; 
unsigned no io 32bit 2 EE 
unsigned nobios Dl 
unsigned revalidate : 1; 
unsigned atapi overlap: 1; 
unsigned nice0 : 1; 
unsigned nice2 : 1; 
unsigned dooriocking: 1; 


unsigned autotune : 2; 
unsigned remap O to 1: 2; 
unsigned ata flash : 1; 
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f* 


/* all of the bits together */ 


/* respecify drive geometry */ 
/* seek to cyl 0 */ 

/* set multmode count */ 

/* tune interface for drive */ 
/* unused */ 


request queue */ 


circular list of hwgroup drives */ 


/* 
/* 
/* 
/水 
/* 
/* 
/* 
/* 
/水 
[x 
/* 
/* 
/* 
/* 
/* 
f* 
/水 
/* 
/水 
/* 
/* 
/* 
/* 
/* 
/* 
/* 


/* 
/* 
/* 


sleep until this time */ 

time we started last request */ 

service time of last request */ 

max time to wait for irq */ 

special action flags */ 

restore settings after drive reset */ 

disk is using dma for read/write */ 

dma currently in progress */ 

flag: okay to unmask other irqs */ 

flag: slow data port */ 

flag: byte swap data */ 

flag: DSC overlap */ 

flag: give potential excess bandwidth */ 

drive is physically present */ 

from: hdx-noprobe */ 

currently doing revalidate disk( ) */ 

1 if need to do check media change */ 

1 if hdx-c,h,s was given at boot */ 

disallow setting unmask bit */ 

disallow enabling 32bit 1/0 */ 

flag: do not probe bios for drive */ 

request revalidation */ 

flag: ATAPI overlap (not supported) */ 

flag: give obvious excess bandwidth */ 

flag: give a share in our own bandwidth */ 

flag: for removable only: door 
lock/unlock works */ 

l=autotune, 2-noautotune, O=default */ 

O-remap if ezdrive, l-remap, 2-noremap */ 

l=present, O=default */ 
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31] 


312 
313 
314 
315 
316 
317 
318 
319 
320 
321 
322 
323 
324 
325 
326 
327 
328 
329 
330 
331 
332 
333 
334 
335 
336 
337 
338 
339 
340 
341 
342 
343 
344 
345 
346 
347 
348 
349 
350 
351 
352 


byte scsi; /* 
byte media; /* 
select_t select; /* 
byte ctl; /* 
byte rcady stat; /六 
byte mult count; /* 
byte mult reg; /* 
byte tune req; /* 
byte io 32bit; /* 
byte bad wstat; /* 
byte nowerr; /* 
byte sectO; /* 
byte usage; /* 
byte head; fk 
byte sect; f* 
byte bios head; [x 
byte bios sect; /* 
unsigned int bios cyl; /* 
unsigned int cyl; /* 
unsigned long capacity; /* 
unsigned int drive_data; /* 
void *hwif; /* 
wait queue head t wqueue; /* 
struct hd driveid *id; /* 
struct hd struct *part; /* 
char name [4] ; [x 
void *driver; /* 
void *driver data; /* 
devfs handle t de; /* 
struct proc dir entry *proc; /* 
void *settings; /* 
char driver req[10]; /* 
int last lun; /* 
int forced lun; /* 
int lun; /* 
int cre count; /* 
byte quirk list; 

byte suspend reset; 

byte init speed; /* 
byte current_speed; /水 
byte dn; /* 


} ide_drive_t; 


O-default, l=skip current ide-subdriver 
for ide-scsi emulation */ 
disk, cdrom, tape, floppy, ... */ 


basic drive/head select reg value */ 
“normal” value for IDE CONTROL REG */ 
min status value for drive ready */ 
current multiple sector setting */ 
requested multiple sector setting */ 
requested drive tuning setting */ 
0-16 bit, 1-32-bit, 2/3-32bit^sync */ 
used for ignoring WRERR STAT */ 

used for ignoring WRERR STAT */ 
offset of first sector for DM6:DDO */ 
current "open( )" count for drive */ 
"real" number of heads */ 

“real” sectors per track */ 
BIOS/fdisk/LILO number of heads */ 
BIOS/fdisk/LILO sectors per track */ 
BIOS/fdisk/LILO number of cyls */ 
"real" number of cyls */ 

total number of sectors */ 

for use by tuneproc/selectproc as needed */ 
actually (ide hwif t *) */ 

used to wait for drive in open( ) */ 
drive model identification info */ 
drive partition table */ 

drive name, such as “hda” */ 

(ide driver t *) */ 

extra driver data */ 

directory for device */ 

/proc/ide/ directory entry */ 
/proc/ide/ drive settings */ 
requests specific driver */ 

last logical unit */ 

if hdxlun was given at boot */ 
logical unit */ 

crc countor to reduce drive speed */ 


/* drive is considered quirky if set for a specific host */ 
/* drive suspend mode flag, soft-reset recovers */ 


transfer rate set at boot */ 
current transfer rate set */ 
now wide spread use */ 


代 僻 作者 对 结构 中 各 个 字段 的 意义 和 作 几 已 经 加 了 注释 ,以 后 随 着 代码 的 进展 还 会 变 得 更 加 清楚 。 


每 个 具体 的 IDE BAMA IK PSEA. PKB get_info_ptr( ) 根 据 设 备 写 找到 这 个 数据 结构 并 返回 


指向 它 的 指针 ， 这 个 函数 的 代码 在 drivers/ide/ide.c FP: 
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Linux ARIE Rar C KAD 
[sys_open( ) > filp open( ) > dentry open( ) > blkdev open( ) > ide open( ) > get. info ptr( )] 


1628 /* 

1629 * get info ptr( ) returns the (ide drive t *) for a given device number 

1630 * [t returns NULL if the given device number does not match any present 
drives. 

1631 */ 

1632 ide drive t *get_info_ptr (kdev t i rdev) 

1633 { 

1634 int major = MAJOR(i rdev); 

1635 #if 0 

1636 int minor - MINOR(i rdev) & PARTN MASK; 

1637 Hendif 

1638 unsigned int h; 

1639 

1640 for (h = 0; h < MAX HWIFS; ++h) { 

1641 ide hwif t *hwif = &ide hwifs[h]: 

1642 if (hwif->present && major == hwif->major) { 

1643 unsigned unit = DEVICE NR(i rdev); 

1644 if (unit < MAX DRIVES) { 

1645 ide drive t *drive = &hwif->drives[unit]: 

1646 #if 0 

1647 if ((drive present) && (drive—^part[minor].nr sects)) 

1648 Helse 

1649 if (drive->present) 

1650 Hendif 

1651 return drive; 

1652 } 

1653 break; 

1654 } 

1655 } 

1656 return NULL; 

1657  ] 


内 核 中 有 个 数组 ide, hwifs[ ]， 数 组 的 每 个 元 素 者 是 一 个 ide hwif t 数据 结构 ， 代 表 着 系统 中 的 一 
个 可 能 的 IDE 接口 〈 本 节 后 面 会 给 出 这 个 数据 结构 的 定义 )。 系 统 初 始 化 时 如 果 检 测 到 “个 IDE 接口 ， 
就 把 相应 表 项 中 的 present 字段 设置 成 1。 同 时 ， 这 种 数据 结构 中 义 有 个 ide drive t 结构 数组 drives[ ]。 
初始 化 时 如 果 检 测 到 某 个 接口 上 有 了 磁 枢 相连 ， 就 将 相应 ide, drive t 结构 小 的 present 字段 也 设 成 1， 并 
根据 检测 到 或 从 系统 的 CMOS 芯片 中 恋 到 的 各 项 参数 设置 这 个 数据 结构 。 也 就 是 说 ，ide_ hwif t 数据 
结构 是 对 IDE 接口 的 描述 , 而 ide. drive t 数据 结构 是 对 连接 在 上 共 休 IDE 接口 上 的 “IDE 设备 ”的 描述 。 
例如 ， 如 采 在 系统 的 主 〈primary) IDE 接 门 上 检测 到 有 主 /从 两 个 磁 枫 相连 ， 就 把 这 两 个 伐 盘 的 参数 分 
别 填 入 ide_hwifs[0] 中 的 drives[0] 和 drivestlj， 并 把 它们 的 present 字段 设置 成 1。 再 例如 ， 如 果 在 次 
(secondary)IDE 接口 上 连接 着 一 个 Mitsumi CDROM, 水 就 把 它 的 参数 填 入 ide_hwifs[1] 里 面 的 drives[0]， 
并 日 把 ide_hwifs[1] 中 的 宁 段 major 设置 成 MITSUMI_CDROM_MAJOR。 然 后 ， 当 需要 | 时 ， 就 由 
get_info_ptr( RHEE RESA ide hwifs[ ] 中 搜索 ， 找 到 相应 的 接口 后 再 根据 次 设备 号 找到 连接 在 该 接 
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所 上 的 具体 磁盘 的 ide drive 数据 结构 。 

如 果 get_info_ptr( ) 找 不 到 所 要 求 的 ide drive t. 结构 ， 就 说 明 系 统 中 不 存在 个 应 的 伍 盘 ， 所 以 
ide_open( ) 返 凸 出 错 代码 一 ENXIO， 整 个 open( ) 操 作 也 就 失败 了 。 

在 ide drive t 结构 中 (337 行 ) 有 个 void 指针 driver， 可 以 根据 不 同 的 要 求 指 向 不 同 的 ide driver t 
数据 结构 〔 注 意 ide driver t 和 ide drive t 是 册 种 不 同 的 数据 结构 )。 这 个 指针 在 系统 初始 化 过 程 中 愉 
测 到 IDE 接口 上 的 设备 时 ， 根 据 没 备 的 类 型 而 设置 成 指向 不 同类 型 的 数据 结构 。 对 十 IDE BRE, “ET 
向 一 个 ide driver. t 数据 结构 idedisk_driver。 辣 类 的 数据 结构 还 有 idetape driver. ide cdrom, driver 以 
及 ide_floppy_driver， 分 别 代表 着 可 以 连接 到 IDE 接口 上 :的 不 同类 型 的 设备 。 

如 打道 过 get_info_ptr( ) 找 到 了 所 需 的 ide drive t BSA, BÆ h driver 指针 却 是 NULL, ot 
说 明 初 始 化 时 虽然 检测 到 了 硬 益 的 存在 , 但 是 却 因 某 种 原因 而 未 能 完成 对 设备 以 及 数据 结构 的 初始 化 ， 
所 以 在 ide open( ) 中 调用 ide_driver_module( ) 再 试 一 次 。 

另 一 方面 ， 如 果 内 核 支持 可 安装 模块 ， 那 也 可 能 是 因为 支持 具体 IDE 设备 的 模块 尚未 安装 或 已 被 
拆除 而 引起 , 所 以 试图 根据 其 体 的 设备 类 型 装 入 有 关 的 模块 。fH ide_driver_module( ) 启 动 的 操作 足 异 步 
的 ， 当 前 进程 睡眠 等 待 对 设备 的 操作 完成 (1854 一 1855 行 ) 以 后 再 检查 ide_drive_t 结构 中 的 指针 driver. 
如 果 已 经 变 成 非 0， 就 表示 该 设备 仍旧 与 系统 相连 ， 并 已 经 成 功 地 完成 了 初始化 ， 所 以 可 以 通过 
ide driver t 结构 中 的 函数 指针 open 启动 特定 设备 的 打开 文件 操作 了 。 否 则 , 要 是 ide_drive 结构 中 的 
指针 driver 仍 是 NULL， 那 就 无 法 继续 而 失败 了 。 

如 上 所 述 ，IDE BEALE ide, driver 1 数据 结构 是 idedisk_driver， 其 定义 见 ide_disk.c: 


711 /* 

112 * IDE subdriver functions, registered with ide.c 
713 */ 

714 static ide driver t idedisk driver = 1 

715 "ide-disk^, /* name */ 

716 IDEDISK VERSION, /* version */ 

717 ide disk, /* media */ 

718 0, /* busy */ 

719 l, /* supports dma */ 

720 0, /* supports dsc overlap */ 
721 NULL, /* cleanup */ 

122 do rw disk, /* do request */ 

123 NULL, /* end request */ 

724 NULL, /* ioctl */ 

725 idedisk open, /* open */ 

726 idedisk release, /* release */ 

721 idedisk media change,  /* media change */ 
728 idedisk revalidate, /* revalidate */ 

129 idedisk pre reset, /* pre reset */ 

130 idedisk capacity, /* capacity */ 

731 idedisk special, /* special */ 

132 idedisk proc /* proc */ 

733 E 
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所 以 通过 其 指针 open 调用 的 函数 (18$8 行 ) 为 idedisk_open( )， 其 代码 也 在 ide_disk.c 中 ， 


[sys_open( ) > filp open( ) > dentry_open( ) > blkdev open( ) > ide_open( ) > idedisk_open( )] 


478 static int idedisk open (struct inode *inode, struct file *filp, ide drive t *drive) 
419 d 
480 MOD INC USE COUNT; 
481 if (drive-^removable && drive->usage == 1) { 
482 check disk change (inode->i_rdev) ; 
483 /* 
484 * Ignore the return code from door_lock, 
485 * since the open( ) has already succeeded 
486 * and the door iock is irrelevant at this point 
481 */ 
488 if (drive—>doorlocking && 
ide wait cmd(drive, WIN DOORLOCK, 0, 0, 0, NULL)) 
489 drive->doorlocking = 0; 
490 } 
491 return 0; 
492} 


大 部 分 IDE WEARS) ERA ATRIA, PE SRE SR RIERA BR. (EK 
并 不 意味 着 从 总 体 上 、 从 结构 上 说 这 一 步 是 多 余 的 。 例 如 ， 对 于 同属 IDE 设备 的 CDROM， 相 应 的 函 
数 为 ide_cdrom_open( )， 那 就 是 实 实 仕 在 有 事情 要 做 的 。 

从 ide open( ) 正 常 返回 ， 并 且 逐 层 返回 到 dentry_open( ) 中 ， 整 个 打开 块 设备 文件 的 操作 就 基本 完 
成 了 。 回顾 一 下 这 整个 过 程 ， 就 是 从 抽象 的 vfs 层 文 件 出 发 ， 逐 层 加 以 其 体 化 ， 找 到 相应 的 数据 结构 并 
把 这 些 数 据 结构 联系 在 一 起 ， 层 层 打 通关 首 的 过 程 。 

(1) file operations 结构 使 vfs 县 体 化 成 了 特定 的 文件 系统 或 文件 类 型 〈 块 设备 文件 )。 

(2) block device 数据 结构 使 代表 着 抽象 意义 上 的 文件 的 inode 结构 具体 化 成 了 “ 块 没 备 ”。 

(3) block device operations 结构 使 “ 块 设备 文件 ”操作 进 cb HARI "IDE 设备 ”操作 。 

(4) ide drive t 结构 将 笼统 的 “IDE 设备 ”具体 化 成 了 特定 种 类 的 IDE 设备 。 

(5) ide driver t 结构 将 某 种 IDE 设备 的 操作 具体 化 成 对 特定 IDE 硬盘 的 操作 。 

我 们 以 前 讲 过 ， 打 开 文 件 的 实质 就 是 使 “个 进程 与 文件 所 代表 的 对 象 建立 起 连接 。 上 述 逐 层 具体 
化 的 过 程 实际 上 就 是 偿 站 选择 前 进 方向 ， 直 全 打通 到 达 目 标的 道路 。 这 个 过 程 一 经 完成 ， 就 为 进一步 
的 文件 操作 和 做 好 了 准备 。 读 者 也 许 会 问 ， 对 普通 义 件 的 访问 最 终 也 要 小 实 到 具体 的 块 设备 上 ， 但 是 为 
什么 在 那里 就 不 需要 打开 具体 的 块 设备 文件 呢 ? 事实 上 ， 当 把 一 个 块 设备 安装 到 文件 系统 中 去 时 ， 也 
已 经 走 过 了 类 似 的 路 程 ， 在 文件 系统 中 的 安装 点 与 具体 块 设备 之 问 建 立 起 了 连接 ， 只 不 过 这 种 连接 并 
不 是 建立 在 其 个 特定 的 进程 与 设备 之 问 ， 并 没有 为 之 创建 起 file 结构 即 文 件 操作 的 上 下 文 而 已 。 读 者 如 
果 回 过 去 看 一 下 上 册 第 5 章 “ 文 件 系统 的 安装 与 拆卸 ”一 节 ， 惑 会 发 欧 有些 内 容 已 经 在 埋 里 提 到 过 ， 
只 不 过 那 时 候 我 们 的 注意 力 不 在 块 设备 的 细节 ， 办 而 没有 那么 深入 。 

现在 文件 已 经 打开 ， 我 们 以 系统 调用 read( ) 为 例 来 看 看 对 块 设 备 的 文件 操作 。 我 们 知道 ， 对 于 已 
经 打开 的 块 设备 文件 ,其 file 结构 中 的 file operations 结构 指针 指向 def_blk_fops, 而 从 这 个 结构 中 可 以 
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发 现 其 函数 指针 read 指向 block_read( )， 其 代码 在 fs/block_dev.c rh, 


[sys read( ) > block read( )] 


166 ^ ssize t block read(struct file * filp, char * buf, size t count, 
loff t *ppos) 


167 { 

168 struct inode * inode = filp->f_dentry—>d_ inode; 
169 size_t block; 

170 loff_t offset; 

171 ssize t blocksize; 

172 ssize t blocksize bits, i; 

173 size t blocks, rblocks, left; 

174 int bhrequest, uptodate; 

175 struct buffer head ** bhb, ** bhe; 

176 struct buffer head * buflist{NBUF] ; 

177 struct buffer head * bhreq[NBUF] ; 

178 unsigned int chars; 

179 loff_t size; 

180 kdev_t dev; 

181 ssize_t read; 

182 

183 dev = inode->i_rdev; 

184 blocksize = BLOCK_SIZE; 

185 if (blksize size[MAJOR(dev) | && blksize size[MAJOR (dev) ] [MINOR (dev) }) 
186 blocksize = blksize size[MAJOR (dev) ] [MINOR (dev) ] ; 
187 i = blocksize; 

188 blocksize bits - 0; 

189 while (i != 1) { 

190 blocksize bits*t*; 

191 i >>= 1; 

192 } 

193 

194 offset = *ppos; 

195 if (blk_size [MAJOR (dev) D) 

196 size=(loff_t)blk_size[MAJOR (dev) ] [MINOR (dev) ] «BLOCK STZE BITS; 
197 else 

198 size = (loff t) INT MAX << BLOCK SIZE BITS; 
199 

200 if (offset > size) 

201 left - 0; 

202 /* size - offset might not fit into left, so check explicitly. */ 
203 else if (size - offset > INT MAX) 

204 left = INT MAX; 

205 else 

206 left = size - offset; 

207 if (left > count) 

208 left = count; 
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209 if (left <= 0) 

210 return 0; 

211 read = 0; 

212 block = offset >> blocksize bits; 

213 offset &- blocksize-1l; 

214 size >>= blocksize bits: 

215 rblocks = blocks = (left + offset + hlocksize - 1) >> blocksize bits; 
216 bhb = bhe = buflist; 

217 if (filp->f reada) { 

218 if (blocks < read ahead[MAJOR(dev)] / (blocksize >> 9)) 
219 blocks = read ahead[MAJOR(dev)] / (blocksize >> 9); 

220 if (rblocks > blocks) 

22] blocks = rbiocks; 

222 

223 ] 

224 if (block + blocks > size) { 

225 blocks = size - block; 

226 if (blocks == 0) 

227 return 0; 

228 } 

229 

230 /* We do this in a two stage process. We first try to request 
231 as many blocks as we can, then we wait for the first one to 
232 complete, and then we try to wrap up as many as are actually 
233 done. This routine is rather generic, in that it can be used 
234 in a filesystem by substituting the appropriate function in 
235 for getblk. 

236 

237 This routine is optimized to make maximum use of the various 
238 buffers and caches. */ 

239 

240 do { 

241 bhrequest - 0; 

242 uptodate = 1; 

243 while (blocks) { 

244 —~blocks; 

245 *bhb = getblk(dev, block++, blocksize); 

246 if (kbhb && !buffer uptodate(xbhb)) { 

247 uptodate - 0; 

248 bhreq{bhrequest++] = *bhb; 

249 } 

250 

251 if (++bhb == &buflist [NBUF]) 

252 bhb = buf list: 

253 

254 /* If the block we have on hand is uptodate, go ahead 
255 and complete processing. */ 

256 if (uptodate) 
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251 break; 

258 if (bhb == bhe) 

259 break; 

260 ) 

261 

262 /* Now request them all */ 

263 if (bhrequest) { 

264 ll rw block(READ, bhrequest, bhreq) ; 
265 } 

266 

267 do { /* Finish off all I/O that has actually completed */ 
268 if (kbhe) { 

269 wait_on_buffer (*bhe) : 

270 if (!buffer uptodateCkbhe)) { /* read error? */ 
271 brelse (*bhe) ; 

272 if (++bhe == &buflist [NBUF]) 
273 bhe = buflist; 

274 left = 0; 

275 break; 

276 } 

277 } 

278 if (left < blocksize - offset) 

279 chars = left; 

280 else 

281 chars = blocksize - offset; 

282 *ppos += chars; 

283 left -= chars; 

284 read += chars; 

285 if Ckbhe) { 

286 copy to user(buf, of fset+ (*bhe) ^b data, chars) ; 
287 brelse(*bhe); 

288 buf *- chars; 

289 ) else 1 

290 while (chars— > 0) 

291 put user (0, buf++) ; 

292 } 

293 offset = 0; 

294 if (++bhe == &buflist [NBUF]) 

295 bhe = buflist; 

296 } while (left > 0 && bhe !- bhb && (!*bhe || !buffer_locked (tbhe))) ; 
297 if (bhe == bhb && !blocks) 

298 break; 

299 ) while (left > 0); 

300 

301 /* Release the read-ahead blocks */ 

302 while (bhe != bhb) { 

303 brelse (#bhe) ; 

304 if (++bhe == &buflist[NBUF]) 
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305 bhe = buflist; 
306 ); 

307 if (fread) 

308 return -EIO; 

309 filp-^f reada = 1; 

310 return read; 

311 <i 


读者 对 这 段 代码 也 许 会 感到 似曾相识 ， 实 际 上 它 的 主体 确实 与 读 普通 文件 时 调用 的 函数 
block read full page( ) 十 分 相似 〈 见 上 册 第 $ 章 “ 文 件 的 写 与 读 ” 一 节 )。 和 头 部 分 关 十 记录 块 大 小 、 
关于 预 读 的 计算 和 处 理 等 ， 读 者 在 以 前 都 看 到 过 类 似 的 代码 。 内 核 中 有 一 些 以 块 设备 的 主 设备 号 为 下 
标的 指针 数组 ， 都 是 在 drivers/block/ll rw blk.c 中 定义 的 。 这 些 数组 中 的 等 个 指针 又 指向 另 一 个 以 次 设 
备 号 为 下 标的 数组 ， 这 样 在 逻辑 上 就 等 同 于 - 维 数组 。 但 是 每 个 以 次 设备 号 为 下 标的 数组 的 大 小 却 可 
以 不 同 ， 所 以 比较 节省 空间 。 这 里 (186 行 ) 用 到 的 数组 blksize size[ J[ ] 中 的 内 容 为 各 个 具体 设备 的 记录 
块 大 小 〈 见 “文件 系统 的 安装 与 拆卸 ”而 blk_size[ J[ ] 中 的 内 容 (196 行 ) 则 为 各 项 其 体 设 备 中 含有 1024 
字 节 记录 块 的 个 数 。 所 以 ，size 就 是 具体 设备 的 总 容量 《以 字 节 计 )， 而 left 则 为 该 设备 中 剩 下 末 读 的 
字 节 数 (206 行 )，208 行 又 进一步 将 其 调整 成 本 次 读 操 作 剩 下 未 读 的 字 节 数 。212 行 根据 位 移 计 算出 起 
始 块 号 , 然后 213 行 把 整个 设备 内 的 位 移 调 整 为 记录 块 内 的 位 移 , 215 行 又 计算 出 本 次 读 操作 中 此 读 的 
块 数 。 最 后 ， 再 基于 预 读 的 考虑 和 设备 的 总 容量 ， 再 对 本 次 操作 中 要 读 出 的 记录 块 数 blocks 作出 调整 。 

接 者 就 是 针对 本 次 读 文 件 操作 中 要 读 出 的 等 个 记录 块 的 do_while HIT. RA getblk( ) 根 据 设备 
号 与 记录 块 号 的 杂凑 值 试 图 从 相应 的 杂凑 表 队 列 中 找到 该 记录 块 的 缓冲 区 。 如 果 找 不 到 ， 就 为 之 分 配 
一 个 缓冲 区 并 将 其 指针 填 入 -个 buffer head 结构 指针 数组 bhreq[ L 准备 从 设备 上 读 入 这 个 记录 块 。 我 
们 已 经 在 “文件 的 号 与 读 ” 一 节 中 读 过 这 个 冰 数 的 代码 ， 这 里 不 再 重复 ， 读 者 不 妨 回 过 去 重 温 … 下 。 
这 个 函数 根据 日 标 设备 的 设备 号 和 设备 上 的 逻辑 记录 块 号 ， 先 在 记录 块 的 伏 凑 表 队 列 中 寺 找 ， 如 果 找 
到 就 简单 了 ， 不 用 从 设备 上 读 入 了 。 否 则 就 此 为 乙 分 配 一 个 空闲 的 buffer. head 数据 结构 连同 大 小 相符 
的 缓冲 区 (实际 上 是 缓 六 页面 的 一 部 分 )。 

在 “文件 的 写 和 读 ” 一 节 中 我 们 讲 过 ， 文 什 的 内 容 在 内 存 中 既 按 记录 块 缓冲 ， 又 按 页 面 缓冲 。 文 
件 的 inode 结构 中 维持 着 一 个 缓冲 页 面 队列 ， 当 需要 读 入 新 的 页 面 时 就 通过 create_page_buffers( ) 分 配 
一 个 存储 页 面 ， 再 把 这 个 页 面 划 分 成 若干 绥 冲 区 ， 各 自 相 当 于 一 个 记录 块 ， 同 时 分 配 相 应 数量 的 
buffer head 数据 结构 ， 并 使 它们 指 回 这 些 缓冲 区 。 每 个 缓冲 区 部 有 个 buffer head 数据 结构 ， 定 义 丁 
include/linux/fs.h: 


209 /* 

210 * Try to keep the most commonly used fields in single cache lines (16 
211 * bytes) to improve performance. This ordering should be 

212 * particularly beneficial on 32-bit processors. 

213 * 

214 * We use the first 16 bytes for the data which is used in searches 
215 * over the block hash lists (ie. getblk( ) and friends). 

216 * 

217 * The second 16 bytes we use for lru buffer scans, as used by 

218 * sync buffers( ) and refill freelist( ). -- sct 
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219 
220 
221 
222 
223 
224 
225 
226 
221 
228 
229 
230 
231 
232 
233 
234 
235 
236 
231 
238 
239 
240 
241 
242 
243 
244 
245 
246 
247 
248 


249 


*/ 
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struct buffer head [ 


i. 


/* First cache line: */ 
struct buffer head *b next; /* Hash queue list */ 


unsigned long b blocknr; /* block number */ 

unsigned short b size; /* block size */ 

unsigned short b list; /* List that this buffer appears */ 
kdev t b dev; /* device (B FREE - free) */ 

atomic t b. count ; /* users using this block */ 

kdev t b rdev; /* Real device */ 

unsigned long b state; /* buffer state bitmap (see above) */ 


unsigned long b flushtime; /* Time when (dirty) buffer should be written */ 


struct buffer head *b next free;/* lru/free list linkage */ 

struct buffer head *b prev free;/* doubly linked list of buffers */ 

struct buffer head *b this pago;/* circular list of buffers in one page */ 
struct buffer head *b reqnext; /* request queue */ 


struct buffer head **b pprev; /* doubly linked list of hash-queue */ 


char * b data; /* pointer to data block (512 byte) */ 
struct page *b page; /* the page this bh is mapped to */ 

void (*b end io) (struct buffer head *bh, int uptodate); /* I/O completion */ 
void *b privale; /* reserved for b end io */ 

unsigned long b rsector; /* Real buffer location on disk */ 


wait queue head t b wait; 


struct inode * b inode; 
struct list head b inode buffers; 
/* doubly linked list of inode dirty buffers */ 


结构 中 的 指针 b data 指向 真正 的 “缓冲 区 ”， 即 相应 内 存 页 面 中 的 一 部 分 。 每 个 缓冲 区 通过 其 
buffer head 数据 结构 链 入 到 若 十 队列 中 : 


(1) 
(2) 


(3) 


(4) 


通过 指针 b next 和 双重 指针 b. pprev 链 入 一 个 单 链 杂 读 队 列 ; 

通过 b next free 和 b. prev. free 链 入 一 个 双 链 的 LRU 队列 或 空闲 队列 ， 字 段 b_list 则 说 明日 
前 缓冲 区 在 哪 一 个 LRU 队列 中 ; 

通过 指针 b this page 将 属于 同一 页 面 的 缓冲 区 链 在 起 ， 并 通过 指针 b page 指向 所 属 负 向 
的 page 数据 结构 ; 

通过 队列 汰 b_inode_buftfers 链 入 所 属 文件 的 inode 数据 结构 ,并 通过 指针 b_inode 指 问 该 inode 
数据 结构 。 


此 外 ,结构 中 的 b_dev 为 月 标 设备 的 设备 号 ; 这 个 字段 是 在 通过 getblk( ) 分 配 缓冲 区 时 根据 调用 参 
数 设置 的 ， 从 block_read( ) 的 代码 (183 和 245 行 ) 可 以 看 出 这 个 设备 号 米 日 inode ZMH RH) i rdev. AB 
就 是 inode 结构 所 代表 文件 所 在 的 设备 ; 当 所 代表 的 文件 为 块 设备 文件 时 ， 那 就 是 目标 设备 的 设备 号 。 
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有 时 候 日 标 设备 只 是 个 迪 辑 设备 ， 最 后 虎 落 实 到 男 一 个 设备 上 ， 此 时 川 舅 一 个 字段 b_rdev 用 于 实际 设 
备 的 设备 号 。 

对 普通 文件 而 言 ， 在 文件 层 上 的 操作 着 眼 填 页面。 相 比 之 下 ， 对 快 设备 文件 的 访问 则 盲 接 就 跟 组 
冲 区 打 父 道 , 而 跳 过 了 页 面 这 一 层 。 所 以 直接 就 通过 getblk( ) 搜 索 或 分 配 已 经 有 了 缓冲 区 的 buffer head 
数据 结构 。 相 比 之 下 ，getblk( ) 是 个 比较 低层 的 函数 ， 主 要 用 于 块 设备 上 为 文件 系统 的 组 织 和 管理 所 需 
的 记录 块 ， 即 所 谓 “meta data”， 也 可 以 说 是 供 文件 系统 “内 部 使 用 ”。 例 如 ， 在 对 关 道 文件 的 读 写 
中 ， 如 果 文 件 比 较 大 而 需要 间接 映射 ， 那 就 需要 找到 用 于 间接 映射 表 的 记录 块 ， 这 就 要 调用 getblk( ) 
了 《上 见 “ 文 件 的 写 和 读 ” 一 节 中 ext2_alloc_branch( ) 的 代码 》。 又 如 ， 在 path, walk( ) 中 要 读 入 一 个 目 
录 ， 即 与 一 个 目 东 节点 相 联 系 的 沁 湛 块 时 ， 也 要 调用 getblk( )。 这 些 记录 块 在 逻辑 上 都 不 属于 任何 一 个 
普通 文件 的 内 容 ， 所 以 相应 的 存储 页 面 不 持 入 任何 inode 结构 中 的 缓冲 页 面 队列 。 

回 到 block read( ) 的 代 舍 中 ， 看 -下 调用 getblk()IN (245 行 ) 使 用 的 参数 ， 就 可 以 发 现 ， 作 为 设备 上 
逻辑 块 号 的 block 正 是 前 面 通过 线性 映射 得 到 的 文件 内 逻辑 块 号 。 也 就 是 说 二 者 是 相同 的 。 然 而 ， 对 于 
普通 文件 ， 从 文件 内 逻辑 快 号 到 设备 上 网 辑 块 号 的 映射 却 是 相当 复杂 的 。 这 正 是 块 设备 文件 的 文件 层 
相 比 之 让 显得 很 单薄 、 很 简单 的 根本 原 央 。 

从 getblk( ) 返 回 旬 block read( ) 以 后 ， 就 可 以 知道 忠 否 真 的 需要 从 块 设备 上 读 入 某 个 记录 块 了 。 但 
是 ， 每 次 只 从 块 设备 上 读 入 个 记录 块 是 很 不 经 济 的 。 块 设备 通常 是 磁盘 设备 ， 它 的 介质 在 旋转 ， 并 
且 划 分 成 “ 柱 耐 ”， 在 读 出 之 前 要 先 将 磁头 定位 。 由 于 块 设备 的 这 些 特 性 ， 成 片 地 读 出 逻辑 上 连续 或 
邻近 的 记录 块 比分 次 读 出 个 别 的 记录 块 有 效 得 多 。 所 以 ，block_read( ) 通 过 数组 bhreq[ ] 积 累 起 成 片 读 
入 请 求 ， 具 体 的 办 法 是 : 

(1) ”如 凡 下 一 个 记录 块 ， 即 本 次 do-while 循环 中 的 第 … 个 记录 块 ， 不 需要 从 设备 上 读 入 ， 者 么 这 

个 while 循环 马上 就 结束 了 《257 行 ) ， 此 时 bhrequest 为 0， 所 以 跷 过 ]1_rw_block( ) 不 从 设 
BLIA. RH buflist[ ] 用 来 收集 和 积累 所 需 的 记录 块 缓冲 区 ( 见 216 行 和 245 行 ), 其 中 有些 
不 需要 从 没 备 上 读 入 (如 果 246 行 的 条 件 能 满足 )， 有 些 则 需要 从 设备 上 读 入 。 

D ”有 反之， 如果 本 次 do-while 循 坏 中 的 第 个 记录 块 需要 从 设备 上 读 入 ， 那 就 要 通过 bhreq[ 18! 
RERA ENZA ERK, 但 不 超过 数组 buflist[ ] 的 大 小 。 第 243 fT 45 260 行 的 while 循环 的 作用 ， 
就 是 在 数组 buflist[ ] 中 积 器 起 需要 从 快 设备 起 入 的 记录 块 缓 判 KK ， 同 时 在 bhreq[ ] 中 积累 起 成 
片 的 读 入 请 求 ， 直 至 把 buflistf ] 填 满 或 者 blocks BRT 0 为 止 。 对 数组 buflist[ ] 是 按 循环 缓 
冲 区 的 方式 使 用 的 ( 见 251—252 行 以 及 258—259 FF), RERA 243 行 的 while 循环 时 bhb 
和 bhe 相同 ， 开 始 循 坏 以 后 ， 当 . :者 再 次 机 同时， 就 说 明 buftist[ ] 中 已 经 填 满 了 (258 行 )。 积 
毗 了 成 片 的 记录 块 缓冲 区 以 后 ， 就 通过 ]L_rw_block( ) 启 动 块 没 备 的 成 片 读 入 。 数 组 bhreq[ J 
的 大 小 与 buflist[ 1 相同 ， 在 最 环 的 情况 下 所 有 的 缓 痢 必 都 需要 从 设备 上 读 入 。 但 也 可 能 有 几 
个 缓冲 区 不 需要 读 入 ， 从 而 不 出 现在 bhreqf ] 中 。 

Q) ”然后 , 道 过 AJZ do_while 循环 (267 行 ) 处 理 butlist[ ] 中 积累 起 的 下 一 片 缓冲 区 ,处理 完 以 
后 又 回 到 外 层 do-while 循 坏 的 开头 (240 行 )， 直 至 全 部 完成 。 

至 此 ， 对 块 设备 文件 和 对 普通 文件 的 读 操 作 终 十 殊途同归 ， 都 归结 成 了 对 1L_rw_block( ) 的 调用 ， 

这 才 真 下 进入 了 设备 驱动 层 。 顾 名 电 义 ，1Lrw_block( (EH LE "ER EE. 

类 似 地 ， 对 块 设备 的 写 操作 block_write( ) 最 终 也 是 对 11_rw_block( ) 的 调用 。 不 过 大 设备 的 写 操 作 
HVT RICA Be LEAF att, MEME WU EE SIZE. FRA HE block_write( )8 463 RIS 
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在 “文件 的 写 和 读 ” 一 节 中 ， 读 者 已经 看 到 对 普通 文件 的 写 操作 并 不 直接 启动 块 设备 的 写 操作 ， 
而 是 在 改变 了 记录 块 缓冲 区 的 内 容 后 就 将 其 提交 给 一 个 内 核 线程 kflushd (其 执行 程序 为 bdflush( )) 。 
这 个 线程 平时 都 在 睡眠 。 一 电 需 要 “冲刷 ” 钊 块 设备 上 的 页 面积 味 到 定 的 数量 (以 及 在 其 他 - 些 条 
(ER) 时 就 将 它 唤 醒 ， 使 它 执行 :个 冰 数 flush_dirty_buffers( )。 可 想 而 知 ，flush_dirty_buffers( ) 也 调用 
Il rw. block( ABS AAR ESE. ek Be flush dirty. buffers( ) 的 代码 在 文件 buffer.c P: 


[bdflush( ) > flush, dirty. buffers( )] 


2537 /* This is the only function that deals with flushing async writes 
2538 to disk. 


2539 NOTENOTENOTENOTE: we only need to browse the DIRTY lru list 
2540 as all dirty buffers lives only in the DIRTY lru list. 
2541 As we never browse the LOCKED and CLEAN iru lists they are infact 
2542 completly useless. */ 

2543 static int flush dirty buffers (int check flushtimo) 

2544 { 

2545 struct buffer head * bh, *next; 

2546 int flushed = 0, i; 

2547 

2548 restart: 

2549 spin lock(&lru list lock): 

2550 bh = lru list[BUF DTRTY]; 

2551 if (lbh) 

2552 goto out unlock; 

2553 for (i = nr buffers typelBUT DIRTY]; i-- > 0; bh = next) { 
2554 next = bh->b next free; 

2595 

2556 if (!buffer dirty (bhb)) | 

2557 | refile buffer (bh) ; 

2558 continue; 

2559 ) 

2560 if (buffer locked(bh)) 

2561 continue; 

2562 

2563 if (check flushtimo) 1 

2564 /* The dirty lru list is chronologically ordered so 
2565 if the current bh is not yet timed out, 

2566 then also all the following bhs 

2567 will be too young. */ 

2568 if (Lime before(jiffies, bh->b flushtime)) 

2569 golo out unlock; 

2570 } else { 

2571 if (++flushed > bdf_prm. b_un. ndirty) 

2572 goto out_unlock; 

2573 } 
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2574 

2575 /* OK, now we are committed to write it out. */ 
2576 atomic inc(&bh-5b count); 
2571 spin unlock(&lru list lock); 
2578 ll rw block(WRITE, 1, &bh); 
2579 atomic dec(&bh-5b count); 
2580 

2581 if (current-^need resched) 
2582 Schedule( ) ; 

2583 goto restart; 

2584 ] 

2585 out uniock: 

2586 spin unlock(&lru list lock); 
2587 

2588 return flushed; 

2589  ] 


系统 中 有 个 缓冲 区 队列 的 数组 Iru_list[ ]， 这 个 数组 以 缓冲 区 的 类 型 为 下 标 ， 所 以 
lru_list[TBUF_DIRTY] 就 是 其 中 己 经 “ 脏 ” 了 的 缓冲 区 的 队列 。 除 此 以 外 ， 数 组 中 还 有 BUF CLEAN. 
BUF LOCKED. BUF PROTECTED 等 队 州 。 所 有 的 绥 冲 区 都 按 LRU， 即 最 后 一 次 受到 访问 的 时 间 先 
后 排 在 其 中 的 某 个 队列 中 。 功 一 个 数组 nr. buffers typet ] 与 之 对 应 ， 记 录 着 每 个 队列 的 大 小 。 这 个 函数 
扫描 胜 缓 冲 区 队列 ， 依 次 考察 队列 中 的 页 而 。 如 昌 一 个 页 而 虽然 在 BUF_DIRTY 队列 中 ， 但 是 实际 上 
己 经 不 由 是 “ 脏 ” 的 了 ， 那 就 通过 __refile_buffer( ) 把 它 转移 到 其 他 队列 中 。 如 果 一 个 缓冲 区 已 经 加 了 
锁 就 把 它 跳 过 。 和 否则， 就 调用 1L_rw_block() 把 它 扎 入 设备 ， 写 入 设备 以 后 这 个 缓冲 区 就 变 成 干净 的 了 。 
不 过 ， 这 种 操作 不 一 定 是 对 队列 中 所 有 缓冲 区 的 ， 如 果 参 数 check_flushtime JË 0， 则 表示 仅 对 已 经 超 
时 的 缓冲 区 进行 处 理 。 由 寺 队 列 中 所 有 的 缓冲 区 都 是 按 “ 年 龄 ”排列 的 ， 所 以 在 碰 到 第 个 尚 木 超 时 
的 缓冲 区 时 循环 就 结束 了 。 还 有 ， 由 于 这 整个 过 程 可 能 需要 较 长 的 时 间 ， 也 不 一 定 是 在 系统 调用 中 执 
行 ， 所 以 在 每 次 调用 IL rw. block ) 以 后 都 要 怜 查 是 否 需 要 调度 (通常 部 是 从 系统 空间 返回 到 用 户 空间 的 
前 乡 才 检查 ), BOR i BE) AA schedule( ) 加 以 调度 。 以 后 当 再 次 被 调度 运行 时 则 回 到 restart 处 (2548 
行 ) 重 新 扫描 整个 队列 ， 因 为 情况 可 能 已 经 改变 。 

此 外 ， 系 统 中 还 有 一 个 内 核 线程 kupdate( )， 它 管 的 事 更 宽 ， 包 括 超级 块 的 同步 、 索 引 节点 的 同步 ， 
也 包括 缓冲 区 的 同步 《 即 冲 而 )， 还 包括 对 tq disk 任务 队列 〈 见 第 3 章 ) 的 执行 。 它 也 通过 
flush_dirty_buffers( ) 冲 刷 内 容 已 经 改变 的 缓冲 区 ， 所 以 最 终 也 是 调用 11 rw. block( )。 

由 此 可 见 ， 无 论 是 对 兽 通 文件 的 读 / 写 ， 还 是 对 块 设备 文件 的 读 / 号 ， 最 终 都 是 通过 d rw block() 
完成 的 。 与 这 个 函数 并 立 的 还 有 山 rw_block_locked( )， 这 两 个 函数 的 代 但 在 drivers/block/ll rw. blk.c 
中 。 这 里 要 再 次 强调 ， 对 UL_rw_block( ) 的 调用 路 径 是 比较 多 的 ， 我 们 随同 代码 列 出 的 只 是 其 中 之 一 。 


[sys read( ) > block read( ) > 1l rw. block( )] 


987 [4% 

988 * |l rw block: low-level access to block devices 

989 * @rw: whether to %READ or “WRITE or maybe *READA (readahead) 
990 * @nr: number of &struct buffer_heads in the array 
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991 * @bhs: array of pointers to &struct bufler head 

992 * 

993 * ll] rw block( ) takes an array of pointers to &struct buffer heads, 
994 * and requests an I/0 operation on them, either a %READ or a "WRITE. 
995 * The third %READA option is described in the documentation for 

996 * generic make request( ) which 11 rw block( ) calls. 

997 * 

998 * This function provides extra functionality that is not in 

999 * generic make request( ) that is relevant to buffers in the buffer 
1000 * cache or page cache. In particular it drops any buffer that it 
1001 * cannot get a lock on (with the BH Lock state bit), any buffer that 
1002 * appears to be clean when doing a write request, and any buffer that 
1003 * appears to be up-to-date when doing read request. Further it marks 
1004 * as clean buffers that are processed for writing (the buffer cache 
1005 * wont assume that they are actually clean until the buffer gets 

1006 * unlocked). 

1007 * 

1008 * 1l rw block sets b end io to simple completion handler that marks 
1009 * the buffer up-to-date (if approriate), unlocks the buffer and wakes 
1010 * any waiters. As client that needs a more interesting completion 
1011 * routine should call submit bh( ) (or generic make request( )) 

1012 * directly. 

1013 * 

1014 * Caveat: 

1015 * All of the buffers must be for the same device, and must also be 
1016 * of the current approved size for the device. x/ 

1017 


1018 void ll rw block(int rw, int nr, struct buffer head * bhs[ ]) 
1019 { 


1020 unsigned int major; 

1021 int correct size; 

1022 int i; 

1023 

1024 major = MAJOR (bhs[0]~>b_dev) ; 

1025 

1026 /* Determine correct block size for this device. */ 
1027 correct size = BLOCK SIZE; 

1028 if (blksize size[major]) { 

1029 js blksize sizelmajor] [MINOR (bhs[0]->b dev) J; 
1030 if (i) 

1031 correct size = i; 

1032 } 

1033 

1034 /* Verify requested block sizes. */ 

1035 for (i = 0; i < nr; itt) { 

1036 struct buffer_head *bh; 

1037 bh = bhsLil; 

1038 if (bh->b size != correct size) | 
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1039 printk(KERN NOTICE ^11 rw block: device 9s: ^ 
1040 "only %d-char blocks implemented (%u) \n”, 
1041 kdevname (bhs[0]->b_ dev), 

1042 correct size, bh-b size); 

1043 goto sorry; 

1044 } 

1045 } 

1046 

1047 if ((rw & WRITE) && is_read_only(bhs[0]->b dev)) { 
1048 printk (KERN NOTICE "Can't write to read-only device %s\n”, 
1049 kdevname (bhs[0]-^b dev)); 

1050 goto sorry; 

1051 } 

1052 

1053 for (i = 0; i € nr; i++) 1 

1054 struct buffer_head *bh: 

1055 bh = bhs[i]; 

1056 

1057 /* Only one thread can actually submit the I/O. */ 
1058 if (test and set bit(BH Lock, &bh—b state)) 

1059 continue; 

1060 

1061 /* We have the buffer lock */ 

1062 bh-^»b end io = end buffer io. sync; 

1063 

1064 switch(rw) { 

1065 case WRITE: 

1066 if (latomic set buffer clean(bh)) 

1067 /* Hmmph! Nothing to write */ 

1068 golo end io; 

1069  . mark buffer clean (bh); 

1070 break; 

1071 

1072 case READA: 

1073 case READ: 

1074 if (buffer uptodate (bh) ) 

1075 /* Hmmph! Already have it */ 

1076 goto end io; 

1077 break; 

1078 default: 

1079 BUG( ) ; 

1080 end io: 

1081 bh-»b end io(bh, test bit(BH Uptodate, &bh->b_state)) - 
1082 continue; 

1083 ] 

1084 

1085 submit bh(rw, bh); 

1086 } 
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1087 
1088 
1089 
1090 
1091 
1092 
1093 


参 


return; 


sorry: 


/* Make sure we don't get infinite dirty retries.. */ 
for (i= 0; i < nr; i++) 
mark buffer clean(bhs[i]); 


数 bhs[ ] 为 一 个 缓冲 区 头 部 buffer. head HRE ICT, BART AYE NEL ABH TRI TAA BS C 


/ 写 的 记录 块 的 buffer_head 数据 结构 : 参数 nr 则 为 该 数组 的 大 小 。 数 组 中 指定 要 读 / 写 的 记录 块 个 必 蚌 


连续 的 (不 过 通常 是 邻近 的 )， 但 是 必须 在 同 设备 上 。 参 数 rw RUD T EHET ERE 


每 种 块 设备 就 好 像 是 个 服务 器 ， 都 有 :个 操作 请 求 队列 ， 队 列 的 头 部 是 一 个 request queue t 数据 
结构 ， 有 关 的 定义 风 include/linux/bikdev.h: 


74 
75 
76 
TT 
78 
79 
80 
81 
82 
83 
84 
85 
86 
87 
88 
89 
90 
91 
92 
93 
94 
95 
96 
97 
98 
99 
100 
101 
102 
103 
104 
105 


struct request queue 


/* 

* the queue request freelist, one for reads and one for writes 
*/ 

struct list head request freelist[2]; 

/* 


* Together with qucuc_head for cacheline sharing 
*/ 
struct list head queue head; 
elevator t elevator; 
request fn proc request fn; 
merge request fn back merge fn; 
merge request fn front mergo fh; 


* 
* 
* 
morge requests fn * merge requests fn; 
make request fn * make request fn; 

* 


plug device fn plug device fn; 


/* 


* The queue owner gets to use this for whatever they like 


* ]1 rw blk doesn' t touch it 
*/ 


void * queuedata; 


/* 
* This is used to remove the plug when tq disk runs. 
*/ 


struct lg struct plug tq; 


/水 


* Boolean that indicates whether this queue is plugged or not. 
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106 */ 

107 char plugged; 

108 

109 /* 

110 * Boolean that indicates whether current_request is active or 
111 * not. 

112 */ 

113 char head active; 

114 

115 /* 

116 * Is meant to protect the queue in the future instead of 
117 * io request lock 

118 */ 

119 spinlock t request lock; 

120 

121 /* 

122 * Tasks wait here for free request 

123 */ 

124 wait queue head t ^ wait for request; 

125. Jj; 


11 typedef struct request queue request queue t; 


数据 结构 中 各 个 字段 的 作用 和 意义 随 着 代码 的 进展 会 变 得 清楚 起 来 。 结 构 中 从 request fn. 到 
plug device fn 都 是 一 些 函数 指针 ， 例 如 第 87 行 的 意思 是 说 : request fn 是 一 个 指针 ， 指 向 类 型 为 
request fn proc KIX}. ifj request. fn proc 则 通过 #typedef 定义 为 一 种 函数 〈 见 blkdevh ): 


63 typedef void (request fn proc) (request queue t *q); 


其 余 的 函数 指针 也 与 此 类 似 ， 这 些 指 针 〈 连 同 其 他 字段 ) IAE AHR d UG I BF 
需要 对 -一个 块 设备 进行 操作 时 ， 就 为 之 设置 好 一 个 数据 结构 ( 见 后 ) 并 将 其 挂 入 相应 的 请 求 队列 。 

为 了 把 各 种 块 设备 的 操作 请 求 队列 有 效 地 组 织 起 米 ， 内 核 中 还 设置 了 -个 结构 数组 blk_dev[ ]， 见 
driver/block/ll rw. blk.c: 


72 /* blk dev struct is: 


13 x request fn 
74 * -c*current request 
75 */ 


76 struct blk dev struct blk dev [MAX BLKDEV]; 
/* initialized by blk dev init( ) */ 


这 个 数组 以 主 设备 号 为 下 慰 ， 数 组 中 的 每 个 元 素 都 是 ' 个 blk dev struct 数据 结构 ， 其 定义 在 
blkdev.h 中 给 出 : 


127 struct blk dev struct | 
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128 /* 

129 * queue_proc has to be atomic 
130 */ 

131 request_queue t request queue; 
132 queue proc *queue; 

133 void *data; 

134 €}; 


它 的 主体 就 是 〈 操 作 ) 请 求 队列 requestqueue。 上 此外， 结构 中 还 有 一 个 函数 指针 queue， 当 这 个 
指针 为 非 0 时 就 调用 这 个 函数 来 找到 具体 设备 的 请 求 队列 ， 这 是 考虑 具有 同一 主 设备 号 的 多 项 设备 而 
设 的 。 这 个 指针 也 在 设备 初始 化 时 设置 好 , 通常 当 该 指针 非 0 时 还 要 使 用 数据 结构 中 的 田 一 个 指针 data 
来 提供 辅助 性 的 信息 ， 以 帮助 该 函数 找到 特定 设备 的 请 求 队列 。 

进入 frw_block( ) 以 后 ， 先 对 记录 块 人 小 作 一 些 检查 ， 然 后 ， 如 果 是 写 访 问 ， 则 还 要 检查 日 标 设 
SEATS, ARPA HERA ro_bits， 定 义 于 drivers/block/ll rw. blk.c: 


538 static long ro bits[MAX BLKDEV] [8]; 


每 个 设备 在 这 数组 中 都 有 个 标志 位 ， 通 过 系统 调用 iocu( ) 可 以 将 一 个 标志 位 设置 成 1 或 0， 表 示 
相应 设备 为 只 读 或 可 写 ， 而 is_read_only( ) 则 根据 设备 号 检查 这 个 数组 中 的 标志 位 是 否 为 1。 

接 下 去 ， 就 是 通过 1053 行 的 for 循环 依次 处 理 对 各 个 缓冲 区 的 读 写 请 求 了 。 对 于 要 读 写 的 每 个 记 
录 块 ， 首 先 将 其 缓冲 区 加 上 锁 ， 还 要 将 其 buffer head 结构 中 的 两 数 指针 b end io 设置 成 指向 
end buffer io_sync( )。 当 完成 对 给 定 记录 块 的 读 写 时 ， 就 调用 这 个 函数 。 此 外 ， 对 十 待 写 的 缓冲 区 ， 
其 BH_Dirty 标志 位 应 该 是 1, 9m i. mBESMATISS SIG 0, Jp 
__mark_buffer_clean( ) 将 缓冲 区 转移 到 干净 负面 的 LRU 队列 中 '。 反 之 ,对 十 待 读 的 缓冲 区 , 则 其 Uptodate 
标志 位 应 该 是 0， 否则 就 不 需要 读 了 。 每 个 具体 的 设备 就 好 像 是 个 服务 器 ,所 以 最 后 具体 的 读 写 足 通过 
submit, bh( ) 将 读 写 请 求 提交 给 “服务 器 ”完成 的 ， 每 次 一 个 记录 块 ， 其 代码 在 drivers/block/ll rw. blk.c 
m: 





[sys read( ) > block, read( ) > ll. rw. block( ) > submit bh( )] 


939  /** 

940 * submit bh: submit a buffer head to the block device later for 1/0 
941 * @rw: whether to %READ or “WRITE, or mayve to %READA (read ahead) 
942 * @bh: The &struct buffer head which describes the I/O 

943 * 

944 * submit bh( ) is very similar in purpose to generic make request( ), and 
945 * uses that function to do most of the work. 

946 * 

947 * The extra functionality provided by submit bh is to determine 

948 * b rsector from b blocknr and b size, and to set b rdev from b dev. 
949 * This is is appropriate for IO requests that come from tho buffer 
950 * cache and page cache which (currently) always use aligned blocks. 
951 x/ 


952 void submit bh(int rw, struct buffer head * bh) 
. 271. 
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953 { 

954 if (!test bit(BH Lock, &bh—^b state)) 
955 BUG( ) ; 

956 

957 set bit (BILReq, &bh-^b state) ; 

958 

959 /* 

960 * First step, identity mapping © RAID or LVM might 
961 * further remap this. 

962 */ 

963 bh->b_rdev = bh-^b dev; 

964 bh->b_rsector = bh->b blocknr * (bh 5b size?59); 
965 l 

966 generic make request(rw, bh); 

967 

968 switch (rw) | 

969 case WRITE: 

970 kstati.pgpgouttt; 

971 break; 

972 default: 

973 kstat. pgpgint*; 

974 break; 

975 j 

976 } 


对 具体 记录 抉 缓冲 区 的 操作 请 求 必 须 是 独占 的 , 所 以 在 调用 submit_bh( ) 之 前 必须 已经 对 缓冲 区 通 

过 其 BH_LOCK 标志 位 如 了 锁 ( 见 前 面 的 1058 行 )， 这 里 则 通过 检验 该 标志 位 来 加 以 验证 。 进 一 步 ， 由 
-个 进程 提交 的 操作 请 求 未 完成 之 前 , 是 不 允许 其 他 进程 出 米 提 父 对 同一 记录 块 缓冲 区 的 操作 请 求 的 。 
所 以 ， 在 捧 交 对 特定 记录 块 缓 补 区 的 操作 请 求 之 前 ， 还 要 通过 慰 志 位 BH_Req 标志 位 加 锁 。 

WR, BEIER E generic_make_request( )。 对 于 般 的 设备 ， 实 际 的 日 标 设备 bh->b_rdev 就 中 
逻辑 的 日 标 设备 bh->b_dev， 而 设备 上 的 扇 区 叶 bh-»b rsector 则 要 根据 口 标 块 号 bh->b_blocknr 换算 ， 
因为 扇 区 的 大 小 通常 为 512 字 节 ， 而 记录 块 的 大 小 为 1024 字 节 。 值 得 注意 的 十 ， 在 文件 系统 层次 上 这 
里 的 记录 快 号 已 经 是 所 请 “ 物 埋 块 号 ”了 ,但 是 到 了 设备 张 动 层 这 仍 赴 敢 辑 意义 上 的 操作 对 象 ， 出 物 
理 意 义 上 的 对 象 是 肩 区 。 

FX oeneric make. request( ) 的 代 舍 在 drivers/block/llL_rw_blk.c 中 : 


[sys read( ) > block_read( ) > Il. rw. block( ) > submit bh( ) > generic_make_request( )] 


850 /*% 

851 * generic make request: hand a buffer head to it’s device driver for 1/0 
852 * @rw: READ, WRITE, or READA - what sort of 1/0 is desired. 

853 * Gbh: The buffer head describing the location in memory and on the device 
854 * 

855 * generic make request( ) is used to make T/O requests of block 

856 * devices. It is passed a &struct bufler head and a &rw value. The 
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877 
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879 
880 
881 
882 
883 
884 
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886 
887 
888 
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* X X X 0X 0X X X 0X 0X X HK HH KH 0X KF Ke 0X 0X X 0X 0X X X X X 


* 


FBE WAMI 


«READ and “WRITE options are (hopefully) obvious in meaning. 


WREADA value means that a read is required, but that the driver is 
free to fail the request if, for example, it cannot get needed 


resources immediately 


generic make request( ) does not return any status. The 


success/failure status of the request, along with notification of 
completion, is delivered asynchronously through the bh 5b end io 


function described (one day) else where 


The caller of generic make request must make sure that b pago 
b addr, b size are set to describe the memory buffer, that b rdov 


and b rsector are set. to describe the device address, and the 


b end io and optionally b private are set to describe how 


completion notification should be signaled. BH Mapped should also 


be set (to confirm that b dev and b blocknr are valid) 


generic make request and the drivers it calls may use b reqnext, 
and may change b rdev and b rsector. So the values of these fields 
should NOT be depended on after the call to generic make request 


Because of this, the caller should record the device address 


information in b dev and b blocknr. 


Apart from those fields mentioned above, no other fields, and in 
particular, no other flags, are changed by generic make request or 


any lower level drivers. 


*/ 


void generic make request (int rw, struct buffer head * bh) 


{ 


int major = MAJOR (bh->b_rdev) ; 
request queuo t *q; 


if (!bh->b end io) BLG( ); 
if (blk size[major]) { 


unsigned long maxsector = (blk size[{major] |[MINOR(bh->b rdev)] << 1) 


unsigned int sector, count; 


count. = bh->b_size >> 9; 
sector = bh->b_rsector; 


if (maxsector < count | maxsector - count < sector) 
bh->b_state & (1 << BH Lock) | (1 << BH Mapped) 
if (blk_size[major] [MINOR(bh->b_rdev)]) { 


/* This may well happen - the kernel calls bread( ) 


without checking the size of the device 
when mounting a device. */ 
printk (KERN. TNFO 


了 
| 


e. g. , 


- 273. 
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905 "attempt to access beyond end of device\n”); 
906 printk(KERN INFO "*s: rw=%d, want=%d, limit-*dWn^, 
907 kdevname (bh->b_rdev), rw, 

908 (sector + count) >>1, 

909 blk size[ma jor] [MINOR (bh—->b_rdev) ]) ; 

910 } 

911 bh->b_end_io(bh, 0); 

912 return; 

913 } 

914 } 

915 

916 /* 

917 * Resolve the mapping until finished. (drivers are 

918 * still free to implement/resolve their own stacking 

919 * by explicitly returning 0) 

920 */ 

921 /* NOTE: we don't repeat the blk size check for each new device. 
922 * Stacking drivers are expected to know what they are doing. 
923 */ 

924 do | 

925 q = blk get queue(bh-^b rdev); 

926 if (lq) { 

927 printk(KERN ERR 

928 "generic make request: Trying to access nonexistent block-device %s (%ld) \n”, 
929 kdevname (bh-^b rdev), bh->b_rsector) ; 

930 buffer IO error(bh); 

931 break; 

932 } 

933 

934 } 

935 while (qg->make_request_fn(q, rw, bh)); 

936  ] 


如 前 所 述 ， 数 组 blk size[ I ] 中 的 内 容 为 各 项 具体 设备 中 含有 1024 字 节 记录 块 的 个 数 。 这 个 数组 
是 在 drivers/block/ll, rw. blk.c 中 定义 的 ; 


78 /* 

79 * blk size contains the size of all block-devices in units of 1024 byte 
80 * sectors: 

81 * 

82 * blk size[MAJOR] [MINOR] 

83 * 

84 * if {lblk sizelMAJOR]) then no minor size checking is done. 

85 */ 


86 int * blk size[MAX BLKDEV]; 


注意 blk_size[ ] 实 际 上 是 个 int 指针 数组 ， 以 主 设备 号 为 下 标 ， 如 果菜 个 主 设备 号 所 对 应 的 设备 存 
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在 就 指向 个 以 次 设备 号 为 下 标的 int 数组 ， 否 则 就 为 0。 用 这 样 的 方式 实现 “ 稀 压 ”数组 ， 邮 有 很 多 
元 素 为 0 的 数组 ， 可 以 大 大 节省 空间 ， 而 运行 效率 的 下 降 却 并 不 显著 ， 所 以 在 Linux 内 核 中 常常 要 用 
到 。 代 码 中 的 890-914 行 险 查 记 录 块 的 请 区 范围 ， 记 录 块 的 起 点 扇 区 号 为 bh->b_rsector， 扇 区 .的 个 数 等 
于 记录 块 的 大 小 bh->b_size 除 于 512。 如 果 越 出 了 范围 就 通过 printk( AERIS (7 Hos eie diss 
EB. Meis. 

接着 要 根据 设备 号 找到 目标 设备 的 操作 请 求 队列 ， 这 是 由 blk get queue( ) 完 成 的 ， 其 代 但 在 
drivers/block/ll rw. blk.c 中 





[sys read( ) > block read( ) > 1l rw, block( ) > submit bh( ) > generic make request( ) 
> blk get queue( )] 


138 /* 

139 * NOTE: the device-specific queue( ) functions 
140 * have to be atomic! 

141 */ 

142 request queue t *blk get queue (kdev t dev) 
pu. 

144 request queue ft *ret; 

145 unsigned long flags; 

146 

147 spin lock irqsavce(&io request lock, flags); 
148 ret = blk get_queue (dev) ; 

149 spin_unlock_irgrestore(&io request lock, flags); 
150 

151 return rct; 

152. 4 


[sys read( ) > block, read( ) > ll rw. block( ) > submit, bh( ) > generic make request( ) 
»blk get queue() ».. blk get queue( )] 


128 static inline request queue t *  blk get queue(kdev t dev) 


129 { 

130 struct blk dev struci *bdev = blk dev + MAJOR(dev); 
131 

132 if (bdev—>queue) 

133 return bdev->queue (dev) ; 

134 else 

135 return &bik dev [MAJOR (dev) ]. request queue; 
136} 


以 主 设备 号 为 下 标 ， 就 可 以 在 blk_dev[ ] 中 找到 日 标 设备 的 blk_dev_struct 结构 。 对 一 种 设备 第 一 
次 调用 _blk_get_queue( ) 时 ， 要 通过 其 函数 指针 queue 找到 这 种 设备 的 读 写 请 求 队列 ， 找 到 了 以 后 就 
把 它 记录 在 结构 中 的 request queue 字段 ， 以 后 就 简单 了 。 对 于 IDE 人 硬盘， 其 blk_dev_struct 结构 中 的 
函数 指针 queue 在 初始 化 时 设置 成 指向 ide get queue( )， 而 且 其 指针 data 设置 成 指向 代表 着 相应 硬件 
接口 的 ide_hwif-t 数据 结构 。 所 以 ， 对 十 IDE 硬盘 ， 将 会 调用 ide get queue( ) 取 得 其 操作 请 求 队列 ， 
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这 个 函数 的 代 人 得 在 drivers/ide/ide.c 中 : 


[sys read( ) > block read( ) > 1] rw block( ) > submit bh( ) > generic make request ) 
»blk get queue( ) ».. blk get queue() > ide get queue( )] 


1367 /* 

1368 * ide get queue( ) returns the queue which corresponds to a given device 
1369 */ 

1370 request queue t *ide get queue (kdev t dev) 

1371 { 

1372 ide hwif t *hwif = (ide hwiT t *) blk dev [MAJOR (dev) ]. data; 

1373 

1374 return &hwif->drives[DEVICE NR(dev) & 1]. queue; 

1375 ) 


这 里 的 宏 操 作 DEVICE, NR(dev)AA 4& 5 dev PRHE 5, Ain PRA RC, ORE T ik 
设备 与 只 能 取 0 和 1 两 种 值 。 每 种 IDE Dti. Babine IDE RM, MAT ide_hwif_t 数据 结 
构 ， 后 面 我 们 会 看 到 它 的 定义 ， 但 是 这 里 从 代码 中 已 可 看 钊 这 个 结构 中 有 个 drives[ ] 数 组， 对 应 着 可 以 
连接 到 同一 IDE 接口 上 的 同 种 设备 ， 每 个 这 样 的 设备 都 有 个 读 写 请 求 队 列 。 这 是 一 个 request. queue t 
数据 结构 ， 前 面 我 们 已 经 列 出 了 它 的 定义 。 

找到 了 具体 的 队列 以 后 ， 就 要 通过 由 这 个 队列 提供 的 make, request. fn 操作 创建 … 个 读 写 请 求 数据 
结构 ， 并 把 它 挂 入 该 队列 。 企 某 些 情况 下 ， 有 些 迪 辑 上 存在 的 块 设备 可 能 并 没有 博 接 的 对 应 物 ， 而 只 
是 间接 地 映 对 到 其 他 块 设 备 上 。 这 种 仪 在 逻辑 上 存在 的 块 设备 只 是 种 中 间 的 过 渡 层 ， 内 此 要 提供 
个 函数 来 实现 相应 的 映射 或 完成 对 最 终 设 备 的 挑 作 ， 并 在 初始 化 阶段 将 其 拘 作 请 求 队列 结构 中 的 前 数 
指针 make reguest fn 指向 这 个 责 数 。 刻 果 这 个 函数 所 完成 的 上 只 是 从 一 种 设备 伸 另 一 种 设备 的 映 映 ， 就 
返回 一 个 正 整数 ， 使 924~935 行 的 do-while IET Bis i AT RS T Ro EY ETUR E. XU 
返回 0， 从 而 结束 该 do-while 循环 。 举 例 来 说 ， 在 有 容错 要 求 的 系统 中 中 以 在 逻辑 上 疫 立 一 个 “站 靠 
BE”, JP ARSC RCE Eo SRR LE. Se Bas LUE A VT eA aE WHET ai mA 
编写 个 专用 十 这 种 可 靠 硬 松 的 驱动 程序 ， 并 使 该 设备 的 操作 队列 结构 中 的 函数 据 针 make request fn 
指向 这 个 函数 。 当 提交 … 个 读 写 请 求 时 ， 首 先 使 buffer_head 结构 中 的 b_rdev TRGI Ped, dk 
到 第 个 僻 盘 的 谈 写 请 求 队列 ( 见 925 行 ， 注 意 这 里 用 的 是 b_rdev PINKS), FR “OT SRE RR” 
make request fn 中 为 第 个 售 盘 创建 “个 法 写 请 求 ,然后 将 buffer_head 结构 中 的 b. rdev 字段 改 成 指向 
第 二 个 硬盘 ， 并 返回 1。 这 样 ， 就 会 再 执行 一 遍 924--935 行 的 do-while 循环 ， 为 第 二 个 硬盘 也 创建 一 
个 读 写 请 求 ， 但 是 这 一 次 make_request_fn 操作 返回 0， 从 侧 结 束 这 个 do-while HI. FÆ. SpA 
“np seni it” Wik Sie kei Ok SP AES OR. 至 十 我 们 在 本 季 所 关心 的 IDE B, 
必 本 米 就 已经 是 终极 设备 ， 所 以 这 个 函数 返 Im 0。 对 于 普通 的 IDE MBit, Se ee__make_request( ) 
是 完成 提交 操作 请 求 的 主体 ， 适 用 丁 常规 的 (终极 〉 块 设备 。 它 的 主要 任务 就 是 为 数据 绥 冲 区 准备 一 
个 操作 请 求 ， 即 request 数据 结构 ， 并 将 这 个 数据 结构 挂 入 设备 的 操作 请 求 队列 中 。 如 朵 在 此 之 曲 该 队 
列 是 空 的 ， 就 要 启动 设备 的 输入 /输出 操作 。 “五 启 动 以 后 ， 对 整个 队列 的 操作 就 盐 几 中 断 驱 动 的 了 。 
这 个 由 中 断 红 动 的 过 程 一 直上 时 到 队列 中 和 冉 汪 有 等 待 者 操作 的 请 求 时 才 结 束 。 旭 果 在 将 操作 请 求 挂 入 队 
FY ZA BA ae, BR A re a Zao, ME BR Sey AT OR ETT A 
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的 尾部 就 可 以 了 。 但 是 ， 实 际 上 常常 要 进行 某 种 程度 的 优化 。 这 个 函数 所 作 的 优化 之 - ， 是 在 队列 中 
由 后 向 前 搜索 ， 试 图 将 新 的 请 求 与 已 经 在 队列 中 的 其 他 请 求 合并 。 合 并 的 条 件 主要 是 操作 相同 《 同 为 
ERE) 并 且 扇 区 连续 。 有 时 候 ， 两 个 请 求 的 扁 区 相连 续 ， 但 是 缓冲 区 却 不 连续 (分 属 不 同 的 页 面 )， 
此 时 两 个 请 求 仍 能 合并 ， 但 是 形成 两 个 不 连续 的 缓冲 区 “分 段 ”(segment)， 这 是 允许 的 。 不 过 ， 对 于 
每 个 request 结构 中 可 以 容纳 的 分 段 数量 有 个 限制 。 在 request 结构 中 有 个 buffer head 结构 的 队列 ， 所 
谓 合并 就 是 将 多 个 buffer_head 结构 连 在 一 起 成 为 一 个 操作 请 求 。 由 于 这 个 函数 的 代码 较 长 ， 我 们 分 段 
阅读 ， 其 代码 在 drivers/block/ll rw. blk.c 中 : 


[sys read( ) > block read( ) > ll rw. block( ) > submit, bh( ) > generic, make, request( ) 
». make request( )] 


695 static int , make request(request queue t * q, int rw, 


696 struct buffer head * bh) 

697 { 

698 unsigned int sector, count; 

699 int max segments - MAX SEGMENTS; 

700 struct request * req = NULL, *freereq = NULL; 
701 int rw_ahead, max_sectors, el_ret; 

702 struct list head *head; 

703 int latency; 

104 elevator t *elevator = &q-^elevator; 

105 

706 count = bh->b size >> 9; 

TOT sector = bh->b_rsector; 

708 

709 rw ahead = 0; /* normal case; gets changed below for READA */ 
710 switch (rw) { 

711 case READA: 

712 rw ahead = 1; 

713 rw = READ; /* drop into READ */ 

714 case READ: 

715 case WRITE: 

716 break; 

TW default: 

718 BUG( ) ; 

119 goto end io; 

720 } 

721 

722 /* We'd better have a real physical mapping! 
123 Check this bit only if the buffer was dirty and just locked 
724 down by us so at this point flushpage will block and 
725 won't clear the mapped bit under us. */ 
726 if (!buffer_mapped (bh) ) 

727 BUG( ) ; 

128 

729 /* 
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730 * Temporary solution ~ in 2.5 this will be done by the lowlevel 
731 * driver. Create a bounce buffer if the buffer data points into 
132 * high memory - keep the original buffer otherwise. 

733 */ 

734 #if CONFIG HIGHMEM 

735 bh = create_bounce (rw, bh); 

736 #endif 

737 


PAK ERE PPAR BY LL: READ, WRITE 以 及 READA 三 者 之 --。 如 果 是 READA， 即 预 读 ， 则 
将 预 读 标志 rw ahead 设置 成 1， 并 将 操作 种 类 改 成 READ。 记 录 块 的 缓冲 区 必须 属于 某 个 缓冲 南面 ， 
X buffer head 结构 中 的 Mapped 标志 位 应 该 为 1， 所 以 这 里 通过 buffer_mapped( ) 加 以 确认 。 如 果 CPU 
支持 超过 32 位 (4GB) 内 存 空间 (HIGNMEM )， 而 缓冲 区 又 在 高 于 4GB 的 空间 中 ， 就 要 通过 
create bounce( ) 为 其 在 4GB 以 内 建立 -- 个 镜像 ， 而 具体 的 读 气 将 针对 这 个 镜像 进行 ， 完 成 以 后 再 把 其 
内 容 复 制 到 高 十 4GB 的 空间 中 。 这 是 因为 目前 DMA 控制 器 的 寺 址 能 力 都 不 超过 32 位 。 

继续 往 目 看 。 


[sys_read( ) > block_read( ) > ll_rw_block( ) > submit_bh( ) > generic_make_request( ) 
> __make_request( )] 


738 /* look for a free request. */ 


739 /* 

740 * Try to coalesce the new request with old requests 
741 */ 

742 max sectors = get_max_sectors(bh->b_rdev) ; 

743 

744 latency = elevator request latency(elevator, rw); 

745 

746 /* 

TAT * Now we acquire the request spinlock, we have to be mega careful 
748 * not to schedule or do something nonatomic 

749 */ 

750 again: 

751 spin lock irq(&io request lock); 

752 

753 /* 

754 * skip first entry, for devices with active queue head 
755 */ 

756 head = &q-^queue head; 

751 if (q-^head active && !q->plugged) 

758 head = head->next: 

759 

760 if (list_empty(head)) { 

761 q->plug device fn(q, bh->b rdev): /* is atomic */ 
762 goto get rq; 

763 } 
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764 


这 里 调用 了 一 个 函数 elevator_request_latency( ) 计 算出 一 个 数值 latency， 那 是 为 后 面 的 另 一 种 优化 
进行 一 些 准备 ， 我 们 暂时 放 一 下 。 我 们 也 暂时 跳 过 这 里 的 757 一 758 行 。 

如 果 队列 原来 是 空 的 ， 那 就 有 个 启动 VO 操作 的 问题 。 当 然 ，LO 的 启动 要 到 将 第 -个 请 求 挂 入 队 " 
列 中 以 后 才 进 行 。 可 是 由 谁 进行 昵 ? 个 选择 是 由 当前 进程 自己 直接 调用 一 个 函数 来 启动 。 为 一 个 选 
择 是 将 VO 的 启动 作为 一 个 bottom, half 函数 〈 见 第 3 章 )“ 插 入 ”内 核 中 的 ”个 任务 队列 tq_disk。 这 
样 ， 每 当 执 行 这 个 任务 队列 时 ， 就 会 依次 执行 队列 中 等 待 执行 的 所 有 bottom, half 函数 ， 包 括 具体 块 设 
4X VO 的 启动 。 这 里 (76147) 3 SE eg AGRE plug. device fn 调用 个 由 具体 队列 提供 的 函数 ， 这 个 
函数 可 以 决定 是 否 将 队列 插入 tq_disk。 就 IDE 硬盘 而 言 ， 这 个 指针 在 初始 化 时 设置 成 指向 
generic. plug device( ), 它 将 设备 的 操作 请 求 队列 插入 tq. disk 中 。 代 表 着 操作 请 求 BA FILKI request, queue. t 
数据 结构 中 有 -个 成 分 plug_tqg， 是 一 个 ta. struct 结构 ， 就 是 为 链 入 tq. disk 队 刻 而 设 的 。 还 有 一 个 成 分 
piugged， 是 一 -个 标志 ， 当 这 个 标志 为 1 时 就 表示 该 数据 结构 已 经 在 tq disk 队列 中 。 当 执行 任务 队列 
tg disk 时 ,会 通过 队列 中 每 个 tq. struct 结构 时 的 函数 指针 routine 执行 一 个 bottom-half 少数 ,启动 其 体 
BEBE JO。 将 操作 请 求 队列 插入 tq disk 以 后 ， 就 直接 转 到 get rq 标号 处 ， 进 一 步 处 理 将 操作 请 求 加 
入 请 求 队列 的 事 。 但 是 ， 如 果 操 作 请 求 队列 原来 不 是 空 的 话 ， 那 就 要 先 试 试 是 否 能 将 新 的 请 求 与 队列 
中 原 有 的 请 求 合 在 一 起 进行 一 些 优化 。 

继续 往 下 看 __make_regquest( ) 的 代码 ， 这 -- 段 就 是 对 优化 的 尝试 。 


[sys_read( ) > block read( ) > ll_rw_block( ) > submit bh( ) > generic make request()» | make request( )] 


765 el ret = elevator-^elevator merge fn(q, &req, bh, rw, 

766 &max sectors, &max segments); 

161 switch (el ret) | 

768 

769 case ELEVATOR BACK MERGE: 

770 if (1q->back merge fn(q, req, bh, max segments)) 
771 break; 

772 req bhtail-^b reqnext = bh; 

773 req->bhtail = bh; 

774 req->nr_sectors = req-?hard_nr_sectors += count; 
775 req-»e = elevator; 

776 drive stat_acct (reg—>rq dev, req->cmd, count, 0); 
777 attempt back merge(g, req, max sectors, max segments); 
118 goto oul; 

779 

780 case ELEVATOR FRONT MERGE: 

781 if (Iq front merge fn(q, req, bh, max segments)) 
182 break; 

783 bh->b_reqnext = req->bh; 

784 req-»bh = bh; 

785 req buffer = bh->b_ data; 

786 req-?current nr sectors = count; 

187 req-?sector ^ reg-?hard sector - sector; 
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788 req-?nr sectors = red->hard nr sectors += count; 
189 req-?e = elevator; 

190 drive stat acct(req-?rq dev, req->cmd, count, 0); 
791 attempt front merge(q, head, req, max sectors, max segments); 
792 goto out; 

793 /* 

794 * elevator says don 't/can t merge. get new request 
795 */ 

796 case ELEVATOR NO MERGE: 

791 break; 

798 

799 default: 

800 printk( elevator returned crap (%d)\n”, el ret); 
801 BUG( ) ; 

802 } 

803 


当 一 个 IDE 设备 的 队列 中 已 经 有 操作 请 求 在 等 待 ， 而 又 有 新 的 操作 请 求 到 来 时 ， 可 以 作 两 种 不 同 
的 优化 。 一 种 是 因 扇 区 连续 而 引起 的 操作 合并 ， 另 一 种 是 对 操作 路 线 所 作 的 优化 或 者 说 调度 。 为 此 ， 
在 request. queue. t 结构 内 部 设立 了 一 个 elevator. t 数据 结构 ， 名 为 elevator， 此 命名 从 字义 上 就 表明 了 
对 磁盘 操作 的 调度 类 似 于 对 电梯 的 调度 。 这 种 数据 结构 的 定义 在 include/linux/elevatorh 和 
include/linux/blkdev.h 中 : 


15 struct elevator_s 

16 { 

17 int sequence; 

18 

19 int read latency; 

20 int write latency; 

21 int max bomb segments; 

22 

23 unsigned int nr segments; 

24 int read pendings; 

25 

26 elevator fn * elevator fn; 

27 elevator merge fn *elevator merge fn; 
28 elevator dequeue fn *dequeue fn; 
29 

30 unsigned int queue ID; 

3l F; 


13 typedef struct elevator_s elevator_t; 
这 个 数据 结构 中 提供 了 几 个 函数 指针 用 十 操作 的 优化 , 所 以 特定 的 elevator t 决定 了 其 体 的 优化 算 
ik. AAG) Linux 内 核 只 提供 … 种 (也 许 应 该 说 一 套 ) 优化 算法 ， 浊 就 是 ELEVATOR_LINUS， 定 义 于 
. 280 . 


第 8 章 RAWI 
include/linux/elevator.h: 

99 #define ELEVATOR LINUS \ 
100 ((elevator_t) { b 
101 0, /* not used */ N 
102 \ 
103 1000000, /* read passovers */ \ 
104 2000000, /* write passovers */ \ 
105 0, /* max bomb segments */ V 
106 N 
107 0, /* not used */ \ 
108 0, /* not used */ \ 
109 \ 
110 elevator_linus, /* elevator fn */ \ 
lil elevator_linus_merge, /* elevator merge fn */ \ 
112 elevator noop dequeue, /* dequeue fn */ \ 
113 }) 


对 块 设备 的 数据 结构 初始 化 时 , 将 其 request_queue t 4474 A H) elevator 设置 成 ELEVATOR_LINUS， 
所 以 765 行 实际 调用 的 是 elevator linus merge( )， 其 代码 在 drivers/block/elevator.c 中 : 


[sys read( ) > block read( ) > 1l rw block( ) > submit_bh( ) > generic make, request ) 
». make request( ) » elevator linus merge( )] 


53 int elevator linus merge (request queue t *q, struct request **req, 
54 struct buffer head *bh, int rw, 

55 int *max sectors, int *max segments) 

56 { 

57 struct list head *entry, *head = &q->queue_head; 

58 unsigned int count = bh->b_size >> 9, ret = ELEVATOR NO MERGE; 
59 

60 entry = head; 

61 if (q->head_active && !q->plugged) 

62 head = head-?next; 

63 

64 while ((entry = entry—>prev) !- head) { 

65 struct request * rq = *req = bikdev entry to request (entry) ; 
66 if (__rq->sem) 

67 continue; 

68 if ( rq->cmd !- rw) 

69 continue; 

70 if (_rq->nr_sectors + count > *max_sectors) 

71 continue; 

72 if ( rq-rq dev != bh->b_rdev) 

73 continue; 

74 if ( rg sector + _rq->nr_sectors == bh->b_rsector) { 
75 ret. = ELEVATOR BACK MERGE; 


- 281 . 


Linux 内 核 源 代码 情景 分 析 (下 册 》 


76 break; 

77 } 

78 if (!__rq~elevator_sequence) 

79 break; 

80 if (__rq->sector - count == bh->b_rsector) | 

81 rq-^»elevator sequence--; 

82 ret - ELEVATOR FRONT MERGE; 

83 break; 

84 } 

85 } 

86 

87 /* 

88 * second pass scan of requests thal got passed over, if any 
89 */ 

90 if (ret !* ELEVATOR NO MERGE && *req) { 

91 while ((entry = entry-—^next) != &g— queue head) { 
92 struct request *tmp = blkdev entry to request (entry); 
93 tmp: >elevator sequence--; 

94 } 

95 } 

96 

97 return ret; 

98 ] 


这 里 的 blkdev. entry. to. request( PERE, MA 一 个 list head 结构 找到 其 宿主 request 结构 , 定义 
T include/linux/blkdev.h: 


188 "define blkdev entry to request (entry) ^ 
list entry((entry), struct request, queue) 


iX vA XC LBS TM A RE SES VEGA PU. XR BTR SUI BRE CY f] 55 IU RITE VEG AH 
的 指导 (向 前 、 向 后 、 或 不 能 合并 )， 并 通过 参数 req 返回 可 以 与 之 合并 的 操作 请 求 。 为 不 至 于 过 于 冲淡 
操作 的 主线 索 ， 我 们 把 这 部 分 优化 的 详情 留 给 有 兴趣 的 读者 。 不 过 覃 指出 ， 与 新 来 色 的 操作 请 求 合并 
以 后 可 能 会 为 进步 的 合并 创造 条 件 , 所 以 前 面 代码 中 的 777 和 791 行 还 要 调用 attempt. back. merge( ) 
或 attempt, front, merge( ) 作 进一步 的 尝试 。 

如 果 合 并 成 功 ， 就 不 需 此 为 新 的 读 写 请 求 单 独创 建 一 个 数据 结构 并 挂 入 队列 了 ， 耕 则 就 要 继续 往 
下 跑 ， 这 就 到 了 标号 get_rq 处 。 


[sys read( ) > block read( ) > ll rw, block( ) > submit_bh( ) generic, make request() > __ make_request( )] 


804 /* 

805 * Grab a free request from the freelist. Read first try their 
806 * own queue ~ if that is empty, we steal from the write list. 
807 * Writes must block if the write list is empty, and read aheads 
808 * are not crucial 

809 */ 
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810 
811 
812 
813 
814 
815 
816 
817 
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820 
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829 
830 
831 
832 
833 
834 
835 
836 
837 
838 
839 
840 
841 
842 

"843 
844 
845 
846 
847 
848 


15 
16 
17 
18 
19 
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get rq: 

if (freereq) | 
req - freereq; 
freereq = NULL; 

} else if ((reg = get_request(q, rw)) == NULL) { 
spin unlock irq(&io request lock); 
if (rw ahead) 

goto end io; 


freereq = | get request wait(q, rw); 
goto again; 


} 


/* fill up the request-info, and add it to the queue */ 
req-?cmd = rw; 
req-^errors = 0; 
req-^hard sector = req->sector = sector; 
req-^hard nr sectors = req->nr_sectors = count; 
req->current_nr_sectors = count; 
req-^nr segments = 1; /* Always 1 for a new request. */ 


req—nr hw segments = 1; /* Always 1 for a new request. */ 
req-^»buffer = bh-25b data; 

req-?sem = NULL; 

req-?»bh = bh; 

req->bhtail = bh; 


bh-?b rdev; 
req—-e = elevator; 


req->rq_dev 


add request(a, req, head, latency); 
out: 
if (!q plugged) 
(q-^?request [n)(q); 
if (freereq) 
blkdev release request (freereq) ; 
spin unlock irq(&io request lock); 
return 0; 
end io: 
bh-»b end io(bh, test bit(BH Uptodate, &bh—b state)); 
return 0; 


) 


首先 是 分 配 一 个 request 结构 ， 这 种 数据 结构 是 在 include/linux/blkdev.h 中 定义 的 : 


/水 

* Ok, this is an expanded form so that we can use the same 
* request for paging requests when that is implemented. In 
* paging, 'bh' is NULL, and the semaphore is used to wait 
* for read/write completion. 
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20 */ 

21 struct request { 

22 struct list head queue: 

23 int elevator sequence; 

24 struct list head table; 

25 

26 siruct list head *free list; 

27 

28 volatile int rq status; /* should split this into a few status bits */ 
29 #define RQ INACTIVE (-1) 
30 Hdefine RQ ACTIVE 1 

31 #define RQ SCSI BUSY Oxffff 
32 #define RQ SCSI DONE Oxfffe 
33 define RQ SCSI DISCONNECTING — OxffeO 
34 

35 kdev t rq dev; 

36 int cmd; /* READ or WRITE */ 
37 int errors; 

38 unsigned long sector; 

39 unsigned long nr sectors; 

40 unsigned long hard sector, hard nr sectors; 
41 unsigned int nr_segments; 

42 unsigned int nr_hw_segments; 

43 unsigned long current nr sectors; 
44 void * special; 

45 char * buffer; 

46 struct semaphore * sem; 

47 struct buffer_head * bh; 

48 struct buffer_head * bhtail; 

49 request queue t *q; 

50 elevator t *e; 

5l. Fy 


代码 的 作者 在 注释 中 说 以 后 在 负面 换 入 / 换 出 机 制 中 也 将 使 用 这 个 数据 结构 。 

内 核 中 可 供 使 用 的 request 数据 结构 的 数量 是 固定 的 ， 同 时 在 调用 get_request( ) 时 也 说 明了 具体 的 
操作 《〈 写 操作 比 读 操 作 慢 ， 所 以 限制 也 更 严 )。 如 果 分 配 失败 ， 就 说 明 系 统 中 未 完成 的 操作 请 求 已 经 太 
ET. EAM? 那 就 要 看 具体 情况 了 。 如 果 所 此 求 的 只 不 过 是 预 读 ， 那 本 来 就 是 可 做 可 不 做 的 ， 所 
以 干脆 就 无 功 而 返 了 。 和 否则 ， 要 是 非 做 不 可 的 话 ， 必 就 只 好 通过 __get_request_wait( ) 睡 眠 等 待 了 。 在 
这 个 函数 中 还 要 针对 任务 队列 tq. disk 调用 run_task_queue( )， 使 所 有 可 能 尚未 启动 的 操作 请 求 队列 得 
到 启动 ， 为 request 结构 的 回收 创造 条 件 。 当 request 结构 的 同 收 使 分 配 这 种 结构 的 此 求 得 到 满足 时 , 睡 
眠 中 的 进程 就 被 唤醒 而 从 __get_request_wait( ) 返 回 。 显 然 , 返回 时 指针 req 必定 指向 刚 分 配 到 的 request 
结构 而 无 需 再 加 检验 。 不 过 ， 经 过 一 段 时 间 的 睡 虑 ， 操 作 请 求 队列 的 情况 可 能 已 经 变 了 【〔 例 如 队列 中 
的 若干 操作 请 求 吓 能 已 经 完成 而 不 表 在 队列 中 了 )， 所 以 要 回 到 前 面 的 标号 again 处 ， 重 新 使 指针 head 
指向 队列 中 的 第 一 个 请 求 。 通 常 ， 当 开始 执行 一 个 操作 请 求 时 要 将 其 request 结构 从 队列 前 端 摘 下 ， 但 
是 有 些 设备 的 驱动 程序 要 到 操作 完成 时 才 将 它 搞 下 ， 所 以 对 这 样 的 操作 要 跳 过 队列 中 的 第 一 个 request 
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结构 ， 而 使 指针 head 指向 队列 中 的 第 二 项 。 为 了 区 分 这 两 种 不 同 的 方式 ， 企 request queue t 中 设立 了 
一 个 head_active 字段 ， 表 示 队 列 中 的 第 一 个 request 结构 已 经 active， 内 而 应 该 把 它 跳 过 。 不 过 ， 这 只 
有 在 操作 请 求 队列 已 经 启动 不 再 在 tq_disk BAS) 时 才 需 要 ( 见 756 一 758 行 )。 当 第 二 次 到 达 811 行 
WN, freereq “ 定 已 经 指向 一 个 空 闪 的 request 数据 结构 。 

完成 了 对 request 结构 的 设置 以 后 ， 就 调用 add. request( ) 将 其 挂 入 设备 的 操作 请 求 队 州 。 这 里 的 参 
数 latency 是 在 前 面 744 行 设置 好 了 的 ， 反 映 了 当时 对 操作 等 待 时 间 的 预 估 值 ， 用 于 优化 日 的 ， 其 实际 
上 来 自 设备 的 elevator [数据 结构 Crequest_queue_t 结构 中 的 一 部 分 )。 | 


72 
73 
74 
75 
76 
77 
78 
79 
80 
8] 


S 


{ 


} 


tatic inline int elevator_request_latency (elevator_t * elevator, int rw) 
int latency; 
latency = elevator->read_latency; 
if (rw !- READ) 


latency = elevator->write latency; 


return latency; 


函数 add, request( ) 的 代码 在 1Lrw_blk.c F: 


[sys_read( ) > block read( ) > ll rw block( ) > submit, bh( ) > generic make request( ) 
> . make request( ) > add request( )] 


582 
583 
584 
585 
586 
587 
588 
589 
590 
591 
592 
593 
594 
595 
596 
597 
598 
599 
600 
601 
602 
603 


S 


{ 


* add-request adds a request to the linked list. 

* It disables interrupts (acquires the request spinlock) so that it can muck 
* with the request-lists in peace. Thus it should be called with no spinlocks 
* held. 

* 

* By this point, req- cmd is always either READ/WRITE, never READA, 

* which is important for drive stat acct( ) above. 


tatic inline void add request (request queue t * q, struct request * req, 
struct list head *head, int lat) 
int major; 
drive stat acct(req-?rq dev, req->cmd, req-^nr sectors, 1); 
/* 
* let selected elevator insert the request 


*/ 


q-»elevator. elevator fn(req, &q->clevator, &q~>queue head, head, lat); 
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604 
605 
606 
607 
608 
609 
610 
6il 
612 
613 
614 
615 
616 
617 
618 


} 


Linux | URS TOC PAD 


/* 

* FIXME(eric) I don't understand why there is a need for this 

* special case code. It clearly doesn’t fit any more with 

* the new queueing architecture, and it got added in 2.3.10. 

* I am leaving this in here until I hear back from the COMPAQ 

* people. 
*/ 

major = MAJOR(req— rq dev); 

if (major >= COMPAQ SMART2 MAJOR+0 && major <= COMPAQ SMART2_MAJOR+7) 
(q-»request fn)(g); 

if (major >= COMPAQ CISS MAJOR*O && major <= COMPAQ CISS MAJOR+7) 

(q->request_fn) (q); 

if (major >= DAC960 MAJOR+O && major <= DAC960_MAJOR+7) 

(q->request_fn) (a); 


这 里 的 drive stat acct( ) 只 是 用 来 积累 一 些 统计 信息 ， 我 们 不 感 兴趣 。 


tB XA, AE, XXI list add( HE request 数据 结构 挂 入 队列 就 是 了 ，request 
结构 中 的 list head 结构 就 是 为 此 月 的 市 设 的 。 如 果 队 州 中 原 米 就 有 操作 请 求 呢 ?显然 ， 这 意味 着 新 的 
请 求 不 能 与 已 经 存在 的 请 求 合 并 ， 所 以 应 将 其 作为 一 个 单独 的 请 求 持 入 队列 。 如 果 不 考 虚 进 步 优 化 ， 
把 新 的 请 求 挂 在 队列 的 尾 端 也 就 吕 以 了 。 但 是 ， 这 里 考虑 了 进步 的 优化 ， 即 对 操作 路 线 的 优化 . 所 
以 通过 elevator 数据 结构 中 的 函数 指针 elevator. fn 调用 提供 上 县 体 优 化 算法 的 函数 ,由 这 个 函数 来 决定 怎 
样 将 新 的 操作 请 求 插入 队列 中 。 我 们 在 前 面 已 经 看 到 其 elevator. fn 指针 指向 elevator. linus( )， 其 代码 


tt drivers/block/elevator.c FP: 


[sys read( ) > block read( ) > ll rw block( ) > submit, bh( ) > generic make request( ) ».. make request( ) 


> add request( ) > elevator linus( )] 


29 
30 
3i 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 


/* 


* Order ascending, but only allow a request to be skipped a certain 


* number of times 


*/ 


void elevator linus(struct request *reg, elevator t *elevator, 
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struct list head *real head, 
struct list head *head, int orig latency) 


struct list_head *entry = real_head; 
struct request *tmp; 


req—elevator sequence - orig latency; 


while ((entry = entry—>prev) !- head) | 
tmp = blkdev entry to request (entry); 
if (TN ORDER(tmp, req)) 
break; 
if (!tmpO elevator sequence) 
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47 break; 

48 tmp-^elevator sequence--; 
49 } 

50 list_add(&reqg—>queue, entry); 
51] 


XA e BT CER Je X ERE SERE SD ER ET LAG. CABE FUP BATE RETR, PMR 
100 Eti ESE/LA B CRUS E, CME 800 SH LILA ERIE. TT ERES AE A 
150 号 柱 而 上 某 几 个 扇 区 的 操作 。 如 果 简 单 地 把 新 的 请 求 排 在 最 后 ， 那 么 在 执行 时 先 要 把 伐 头 移 到 第 
100 号 柱 面 ， 完 成 后 再 移 到 第 800 号 柱 面 ， 最 后 又 要 回 到 第 150 号 柱 面 。 磁头 的 移动 冠 位 又 站 磁盘 访问 
中 最 费时 间 的 动作 。 这 样 的 情况 一 多 ， 储 头 就 疲于奔命 而 大 大 降低 了 效率 。 如 果 新 的 请 求 恰 与 也 在 第 
100 号 柱 面 调 本 来 可 以 不 必 移动 磁 头 , 那 就 更 古 策 枉 了 。 可是, 如 果 把 新 的 请 求 插入 到 第 2 个 请 求 之 前 ， 
让 磁头 在 完成 了 第 - 个 请 求 的 操作 以 后 “顺路 ” 先 对 第 150 号 柱 面 操作 ， 然 后 再 到 第 800 Am, W 
就 可 以 显著 改善 效率 了 。 所 以 ， 表 面 上 是 选择 新 请 求 在 队列 中 的 插入 点 ， 实 质 上 却 是 对 磁头 移动 的 
种 调度 。 代 码 中 从 队列 的 尾 端 开始 向 前 扫描 ， 以 扇 区 号 为 依据 〈 扇 区 号 与 性 面 号 是 可 以 换算 的 )， 试 图 
找到 这 人 么 .个 请 求 ， 即 它 所 操作 的 扇 区 在 新 请 求 所 操作 的 肩 区 之 前 ， 内 而 一 者 是 “顺序 ”的 。 如 采 每 
次 加 入 - .个 新 操作 请 求 时 都 保持 顺序 ， 那 么 整个 队列 就 都 是 顺序 的 。 宏 操作 IN ORDER 的 定义 在 


include/linux/elevator.h F: 


61 /* 

62 * This is used in the elevator algorithm. We don't prioritise reads 
63 * over writes any more --- although reads are more time-critical than 
64 * writes, by treating them equally we increase filesystem throughput. 
65 * This turns out to give better overall performance.  —- sct 

66 */ 

61 #define IN ORDER (s1, s2) N 

68 ((((s1) rq dev == (s2)—rq dev && V 

69 (s1) >sector < (s2)->sector)) ;| ^ 

70 (sl1)->rq_dev < (s2) rq dev) 


xx Ede] 设备 上 、 但 是 前 者 的 次 设备 号 小 村 后 者 的 次 设备 号 也 考虑 作 顺序 。 伺 是 ， 
对 于 IDE 接口 ， 是 等 个 设备 一 个 队列 〈 见 ide get queue( ) 的 代码 )， 所 以 这 一 点 对 IDE 设备 实际 上 不 
起 作用 。 

如 果 找 到 了 符合 要 求 的 操作 请 求 ， 就 把 新 请 求 插入 到 它 的 后 面 ， 从 而 实现 了 某 种 程度 的 优化 。 如 
果 找 不 到， 就 把 新 请 求 挂 在 队列 的 尾 端 ， 也 就 是 说 无 法 优化 了 。 

我 们 在 这 里 不 对 这 些 优 化 作 定量 的 分 析 。 一 个 优化 算法 应 满足 两 个 某 本 要 求 。 一 是 有 效 性 ， 即 在 
多 数 可 以 优化 的 场合 下 真 的 得 到 了 优化 ， 提 高 了 效率 。 :是 公正 性 。 以 合并 为 例 ， 如 果 我 们 个 次 都 从 
队列 的 前 端 开 始 扫描 ， 那 么 就 有 可 能 发 牛 这 样 的 情况 : 队列 中 原 米 就 已 经 有 很 多 操作 请 求 在 等 待 了 ， 
突然 来 了 -大批 新 的 操作 请 求 ， 这 些 请 求 恰 好 都 可 以 跟 处 十 队列 前 端的 请 求 合 并 ， 丁 是 就 全 部 “加 塞 ” 
插 到 了 大 量 原 已 在 队列 中 等 待 的 请 求 之 前 。 这 对 于 那些 已 经 在 等 待 的 请 求 来 说 就 不 公平 了 。 在 极端 的 
情况 下 ， 这 些 请 求 其 至 可 能 “ 俄 死 ”(starving) 而 一 直 得 不 到 服务 。 作 为 队列 ， 基 本 上 【的 “AKERE” 
原则 还 是 应 该 遵循 的 。 这 就 是 为 什么 在 优化 和 合并 时 都 从 队列 尾 端 开始 向 前 扫描 的 原因 ， 并 号 即使 从 

.287 . 





Linux 内 核 源 代码 情景 分 析 C FAO 


队列 尾 端 开始 向 前 扫描 也 还 应 该 对 扫描 的 距离 加 以 限制 。 最后， 还 有 代价 的 考虑 ， 优 化 的 问题 常常 是 
NP 完全 问题 ， 所 以 在 实际 运用 时 都 要 “ 适 而 可 止 ”， 不 能 追求 完美 。 

至 此 ， 将 新 的 请 求 挂 入 操作 请 求 队列 的 任务 已 经 完成 了 ， 在 add request( ) 中 ， 还 要 检查 一 下 操作 
的 对 象 是 否 若干 种 设备 之 一 (611 一 617 行 ), 如 果 是 就 要 直接 通过 队列 的 沙 数 指针 request. fn 启动 队列 中 
的 第 一 个 VO 操作 。 回 到 __make_request( ) 中 ， 剩 下 的 事情 只 有 一 件 ， 那 就 是 ， 如果 操 作 请 求 队列 的 
plugged 标志 为 0, 也 就 是 说 尚未 把 队列 插入 到 tq_disk 中 , 此 时 就 要 直接 通过 队列 的 函数 指针 request fn 
启动 队列 中 的 第 一 个 VO 操作 。 正 因为 这 样 ， 代 码 的 作者 在 __make_rrequest( ) 中 加 了 注释 ， 说 既然 有 
了 后 者 就 没有 必要 在 add_request( ) 中 考虑 那些 特殊 情况 了 。 不 过 ， 在 我 们 所 讲 的 情景 中 ， 我 们 假定 在 
— make, request( ) 中 已 经 将 它 插入 bottom-half 的 任务 队列 tq_disk， 所 以 plugged 标志 为 1。 

RFF, KA TL rw block ) 的 执行 就 完成 了 ， 注 意 此 时 所 要 求 的 读 /写实 际 上 显然 并 未 完成 。 实 际 的 
读 / 写 是 一 个 异步 的 过 程 ， 我 们 无 法 预测 它 究 竟 会 在 何 时 发 生 ， 因 此 需要 使 用 或 确认 读 / 写 结果 的 进程 必 
须 等 待 以 取得 同步 。 这 通常 是 通过 wait_on_buffer( ) 完 成 的 。 这 是 一 个 inin 函数， 其 代码 在 
include/linux/locks.h 中 : 


17 extern inline void wait on buffer (struct buffer head * bh) 


18 { 

19 if (test bit(BH Lock, &bh->b state)) 
20 . wait on buffer(bh); 

21 ] 


AZ _ wait on buffer( ) 的 代码 在 fs/buffer.c P: 


136 /* 

137 * Rewrote the wait-routines to use the “new” wait-queue functionality, 
138 * and getting rid of the cli-sti pairs. The wait-queue routines still 
139 * need cli-sti, but now it's just a couple of 386 instructions or so. 
140 * 

141 * Note that the real wait on buffer( ) is an inline function that checks 
142 * if 'b wait’ is set before calling this, so that the queues aren't set 
143 * up unnecessarily. 

144 */ 

145 void | wait on buffer (struct buffer head * bh) 

146 of 

147 struct task struct *tsk - current; 

148 DECLARE WAITQUEUE(wait, tsk); 

149 

150 atomic inc(&bh-»b count); 

151 add wait queue(&bh-^b wait, &wait); 

152 do { 

153 run task queue(&tq disk): 

154 set task state(tsk, TASK UNINTERRUPTIBLE) ; 

155 if (!buffer locked(bh)) 

156 break; 

157 schedule( ); 
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158 } while (buffer locked(bh)); 

159 tsk->state = TASK RUNNING; 

160 remove wait queue(&bh-^b wait, &wait); 
161 atomic dec(&bh-5b count); 

162  ] 


阅读 了 本 书 第 4 章 和 第 3 章 的 读者 ， 对 这 段 代 码 应 该 不 会 感到 困难 。 等 待 着 使 用 指定 缓冲 区 《的 
WA) 的 进程 在 -个 等 待 队列 wait 中 睡眠 ， 等 待 操作 的 完成 。 而 对 给 定 缓冲 区 的 操作 是 否 已 经 完成 的 
标志 ， 就 是 为 了 对 缓冲 区 的 操作 所 加 的 锁 是 否 已 被 解除 。 所 以 ， 当 给 定 缓冲 区 的 LO 操作 完成 时 ， 应 
该 为 该 缓冲 区 解锁 ， 并 唤醒 在 该 队列 中 睡眠 的 进程 。 但 是 ， 被 唤醒 并 不 一 定 意味 着 对 特定 缓冲 区 的 操 
作 已 经 完成 ， 所 以 要 在 一 个 do_while 循环 中 反复 地 测试 和 进入 唾 卢 。 另 一 方面 ， 进 程 每 次 在 do_while 
循环 中 进入 性 眠 前 要 通过 run_task_queue( ) 执 行 在 tg_disk 队列 中 的 bottom half 函数 ， 以 确保 对 操作 请 
求 队列 的 执行 已 经 启动 。 不 过 ， 对 run_task_gueue( ) 的 调用 实际 上 可 以 来 自 好 多 不 同 的 函数 和 场合 ， 这 
里 的 调用 并 不 是 惟一 的 。 

不 管 是 从 什么 途径 ， 当 对 tq. disk 队列 调用 run, task, queue( ) 时 ， 就 会 依次 把 队列 中 的 tq. struct. 数 
据 结构 从 队列 中 解除 并 通过 其 通 数 指针 routine 调用 相应 的 bottom. half 水 数 。 前 面 讲 过 , 对 于 块 设备 操 
作 请 求 队列 ， 这 个 函数 是 generic_unplug_device( )， 现 在 我 们 来 看 它 的 代码 ， 这 是 在 1L_rw_blk.c 中 : 


[run_task_queue( ) > run task queue( ) > generic unplug. device( )] 


367 static void generic unplug device (void *data) 


368 | 

369 request queue t *q - (request queue t *) data; 
370 unsigned long flags; 

371 

372 spin lock irqsave(&io request lock, flags); 

373 J generic unplug device(q); 

374 spin unlock irqrestore(&io request lock, flags); 
375. } 


[run task queue() >__run_task_queue( ) > generic unplug device(). . generic unplug. device( )] 


355 /* 
356 * remove the plug and let it rip.. 
357 */ 


358 static inline void generic unplug device (request queue t *q) 
359 { 


360 if (q->plugged) | 

361 q~>plugged = 0; 

362 if (!list empty (&q->queue_head) } 
363 q->request_fn(q); 

364 } 

365 } 


在 tq. struct 结构 中 有 一 个 void 指针 data， 用 来 传递 对 bottom-half 函数 的 参数 。 对 寸 操作 请 求 队列 
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结构 中 的 tq. struct 结构 plug ta， 这 个 指针 就 指向 其 稍 主 request queue 数据 结构 。 只 要 这 个 队列 非 空 
这 里 就 通过 其 函数 指针 request. fn 调用 该 队列 的 VO 启动 丽 数 。 这 个 启动 函数 是 在 块 设备 初始 化 时 没 竹 
好 的 ， 对 于 作为 主 设备 《primary) 连接 在 IDE 接口 上 的 IDE iit, wE do ide request( )， 其 代码 在 
drivers/ide/ide.c P: 


[run_task_queue( ) > . run task queue()» generic_unplug_device( ) > generic unplug, device( ) > 
do ide request( )] 


1377 /* 

1378 * Passes the stuff to ide do request 
1379 */ 

1380 void do ide request(request queue t *q) 
1381 { 

1382 ide_do_request (q->queuedata, 0); 
1383 } 


操作 请 求 队列 中 ， 即 request queue t 结构 中 ， 有 个 void 指针 queuedata， 可 以 根据 具体 设备 的 不 同 
而 指向 不 同 的 对 象 。 对 于 IDE 接 门 ， 这 个 指针 指向 一 个 ide hwgroup. t 数据 结 构 ， 这 也 是 在 ideh PE 
义 的 : 


486 /* 

487 * when ide timer expiry fires, invoke a handler of this type 

488 * to decide what to do. 

489 */ 

490 typedef int (idc expiry t)(ide drive t *); 

49] 

492 typedef struct hwgroup_s { 

493 ide handler t *handler;/* irq handler, if active */ 

494 volatile int busy;  /* BOOL: protects all fields below */ 
495 int sleeping; /* BOOL: wake us up on timer expiry */ 
496 ide drive t *drive; /* current drive */ 

497 ide hwif t *hwif; /* pir to current hwif in linked-list */ 
498 struct request *rq: /* current request */ 

499 struct timer list timer; /* failsafe timer */ 

500 struct request wrd; /* local copy of current write rq */ 

501 unsigned long poll timeout;/* timeout value during long polls */ 
502 ide expiry t *expiry; /* queried upon timeouts */ 


503 } ide hwgroup_t; 


这 个 数据 结构 代表 着 -个 “硬件 组 ”， 实 际 上 是 一 组 IDE 接口 ， 对 属 十 同一 组 的 IDE HU CULE 
接口 上 的 磁盘 ) 不 能 同时 操作 。 不 过 ， 在 大 部 分 情况 下 每 个 IDE 接口 都 能 独立 操作 而 互 不 影响 ， 因 而 
所 谓 一 组 IDE 接口 只 包括 - 个 IDE LI. IDE 接口 是 由 ide_hwif t 数据 结构 代表 的 ， 内 核 中 有 个 
ide hwif t 数 组 ide_hwifs| ]， 以 IDE 接口 的 编号 为 下 标 。 


191 ide hwif t ide_hwifs[MAX_HWIFS]; /* master data repository */ 
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ET a a aM 

这 里 的 MAX_HWIFS 定义 为 6。 一般 的 PC HLA IDE WERD, BERS ME, IE 
外 还 有 一 个 IDE 软盘 接口 ， 再 要 增加 就 得 外 加 IDE SELL F T. 数组 ide_hwifs[ 1] 中 的 每 个 元 素 都 弟 一个 
ide hwif t 数据 结构 ， 代 表 着 系统 中 的 个 IDE FETA, we MF include/linux/ide.h 中 : 


421 
422 
423 
424 
425 
426 
427 
428 
429 
430 
431 
432 


433 
434 
435 
436 
437 


438 
439 
440 
441 
442 
443 
444 
445 
446 
447 
448 
449 
450 
451 
452 
453 
454 
455 
456 
451 
458 
459 
460 
461 


typedef struct hwif s { 


struct hwif s  -*next; /* for linked-list in ide hwgroup t */ 
void *hwgroup; /* actually (ide hwgroup t *) */ 

ide ioreg t io ports[IDE NR PORTS]; /* task file registers */ 

hw regs t hw; /* Hardware info */ 

ide drive t drives[MAX DRIVES]; /* drive info */ 

struct gendisk *gd; /* gendisk structure */ 

ide tuneproc t *tuneproc; /* routine to tune PIO mode for drives */ 
ide speedproc t *speedproc; /* routine to retune DMA modes for drives */ 
ide selectproc t *selectproc; /* tweaks hardware to select drive */ 


ide resetproc t *resetproc;/* routine to reset controller after a disk reset */ 
ide intrproc t *intrproc; 

/* special interrupt handling for shared pei interrupts */ 
ide maskproc t *maskproc; /* special host masking for drive selection */ 
ide quirkproc t *quirkproc; /* check host’ s drive quirk list */ 


ide rw proc t ‘*rwproc; /* adjust timing based upon rq-^cmd direction */ 
ide dmaproc t *dmaproc; /* dma read/write/abort routine */ 
unsigned int *dmatable cpu; 


/* dma physical region descriptor table (cpu view) */ 
dma addr t dmatable_dma; /* dma physical region descriptor table (dma view) */ 
struct scatterlist *sg table; /* Scatter-gather list used to build the above */ 


int sg nents; /* Current number of entries in it */ 
int sg dma direction; /* dma transfer direction */ 

struct hwif s *mate; /* other hwif from same PCI chip */ 
unsigned long dma base; /* base addr for dma ports */ 

unsigned dma extra; /* extra addr for dma ports */ 
unsigned long config data; /* for use by chipset-specific code */ 
unsigned long select data; /* for use by chipset-specific code */ 
struct proc dir entry *proc; /* /proc/ide/ directory entry */ 

int irq; /* our irq number */ 

byte major; /* our major number */ 

char name[6] ; /* name of interface, eg. "ide0" */ 
byte index; /* 0 for ide0; 1 for idel; ... */ 

hwif chipset t chipset; /* sub-module for tuning.. */ 


unsigned noprobe /* don't probe for this interface */ 


1 
unsigned present 1 /* this interface exists */ 
unsigned serialized : 1 /* serialized operation with mate hwif */ 
unsigned sharing irq: 1; /* | = sharing irq with another hwif */ 
unsigned reset l; /* reset after probe */ 
unsigned autodma t; /* automatically try to enable DMA at boot */ 
1 


unsigned udma_four : /* 1-ATA-66 capable, O=default */ 
byte channel ; /* for dual-port chips: Ü-primary, l-secondary */ 


#ifdef CONFIG BLK DEV IDEPCI 
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462 struct pci dev *pci dev; /* for pci chipsets */ 

463 ide pci devid t pci devid; /* for pci chipsets: {YID, DID} */ 
464 #endif /* CONFIG_BLK_DEV_IDEPCI */ 

465  #if (DISK RECOVERY TIME > 0) 

466 unsigned long last time; /* time when previous rq was done */ 
467 Bendi f 

468 byte straight8; /* Alar s straight 8 check */ 

469 void *hwif data; /* extra hwif data */ 


470 | ide hwif t; 


结构 中 的 数组 drives! ] 对 应 着 可 以 连接 到 同一 个 IDE 接口 上 的 若干 个 便 盘 ， 常 数 MAX. DRIVES 
定义 为 2， 所 以 数组 的 大 小 为 2。 指针 hwgroup 就 指向 一 个 ide_hwgroup_t 结构 ， 

通常 ， 每 个 IDE 接口 都 有 一 个 ide hwgroup t 数据 结构 ， 二 者 以 它们 的 指针 hwgroup 和 hwif 148 
指向 对 方 。 同一 个 IDE 接口 上 的 两 个 磁盘 不 能 同时 操作 , 所 以 ide hwgroup t 结构 代表 着 一 组 不 能 同时 
操作 而 必须 把 对 它们 的 操作 “品行 化 ”的 磁盘 。 但 是 ， 也 有 些 IDE 接口 卡 把 两 个 IDE 接口 做 看 起 而 
不 能 同时 操作 ， 于 是 就 共用 个 ide_hwgroup_t 数据 结构 ， 此 时 两 个 ide, hwif t 结构 就 要 通过 它们 的 指 
针 next 链接 在 一 起 ， 而 ide_hwgroup_t 结构 中 的 hwif 指针 则 指向 当前 IDE 接口 。 所 以 ide hwgroup t 
是 比 ide hwif t 更 高 一 层 的 数据 结构 。 也 就 是 说 ， 

€ 每 个 ide_ hwgroup 1 数据 结构 代表 着 一 纽 不 能 同时 操作 的 IDE 接口 。 

€  &^ ide hwif t 数据 结构 代表 着 一 个 IDE 接口 ， 也 就 是 -组 不 能 同时 操作 的 IDE 设备 ， 

ide hwif t 结构 中 有 个 ide drive t 结构 数组 。 

€ 每 个 ide_drive (数据 结构 代表 着 - .个 IDE 设备 。 

在 PC 机 由， 通常 一 个 “硬件 组 ”只 包含 个 IDE 接口 ， 而 一 个 IDE 接口 包含 一 个 或 两 个 磁盘 ， 

每 个 IDE 设备 ， 即 ide_drive_t 数据 结构 ， 都 有 自己 的 操作 请 求 队列 ， 但 是 整个 1DE 接口 组 只 能 有 
一 个 “当前 操作 请 求 ” 即 正在 为 之 服务 的 操作 请 求 ，ide_hwgroup_t 结构 中 的 指针 rq BEES FIX MER 
的 request 数据 结构 。 

PIIRE ide, do, request( ) 的 代 公 ， 这 是 在 ide.c H, 代码 的 作者 在 函数 前 面 加 了 很 长 一 段 注释 ， 读 
AEST: 


1254 /* 

1255 * Issue a new request to a drive from hwgroup 

1256 * Caller must have already done spin lock irqsave(&io request lock, ..); 

1257 * 

1258 * A hwgroup is a serialized group of IDE interfaces. Usually there is 

1259 * exactly one hwif (interface) per hwgroup, but buggy controllers (eg. CMD640) 
1260 * may have both interfaces in a single hwgroup to “serialize” access. 

1260 * Or possibly multiple ISA interfaces can share a common IRQ by being grouped 
1262 * together into one hwgroup for serialized access 

1263 * 

1264 * Note also that several hwgroups can end up sharing a singie IRQ, 

1265 * possibly along with many other devices. This is especially common in 

1266 * PCl-based systems with off-board IDE controller cards. 

1267 * 


- 292. 


第 8 章 设备 驱动 


1268 * The IDE driver uses the single global io request lock spinlock to protect 
1269 * access to the request queues, and to protect the hwgroup-?busy flag. 
1270 * 

1271 * The first thread into the driver for a particular hwgroup sets the 

1272 * hwgroup-»busy flag to indicate that this hwgroup is now active, 

1273 * and then initiates processing of the top request from the request queue. 
1274 * 

1275 * Other threads attempting entry notice the busy setting, and will simply 
1276 * queue their new requests and exit immediately. Note that hwgroup->busy 
1277 * remains set even when the driver is merely awaiting the next interrupt. 
1278 * Thus, the meaning is “this hwgroup is busy processing a request”. 

1279 * 

1280 * When processing of a request completes, the completing thread or IRQ-handler 
1281 * will start the next request from the queue. If no more work remains, 
1282 * the driver will clear the hwgroup->busy flag and exit. 

1283 * 

1284 * The io request lock (spinlock) is used to protect all access to the 

1285 * hwgroup->busy flag, but is otherwise not needed for most processing in 
1286 * the driver. This makes the driver much more friendlier to shared IRQs 
1287 * than previous designs, while remaining 100% (?) SMP safe and capable. 
1288 */ 


We ARABS TPR TCE ABUSE FL Re. PIRE PR BEA CR: 


[run task queue()» . run task queue()? generic unplug device()» __ generic_unplug_device( ). 
> do ide request( ) > ide do  request( )] 


1289 static void ide do request (ide hwgroup t *hwgroup, int masked irg) 


1290 { 
1291 ide drive t *drive; 
1292 ide hwif t -*hwif; 
1293 ide startstop t startstop: 
1294 
1295 ide got lock(&ide lock, ide intr, hwgroup) ; 
/* for atari only: POSSIBLY BROKEN HERE(?) */ 
1296 
1297 cli( ); /* necessary paranoia: ensure IRQs are masked on local CPU */ 
1298 
1299 while (!hwgroup->busy) { 
1300 hwgroup->busy = 1; 
1301 drive = choose drive (hwgroup) ; 
1302 if (drive == NULL) { 
1303 unsigned long sleep = 0; 
1304 hwgroup-?rq = NULL; 
1305 drive = hwgroup->drive: 
1306 do { 
1307 if (drive->sleep && 


(!tsleep || 0 € (signed long) (sleep - drive~>sleep))) 
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1308 sleep = drive->sleep; 
1309 } while ((drive = drive->next) != hwgroup—>drive) ; 
1310 if (sleep) ( 
1311 /* 
1312 * Take a short snooze, and then wake up this hwgroup again 
1313 * This gives other hwgroups on the same a chance to 
1314 * play fairly with us, just in case there are big differences 
1315 * in relative throughputs.. don’t want to hog the cpu too much 
1316 */ 
1317 if (0 < (signed long) (jiffies + WAIT MIN SLEEP - sleep)) 
1318 sleep - jiffies * WAIT MIN SLEEP; 
1319 #if 1 
1320 if (timer pending (&hwgroup~>timer) ) 
1321 printk( ide set handler: timer already active\n’) ; 
1322 #endif 
1323 hwgroup >sleeping ^ 1; 
/* so that ide timer expiry knows what to do */ 
1324 mod timer(&hwgroup-^timer, sleep); 
1325 /* we purposely leave hwgroup->busy==1 while sleeping */ 
1326 ) else { 
1327 /* Ugly, but how can we sleep for the lock otherwise? 
perhaps from tq disk? */ 
1328 ide release lock(&ide lock); /* for atari only */ 
1329 hwgroup->busy = 0; 
1330 } 
1331 return; /* no more work for this hwgroup (for now) */ 
1332 } 
1333 hwif = HWIF (drive) ; 
1334 if (hwgroup-^hwif-^sharing irq && hwif !- hwgroup->hwil && 
hwif-^io ports|IDE CONTROL OFFSET]) { 
1335 /* set nIEN for previous hwif */ 
1336 SELECT TNTERRUPT (hwif, drivo); 
1337 } 
1338 hwgroup->hwif = hwif; 
1339 hwgroup-?drive = drive; 
1340 drive->sleep = 0; 
1341 drive-^service start = jiffies; 
1342 
1343 if ( drive->queue. plugged ) /* paranoia */ 
1344 printk(“%s: Huh? nuking plugged queue\n”, drive-^name); 
1345 hwgroup-?rq = blkdev entry next request (&drive-^queue. queue head); 
1346 /* 
1347 * Some systems have trouble with IDE IRQs arriving while 
1348 * the driver is still setting things up. So, here we disable 
1349 * the IRQ used by this interface while the request is being started. 
1350 * This may look bad at first, but pretty much the same thing 
1351 * happens anyway when any interrupt comes in, IDE or otherwise 
1352 * -—- the kernel masks the TRQ while it is being handled. 
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1353 */ 

1354 if (masked irq && hwif-^irq != masked irgq) 
1355 disable irq nosync(hwif-^irq); 

1356 spin unlock(&io request lock); 

1357 ide sti( ); /* allow other IRQs while we start this request */ 
1358 startstop = start request (drive); 

1359 spin lock irq(&io request lock); 

1360 if (masked irq && hwif->irg !- masked irq) 
1361 enable ira(hwif »irq); 

1362 if (startstop == ide stopped) 

1363 hwgroup->busy = 0; 

1364 } 

1365} 


对 于 1386 结构 的 CPU，ide_get_lock( ) 只 是 一 个 空隙 数 。 同 时 ， 对 设备 的 操作 必须 是 独占 的 ， 绝 不 
容许 受到 干扰 。 所 以 这 里 采取 了 最 为 严厉 的 措施 ， 即 通过 __cli HEP RI, RAMPS A PR 
生 ， 也 不 会 有 进程 调度 发 生 了 。 那 么 ， 在 SMP 多 处 理 器 结构 的 系统 中 来 自 其 他 CPU 的 十 扰 呢 ? 那 也 
已 经 考虑 到 了 ,请 呵 过 去 看 generic_unplug_device( ) 的 代码 ,通过 函数 指针 request. fn 对 do ide request( ) 
的 调用 是 在 由 spin_lock_irqsave( ) 和 spin, unlock. irgrestore( ) 围 成 的 临界 区 中 进行 的 ， 一 全 CPU 进入 了 
这 个 区 域 就 把 大 门 锁 上 了 ， 别 的 CPU 想 茧 进来 就 只 好 在 spin. lock. irgsave( ) 中 等 待 。 

然后 ， 只 要 IDE 接口 林 是 正在 忙 ， 就 可 以 进入 while 循环 的 循环 体内 ， 并 且 马 上 就 把 这 个 IDE 接 
口 的 busy 标志 设 成 1， 又 关上 了 一 道门 。 这 道门 一 关上 ， 即 使 把 外 层 的 大 门 打 开 ， 例 如 把 中 断 操 开 ， 
也 不 会 有 其 他 进程 〈 或 中 断 服 务 程序 ) 能 进入 这 个 while 循环 了 。 不 过 ， 岗 在 还 不 能 把 中 断 打开 ， 因 为 
中 断 服务 程序 有 可 能 不 经 由 这 里 的 while (834 iij BEV ie] IDE 接口 造成 干扰 。 

由 于 同一 个 IDE 接 门 上 可 能 有 不 止 - 个 磁盘 , 这 时 候 就 要 确定 接 下 去 到 底 是 对 哪 一 个 磁盘 操作 了 。 
这 就 是 调用 choose drive( ) 的 目的 。 如 前 所 述 ， 在 ide hwif t 数据 结构 中 有 个 ide drive t. 结构 数组 
drives[ ]， 而 相应 的 ide_hwgroup_t 结构 中 则 有 一 个 ide_drive_t 结构 指针 drive, ‘JRI FX drivesl ] 数 
组 中 的 个 数据 结构 ， 这 就 是 整个 组 的 当前 磁 检 。 不 过 ， 这 个 指针 所 指向 的 实际 上 是 个 丈 形 链 ， 因 为 
存在 于 同一 IDE 接口 上 的 所 有 磁盘 所 对 应 的 ide, drive, c 数据 结构 都 通过 结构 中 的 next 指针 连 成 一 个 环 
形 链 。 所 以 choose. drive ) 的 任务 就 是 扫描 这 个 环形 链 ， 察 看 每 个 ide_drive_t 结构 中 的 操作 请 求 队列 ， 
以 确定 哪 一 个 伐 盘 应 该 臣下 一 步 的 操作 对 象 。 

此 处 先 请 读者 暂时 停 一 下 ， 先 将 上 面 提 到 的 有 关 IDE 使 盘 驱 动 的 儿 个 数据 结构 以 及 相互 之 问 的 关 
系 总 结 一 下 ， 并 画 出 联系 图 。 这 对 程序 理解 会 有 好 处 。 

前 面 说 过 ， 同 一 个 “硬件 组 ”， 即 共用 同一 个 ide_hweroup_t 结构 的 硬盘 (通常 在 问 一 个 IDE 接口 
E) 是 不 能 同时 操作 的 。 但 是 ， 这 句 话 不 够 确切 。 更 确切 地 应 该 说 是 不 能 同时 启动 操作 ， 或 者 说 不 能 
同时 向 两 个 硬盘 发 出 操作 命令 ， 两 个 磁盘 的 物理 操作 〈 例 如 移动 磁头 然后 读 出 ) 完全 可 以 并 行 。 当 癌 

.个 硬盘 发 出 操作 命令 启动 其 操作 的 时 候 , 就 在 相应 ide. drive t 数据 结构 里 的 service start 字段 中 记 下 
当时 的 时 间 ， 根 据 这 个 起 始 时 间 以 及 具体 操作 的 大 小 就 可 以 估计 出 这 个 操作 完成 的 时 间 。 另 -方面 ， 
每 当 一 个 操作 完成 (或 因 超 时 测 拓 败 》 时 ， 可 以 根据 当时 的 时 间 和 操作 的 启动 时 间 计 算出 本 次 操作 实 
际 耗 用 的 时 间 。 这 个 时 间 记 录 在 相应 ide, drive t 结构 中 的 sevice_time 字段 中 ， 可 以 用 作 具 体 硬 舟 操 作 
速度 的 -… 个 参考 值 。 在 某 些 场合 下 ， 还 可 以 在 自愿 的 基础 上 Cide drive t 结构 中 的 nicel 标志 为 1) 将 
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个 便 盘 投入 睡眠 状态 ， 也 就 是 在 预定 的 某 个 时 间 之 前 不 对 其 进行 操作 ， 这 个 预定 的 叶 间 就 记录 在 
ide drive t 结构 里 的 sleep 字段 中 。 不 过 要 注意 ， 这 申 所 说 的 是 在 : 定 的 时 间 内 不 对 其 进行 操作 ， 也 就 
是 个 向 其 发 出 操作 命令 ， 但 是 这 并 不 意味 着 在 这 段 时 间 内 它 就 一 定 龙 在 空转 ， 只 不 过 是 估计 在 此 之 前 
正在 进行 中 的 操作 肯定 不 会 完成 而已。 在 挑选 下 一 个 操作 对 象 时 ， 这 些 因 素 痢 应 该 考虑 进去 。 琐 数 
choose drive( ) 的 代码 在 ide.c 中 ， 我 们 就 把 它 留 给 读者 了 。 

挑选 上 下 个 操作 对 象 的 结果 有 中 能 是 空 。 原 因 可 能 有 “， 一 是 所 有 磁盘 的 操作 请 求 队列 都 是 字 ， 
浴 而 无 事 可 干 ， 二 是 所 有 的 磁盘 都 在 睡眠 状态 ， 丰 能 向 它们 发 出 操作 命令 。 所 以 ， 代 码 中 通过 - -个 
do. while [iii ide drive t 结构 的 环形 链 ， 找 出 其 小 最 早 的 睡 眼 结束 时 间 。 如 果 这 个 最 时 的 结束 时 
FE 0， 孝 就 说 明 找 不 出 … 个 操作 对 象 的 原因 确 是 因 睡 眠 引起 的 ， 因 此 将 ide_hwgroup t 结构 中 的 
sleeping 标志 设 成 1, ZR EI EE AH ATE EER 323 行 )， 同 时 设置 一 个 定时 器 ， 让 人 它 在 到 点 的 时 候 将 
该 ide hwgroup t 结构 “了 唤醒” 否则， 如 果 最 革 的 睡 虑 结束 时 间 为 0， 就 说明 该 组 磁 横 的 操作 请 求 队 
列 全 是 空 的 ， 所 以 把 它 的 busy 标志 设 成 0。 既然 滩 有 下 个 操作 对 象 ， AY ide_do_reguest( ) 就 结束 了 

C M, 1331 行 )。 

如 果 找 到 了 下 一 个 操作 对 象 ( 见 1333 47), ABRIL AREER, MERER IDE 0, X 
宏 操 作 HWIF 的 定义 见 include/linux/ide.h: 





96 #define HWIF (drive) ((ide hwif t *) ((drivo) -hwif)) 


读者 也 许 感到 奇怪 ， 在 dde hwgroup t 结构 中 不 是 有 个 指针 hwif 指向 当前 ide hwif t 数据 结构 吗 ? 
是 的 , (AAEM APA IDE 接口 共用 同 A ide hwgroup t 结构 的 话 , 新 挑选 的 ide_drive t 结构 可 能 不 
属于 原先 的 “当前 IDE 接口 "”。 如 果真 是 这 样 的 诈 ( 见 1334 行 )， 才 就 意味 着 IDE 接口 的 切换 ， 这 只 
Jc C re] IDE 接口 的 控制 寄存 器 (如 果 存 在 的 诉 ， 见 1334 行 ) 写 个 控制 字 节 将 该 接口 的 中 断 请 
求 关 闭 。 这 里 的 宏 操 作 SELECT. INTERRUPT 5E X. 1^ include/linux/ide.h: 


189 Hdefine SELECT. INTERRUPT (hwif, drive) N 

190 { \ 

191 if (hwif->intrproc) \ 

192 hwif->intrproc (drive) ; \ 

193 else \ 

194 OUT BYTE ((drive)->ctl 2, hwif->io_ports [IDE CONTROL. OFFSET]) ;\ 
195 } 


而 宏 操 作 OUT BYTE 的 第 1 个 参数 为 震 要 写 出 的 学 节 ， 当 这 个 字 节 的 bitl 为 1 时 ， 该 IDE 接口 的 
中 断 请 求 就 被 屏蔽 掉 了 。 第 2 个 参数 为 寄存 器 的 UO 地 址 ， 代 表 着 具体 IDE 接口 的 ide. hwif t 结构 中 
有 个 数组 io_ports[ ]， 该 数组 提供 了 接口 上 各 个 寄存 器 的 VO 地 址 。 

然后 ， 就 可 以 使 ide_hwgroup_t 结构 中 的 指针 hwif 和 drive 指向 新 的 当前 IDE 接口 利 磁盘 了 。 全 
局 量 jiffies 代表 当前 时 间 《〈 见 第 3 章 )， 这 就 是 本 次 操作 的 启动 时 间 sevice_start。 代 码 中 还 对 操作 对 人 象 
的 操作 请 求 队列 加 以 检验 ， 确 保 它 已 经 不 在 tq_disk 队列 中 。 

接着 ， 使 指针 hweroup->rq 指向 操作 请 求 队列 中 的 第 “个 操作 请 求 〈《 但 不 将 其 从 队列 中 脱 链 )， 这 
就 是 当前 操作 请 求 。 

全 此 ， 整 个 系统 的 中断 仍 丰 关 着 的 ， 但 是 马上 就 此 把 它 打开 了 (CÓ 1357 行 )， 内 为 为 了 个 具体 
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的 设备 而 长 时 间 关 闭 全 系统 的 中 断 机 制 是 不 合适 的 。 可 是 ， 对 当前 磁盘 的 操作 仍 不 允许 打扰 ， 所 以 ， 
在 打开 全 系统 的 中 断 之 前 可 能 需要 先 遂 过 disable irg nosync( ) 将 县 体 的 中 斯 服务 程序 关闭 ， 也 就 是 说 
在 打开 大 门 之 前 先 把 里 面具 体 房间 的 门 关 上 。 不 过 ， 这 也 是 有 条 件 的 ， 这 里 masked_irg 契 作 为 参数 从 
do_ide_request( ) 传 下 米 的 ， 从 它 的 代 个 中 可 以 看 到 这 个 参数 是 0， 所 以 这 里 1354 行 耻 洁 他 的 条 件 不 会 
得 到 满足 ， 也 就 是 说 不 必 先 把 里 面具 体 房 间 的 门 关 上 。 如 前 所 述 ， 在 我 们 这 条 执行 路 线 小 实际 上 已 经 
关上 了 -道门 ， 那 就 是 IDE ELIAS busy 标志 。 

做 好 了 这 些 准 备 , 现 在 可 以 根据 具体 的 操作 请 求 向 日 标 信 枢 发 出 操作 命令 了 , 这 是 由 start_request( ) 
完成 的 ， 其 代码 在 ide.c 中 。 读 者 将 会 看 到 ， 这 是 一 个 很 重要 的 两 数 。 





[run task queue() >__run_task_queue( ) > generic unplug device( ) > __ generic unplug device( ) 
> do ide request( ) > ide do request( ) > start. request( )] 


11290 — /* 
1130 * start request( ) initiates handling of a new I/O request 
1131 */ 
1132 static ide startstop t start request (ide drive t *drive) 
1133. { 
1134 ide startstop t startstop; 
1135 unsigned long block, blockend; 
1136 struct request *rq = blkdev entry next request (&drive->qucue. queue head) ; 
1137 unsigned int minor = MINOR(rq—^?rq dev), unit = minor >> PARTN BITS; 
1138 ide hwif t *hwif = HIWWIF(drive); 
1139 
1140 #ifdef DEBUG 
1141 printk(^*s: start request: current-0x*081xW^, hwif->name, (unsigned long) rq); 
1142 Hendif 
1143 if (unit >= MAX DRIVES) | 
1144 printk("*s: bad device number: %s\n”, hwif-^name, kdevname (rq->rq_dev)) ; 
1145 goto kill rq; 
1146 } 
1147 #ifdef DEBUG 
1148 if (rq->bh && !buffer locked(rq->bh)) | 
1149 printk("*s: block not locked\n”, drive->name) ; 
1150 goto kill rq; 
1151 } 
1152 #ondif 
1153 block = rq--sector; 
1154 blockend = block + rq-?nr sectors; 
1155 
1156 if ((rq>cmd == READ | rq->cmd == WRITE) && 
1157 (drive->media == ide disk || drive->media 一 ide, floppy)).! 
1158 if ((blockend < block) | 
(blockend > drive->part [mi nor&PARTN MASK]. nr socts)) | 
1159 printk (“%s%c: bad access: block=%ld, count-*1dWn^, drive—^name 
1160 (minor&PARTN MASK)?’ 0’ *(minor&PARTN MASK):' ', block, rq-^nr sectors); 
1161 goto kill rq; 
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1162 ] 
1163 block += drive->part [minor&PARTN MASK].start sect + drive—sect0; 
1164 } 
1165 /* Yecch - this will shift the entire interval, 
1166 possibly killing some innocent following sector */ 
1167 if (block == 0 && drive->remap_0_to 1 == 1) 
1168 block = 1; /* redirect MBR access to EZ-Drive partn table */ 
1169 
1170 #if (DISK RECOVERY TIME > 0) 
1171 while ((read timer( ) -~ hwif->last_time) < DISK RECOVERY TIME): 
1172 Bendif 
1173 
1174 SELECT DRIVE(hwif, drive); 
1175 if (ide wait stat(Kstartstop, drive, drive—>ready stat 
BUSY STAT|DRQ STAT, WAIT READY)) | 
1176 printk(^9$s: drive not ready for command\n”, drive—>name) : 
1177 return startstop; 
1178 } 
1179 if (!drive->special.all) | 
1180 if (rq->emd == IDE DRIVE CMD !| rq~>emd == IDE_DRIVE_TASK) { 
1181 return execute drive cmd(drive, rq); 
1182 ) 
1183 if (drivedriver != NULL) ( 
1184 return (DRIVER (drive)—>do_request (drive, rq, block)); 
1185 } 
1186 printk(^*s: media type %d not supported\n”, drive-^name, drive—>media): 
1187 goto kill rq; 
1188 } 
1189 return do_special (drive) ; 
1190 kill rq: 
1191 if (drive->driver != NULL) 
1192 DRIVER(drive)-^end request(0, HWGROUP (drive): 
1193 eise 
1194 ide end request(0, HWGROUP (drive)) ; 
1195 return ide stopped; 
1196 } 


首先 是 对 参数 的 检查 。 这 里 的 局 部 量 block 利 blockend 代表 着 操作 的 起 始 扇 区 号 和 结束 扇 区 号 ， 
而 不 是 逻辑 块 号 。 什 得 注意 的 起 1163 行 ， 如 果 所 操作 的 “磁盘 ”实际 上 只 是 磁盘 上 的 .个 分 区 ， 那 就 
此 将 逻辑 磁 愉 的 扇 区 号 映射 成 物理 磁盘 上 的 扇 区 号 。 在 物理 磁 枚 划分 成 多 个 分 区 的 情况 下 ， 相 应 
ide drive t 结构 中 的 数组 part ] 提 供 了 各 个 分 区 的 参数 ， 包 括 各 个 分 区 的 起 始 逻 辑 肩 区 号 。 这 个 肩 区 号 
之 所 以 仍旧 是 “人 逻辑 扇 区 号 ” 是 因为 磁盘 上 存在 着 一 个 “分 区 表 风 这 个 分 区 表 使 还 辑 上 的 扇 区 0 移 
到 了 另 一 个 物理 位 置 上 ， 这 个 位 置 就 是 drive->sect0。 此 外 ， 在 有 了 磁盘 分 区 存在 的 情况 下 ， 有 可 能 此 将 
用 于 引导 块 的 扇 区 0 BEAT BIDE 1 上 ， 此 时 ide drive t 结构 中 的 remapO to. 1 标志 为 1 (IL 1167 行 )。 
这 些 信 息 都 是 在 块 设备 初始 化 时 设置 好 了 的 。 

有 些 做 盘 在 相继 的 两 次 操作 之 问 要 有 个 “恢复 时 间 ” 对 这 样 的 做 复 要 通过 1171 行 的 while 循 坏 保 
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一 
证 其 恢复 时 间 ， 但 是 大 多 数 磁盘 都 没有 这 个 要 求 。 
直面 的 SELECT_DRIVE 是 个 宏 操 作 ， 与 SELECT INTERRUPT 相似 ， 其 定义 见 ide.h: 


182 #define SELECT. DRIVE (hwif, drive) \ 

183 { X 

184 if (hwit->selectproc) \ 

185 hwif-»selectproc (drive); \ 

186 QUT. RYTE ((drive)—>select. all, hwif->io_ports[IDE SELECT OFFSET]); ^ 
187. ] 


有 些 IDE 4 EGKTES AGK. "zl ae ELS ae FR” 之 前 先 执行 一 些 特殊 的 处 理 ， 所 以 这 样 的 
没 备 可 以 将 相应 ide. drive. t 结构 中 的 函数 指针 selectproc 预先 设置 好 ， 这 里 就 可 以 通过 函数 指针 调 几 这 
个 函数 了 。 但是- HEIDE 磁盘 都 没有 这 个 要 求 。 这 里 主要 是 设置 便 盘 的 “驱动 器 /磁头 选择 寄存 器 ”， 
这 个 8 位 寄存 器 的 格式 如 图 8.6 所 示 。 






四 位 磁头 
DVR: ORRERA (HHO), 1 ORME CBM DD 
L: 0 表示 CHS 模式 ，1 表示 LBA 模式 





图 8.6 ”驱动 器 /磁头 选择 寄存 器 格式 定义 


相应 的 数据 结构 定义 于 include/asm_i386/ide.h 中 : 


89 typedef union { 


90 unsigned all : 8; /* all of the bits together */ 

91 struct { 

92 unsigned head : 4; /* always zeros here */ 

93 unsigned unit IU /* drive select number, 0 or 1 */ 
94 unsigned bit5 BE /* always 1 */ 

95 unsigned lba pdy /* using LBA instead of CHS */ 

96 unsigned bit7 p 3o /* always 1 */ 

97 } b; 


98 } select_t; 


对 IDE 磁盘 上 的 肩 区 有 了 两 种 不 同 的 寻 址 方式 。 第 一 种 是 所 谓 CHS ( 柱 面 /磁头 / 遍 区 ) 模式 。 山 于 

“了 驱动 器 /做 头 选 择 寄存 器 ”中 只 有 4 位 用 于 磁头 选择 ， 最 多 就 只 能 有 16 个 做 头 。 同 时 ， 另 外 两 个 用 

于 柱 面 号 的 寄存 器 又 将 柱 面 数 限 制 到 1024, 1 区 号 寄存 器 又 将 (等 磁道 ) 扇 区 的 数量 限制 到 256。 可 是 ， 

蔓 把 一 个 辐 ( 磁 道 ) 划 分 成 256 个 扇 区 是 有 困难 的 ， 所 以 实际 上 只 能 划分 成 64 Ax. RAK, HX 

的 总 量 就 限制 为 1024X16X64=1 M, FP RET RA 512 FW, IDE Rib s RU S CERRAR PR BA] 

05 GB。 为 了 克服 这 个 缺点 ， 在 “扩充 IDE” 的 标准 中 又 提供 了 -种 LBA CRS) 模式 ， 将 整个 
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磁 弄 看 作 连 续 的 逻辑 肩 区 阵列 ， 而 由 IDE 磁 科 (更 确切 地 说 是 BIDE REAL) É 出 进行 从 逻辑 扁 区 号 到 
FEI. MEK. ERR, BORE, LR PY SHI FEHER, 加 上 原来 用 于 肩 区 号 的 寄存 器 ， 
上 髓 加 上 原来 用 于 磁头 号 的 4 位， 一 共有 28 位 用 于 逻辑 区 号 ， 使 理论 上 的 最 大 容量 达到 了 128 GB. 将 
张 动 占 /磁头 选 拉 寄存器 中 的 bit6 设置 成 1， 就 使 磁盘 工作 于 LBA 模式 。 

有 些 IDE 设备 有 些 特殊 操作 ， 例 如 在 每 次 读 / 写 以 后 都 要 让 磁 得 回 到 0 号 柱 面 等 等 ， REREAD 
初始 化 的 性 质 而 只 需 执行 一 次 。 为 了 照顾 到 这 些 有 特殊 要 求 的 磁盘 ， ide drive t 结构 中 设置 了 一 个 字 
段 special， 它 的 类 型 是 special t, 5E XI include/linux/ide.h: 


268 typedef union { 


269 unsigned all : 8; /* all of the bits together */ 
.210 struct { 

271 unsigned set geometry : 1: /* respecify drive geometry */ 
272 unsigned recalibrate pole /* seek to cyl 0 */ 

273 unsigned set multmode ye /* set multmode count x*/ 

214 unsigned set tune Lol /* tune interface for drive */ 
275 unsigned reserved IE E /* unused */ 

216 } b; 


277 ) special t; 


块 设备 初始 化 时 ,如 果 具 体 的 磁盘 有 特殊 要 求 ， 就 相应 地 设置 其 ide drive t 结构 中 这 个 字段 的 值 ， 
否则 设置 成 0。 

先 看 没有 特殊 要 求 的 情景 OL 1179 行 )， 这 是 主流 。 对 IDE HER 的 操作 可 以 分 成 两 类 。 “类 是 起 
控制 作用 的 命令 ， 如 单纯 的 磁头 定位 、 自 检 、 光 检 驱动 器 的 关门 /开门 等 。 这 一 类 的 命令 由 
execute_drive_cmd( ) 鼎 动 ， 这 些 拘 作 请 求 通常 不 是 由 用 户 进程 〈 应 用 程序 ) 发 出 的 。 另 .类 就 是 我 们 所 
关心 的 数据 读 / 写 命令 ， 通 过 具体 设备 的 驱动 函数 跳 转 表 ， 即 ide, driver t 结构 中 的 函数 指针 do_request 
启动 ， 宏 操作 DRIVER 的 定义 见 include/linux/ide.h: 


620 #deľine DRIVER (drive) ((ide driver t *) ((drive)—->driver)) 


NHTSA, ide drive t 数据 结构 中 有 个 指针 driver， 指 向 一 个 ide_driver t 数据 结构 《注意 不 要 混 
淆 这 两 种 不 同 的 数据 结构 》， 这 就 是 具体 设备 的 驱动 函数 跳 转 表 。 例如， 一 般 IDE BiB ek Bede 
idedisk_driver, Fite BBA ide_cdrom_driver, WARK Y idefloppy_driver, IDE 磁带 
驱动 器 的 函数 表 为 idetape_driver。 显 然 ， 这 种 数据 结构 起 着 类 似 十 file operations 数据 结构 的 作用 ， 其 
类 型 定义 见 ide.h: 


599 typedef struct ide driver s { 


600 const char *name; 

601 const char *version; 

602 byte media; 

603 unsigned busy tops 

604 unsigned supports dma aps 

605 unsigned supports dsc overlap  : 1; 
606 ide cleanup proc *c | eanup; 
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607 ide do request proc *do request; 
608 ide end request proc *end request; 
609 ide ioctl proc *ioctl; 

610 ide open proc *open; 

611 ide_release_proc *release; 

612 ide check media change proc *media change; 
613 ide revalidate proc *revalidate; 
614 ide pre reset proc *pre reset; 
615 ide capacity proc *capacity; 
616 ide special proc *special; 

617 ide proc entry. t *proc; 


618 ) ide driver t; 


数据 结构 idedisk driver 的 值 定义 于 ide.c T, AREAS EF oo: 


711 — /* 

112 * IDE subdriver functions, registered with ide.c 
713 */ 

714 static ide driver t idedisk driver = { 

715 "ide-disk', /* name */ 

716 IDEDISK VERSION, /* version */ 

717 ide_disk, /* media */ 

718 0, /* busy */ 

719 1, /* supports dma */ 
720 0, /* supports dsc overlap */ 
721 NULL, /* cleanup */ 

722 do rw disk, /* do request */ 
123 NULL, /* end request */ 
724 NULL, /* ioctl */ 

725 idedisk open, /* open */ 

726 idedisk_release, /* release */ 

727 idedisk media change, /* media change */ 
728 idedisk revalidate, /* revalidate */ 
129 idedisk pre reset, /* pre reset */ 
130 idedisk capacity, /* capacity */ 

731 idedisk special, /* special */ 

132 idedisk proc /* proc */ 

233. M 


可见 ， 其 函数 指针 do, request 指向 do_rw_disk( )， 这 个 函数 的 代码 也 在 ide, disk.c 中 。 这 又 是 一 个 
很 重要 的 函数 ， 由 十 代码 比较 长 ， 我 们 分 段 阅读 。 


[run task queue() > __run_task_queue( ) > generic unplug device( ) > __ generic unplug device( ) 
> do. ide request( ) > ide. do, request( ) > start, request( ) > do rw. disk( )] 


377 /* 
378 * do rw disk( ) issues READ and WRITE commands to a disk, 


.301 . 


379 
380 
381 
382 


383 
384 
385 
386 
387 
388 
389 
390 
391 
392 
393 
394 
395 
396 
397 
398 
399 
400 
401 
402 
403 
404 
405 
406 
407 
408 
408 
410 
411 
412 
413 
414 
415 
416 
417 
418 
419 
420 
421 
422 
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* using LBA if supported, or CHS otherwise, to address sectors 
* It also takes care of issuing special DRIVE CMDs. 
*/ 
static ide startstop t do rw disk (ide drive t *drive, 
struct request *rq, unsigned long block) 
{ 
if (IDE CONTROL, REG) 
OUT BYTE(drive-^ctl, IDE CONTROL. REG) ; 
OUT BYTE (rq->nr_sectors, IDE NSECTOR REG) ; 
#ifdef CONFIG BLK DEV PDC4030 
if (drive-^select.b.lba || IS PDC4030 DRIVE) { 
Helse /* !CONFIG BLK DEV PDC4030 */ 
if (drive-^select.b.lba) { 
#endif /* CONFIG BLK DEV PDC4030 */ 
#ifdef DEBUG 
printk("%s: %sing: LBAsect=%ld, sectors=%ld, buffer=0x%081x\n”, 
drive->name, (rq~>cmd==READ) ?" read" : “writ” 
block, rq->nr_sectors, (unsigned long) rq->buffer): 
#endif 
OUT BYTE(block, IDE, SECTOR. REO) ; 
OUT_BYTE (block>>=8, IDE LCYL REG); 
OUT BYTE(block?»-8, IDE HCYL REG); 
OUT_BYTE (( (block>>8) &0x0f) | drive->select. all, IDE SELECT. REO) ; 
} else { 
unsigned int sect, head, cyl, track; 
track = block / drive-^sect; 
sect = block % drive-^sect + l; 
OUT BYTE (sect, IDE, SECTOR REG) ; 
head = track % drive->head; 
cyl = track / drive->head: 
OUT BYTE(cyl, IDE LCYL REG); 
OUT_BYTE (cy1>>8, IDE HCYL REG); 
OUT_BYTE (head|drive->select. all, IDE SELECT. REO); 
#ifdef DEBUG 
printk(^*s: %sing: CHS=%d/%d/%d, sectors=%ld, buffer=0x%081x\n”, 
drive-?name, (rq-^cmd--READ)?"read":"writ^, cyl, 
head, sect, rq->nr sectors, (unsigned long) rq— buffer); 
Hendif 
} 
#ifdef CONFIG BLK DEV PDC4030 
if (IS PDC4030 DRIVE) | 
extern ide startstop t do pdc4030 io(ide drive t *, struct request *); 
return do pdc4030 io (drive, rq); 
} 
endif /* CONFIG BLK_DEV_PDC4030 */ 


这 里 的 IDE CONTROL REG Æ X. Jil ide.h: 
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126 #define IDE CONTROL REG (HWIF(drive)->io_ports[IDR CONTROL OFFSET]) 


其 他 一 些 寄存 器 VO 地 址 的 定义 也 与 此 相似 。 与 前 面 ide do request( ) 代 码 中 1336 行 调用 的 
SELECT INTERRUPT 作 一 对 比 ， 就 可 以 看 出 这 一 次 的 bit] 为 0， 表示 解除 对 IDE 接口 中 断 请 求 的 屏 
项 。 然 后 把 需要 读 / 写 的 扇 区 数量 写 入 磁盘 的 “ 肩 区 数量 寄存 器 ”(386 行 )。 至 于 起 始 克 区 ， 那 就 要 看 使 
用 的 是 LBA 模式 〈 见 390 行 ) 还 是 CHS R (CA 401 行 ) 了。 如 果 使 用 的 是 CHS 模式 就 葛 作 一 些 换 
& (403—404, 406—407 行 )。 我 们 继续 往 下 看 : 


[run_task_queue( ) > __run_task_queue( ) > generic_unplug_device( ) > __generic_unplug_device( ) 
> do. ide request( ) > ide do request( ) > start request( ) > do_rw_disk( )] 


423 if (rq->emd == READ) { 

424 #ifdef CONFIG BLK DEV IDEDMA 

425 if (drive->using dma && ! (HWIF(drive)->dmaproc (ide dma read, drive))) 
426 return ide started; 

421 #endif /* CONFIG BLK DEV IDEDMA */ 

428 ide set handler(drive, &read intr, WAIT CMD, NULL); 

429 OUT BYTE(drive-»mult count ? WIN MULTREAD : WIN READ, IDE COMMAND REG); 
430 return ide started; 

431 ) 


大 家 知道 ， 对 外 部 设备 的 VO 技术 有 了 两 种 。 一 种 是 出 CPU 驱动 的 “程序 控制 TO” Ren: “4 
外 设 已 经 准备 好 进行 IO 时 ， 就 由 CPU 执行 一 段 底层 VO 驱动 称 序 ， 在 外 设 与 内 存 缓冲 区 之 间 “ 搬 运 ” 
数据 ， 而 外 设 与 内 存 并 不 直接 接触 。 另 一 种 是 由 外 设 “ 直 接 访问 内 存 ” 即 DMA，CPU 把 缓冲 区 的 地 
址 与 需要 读 / 写 的 长 度 告诉 外 设 ， 外 设 在 准备 好 以 后 就 通过 有 关 硬 件 向 CPU 发 出 一 个 DMA isk, Bek 
CPU 暂停 使 用 内 存 ， 获 得 同意 之 后 就 直接 在 内 存 与 外 设 之 间 传 输 数据 ， 完 成 以 后 再 把 对 内 存 的 访问 权 
归还 给 CPU. (AE, CPU 对 曾经 发 生 过 的 暂停 使 用 内 存 以 及 谁 在 暂停 期 间 访问 了 内存 这 些 事情 并 无 知 
觉 ， 因 为 者 是 由 硬件 实现 而 不 是 在 程序 控制 下 实现 的 。 所 以 ， 需 要 有 -种 手段 ， 让 CPU 知道 由 某 种 设 
备 驱 动 的 一 次 DMA 已 经 完成 。 那 么 ， 在 程序 控制 UO 中 怎样 让 CPU 知道 外 设 已 经 准备 好 ， 在 DMA 
中 怎样 让 CPU 知道 DMA 已 经 完成 呢 ? 这 又 有 两 种 方法 ， -种 是 由 CPU fri oD, Ao Trin 
备 向 CPU 发 出 中 断 请 求 。 这 样 ， 一 共 就 有 4 种 可 能 的 组 合 。 由 CPU 查询 的 方法 显然 是 效率 很 低 的 ， 
所 以 只 在 很 简单 、 归 求 很 低 的 系统 中 才 使 用 ， 像 Linux 这 样 的 系统 当然 要 采用 中 断 方法 《 见 第 3 章 )。 
于 是 就 只 剩 下 中 断 与 DMA 和 中 断 与 程序 控制 UO 两 种 了 。 是 否 采 用 DMA & 个 系统 配置 的 选项 。 如 
果 选 择 了 采用 DMA， 这 里 的 条 件 编译 控制 CONFIG_BLK_DEV_IDEDMA MAM. AWA, 
而 在 编译 时 跳 过 这 里 的 425 和 426 两 行 。 我 们 将 在 以 后 专门 讨论 DMA， 在 这 里 假定 采用 程序 控制 UO 
的 方式 。 

对 于 读 操作 ，CPU 需要 在 磁盘 已 经 准备 杂 供 读 出 时 得 到 道 知 ， 表 执行 从 磁盘 读 出 ， 所 以 要 预先 设 
置 好 一 个 中 断 服 务 程序 read_intr( )， 这 是 由 ide_set_handler( ) 完 成 的 ， 它 的 代码 在 ide.c 中 : 


[run_task_queue( ) > __rmun_task_queue( ) > generic_unplug_device( ) > __generic_unplug_device( ) 
> do ide request( ) > ide_do_request( ) > start request( ) > do_rw_disk( ) > ide set handler( )] 


925 f* 
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526 This should get invoked any time we exit the driver to 

527 * wait for an interrupt response from a drive. handler( ) points 
528 * at the appropriate code to handle the next interrupt, and a 

529 * timer is started to prevent us from waiting forever in case 

530 * something goes wrong (see the ide timer expiry( ) handler later on). 
531 */ 

532 void ide set handler (ide drive t *drive, ide handler t *handler, 
533 unsigned int timeout, ide expiry t *expiry) 

534 f 

535 unsigned long flags; 

536 ide hwgroup t *hwgroup = HWGROUP (drive); 

537 

538 spin lock irqsave(&io request lock, flags); 

539 if (hwgroup->handler != NULL) | 

540 printk(“%s: ide set handler: handler not null; old=%p, new=%p\n”, 
541 drive->name, hwgroup-^handler, handler); 

542 ] 

543 hwgroup-^handler = handler; 

544 hwgroup->expiry = expiry; 

545 hwgroup->timer. expires = jiffies + timeout; 

546 add_timer (khwgroup->timer) ; 

547 spin unlock irqrestore(&io request lock, flags); 

548 } 


这 里 的 第 “和 第 .个 参数 是 不 言 白 明 的 ; 第 个 参数 是 为 本 次 操作 所 设置 的 时 间 限 制 :第 四 个 参 
数 是 个 函数 指针 ， 这 是 当 超 过 时 间 限 制 时 要 调用 的 函数 ， 捐 针 为 NULL 表示 采用 标准 的 超时 处 理 。 这 
些 参 数 都 记录 在 代表 者 具体 硬盘 所 属 磁盘 组 的 ide hwgroup. t 数据 结构 中 。 从 这 个 函数 也 可 以 看 出 , 一 
个 磁盘 组 在 则 一 时 间 蛙 只 能 有 一 个 磁盘 处 于 操作 状态 ,因为 在 ide_hwgroup_t 数据 结构 中 只 有 … 个 函数 
指针 指向 中 断 服务 程序 ， 也 只 有 一 个 用 十 操作 超时 的 定时 器 。 

为 中 断 作 好 准备 以 后 , CPU KU RERA, 可 以 通过 命令 寄存 器 下 达 局 动 读 操作 的 命令 了 ( 见 
429 行 )。 出 于 具体 磁盘 的 内 部 缓冲 区 大 小 各 不 相同 ,有 的 硬盘 每 读 出 一 个 肩 区 就 向 CPU 发 出 一 个 中 断 
请 求 ， 有 些 则 可 以 在 积累 起 多 个 厢 区 的 内 容 《 奶 果 需 要 的 话 ) 以 后 才 向 CPU 发 出 一 个 中 断 请 求 。 对 后 
一 种 硬盘 其 ide_drive t 结构 中 的 mult count 宁 段 为 非 0， 而 硬盘 除 接受 读 单个 扇 区 的 命令 WIN. READ 
外 也 可 接受 读 多 个 扇 区 的 命令 WIN MULTREAD. WA, 所谓“ 多 个 扇 区 ” 到 底 是 用 个 呢 ? 这 就 取决 
于 需要 读 的 肩 区 总 数 〈 见 386 行 ) 和 磁盘 内 部 缓冲 区 的 人 小 。 这 个 缓冲 区 大 小 在 IDE. 设备 初始 化 时 设 
置 在 mult count 字段 中 。 读 命令 一 经 发 出 ， 对 读 操 作 的 启动 就 完成 了 (430 IT), BER] Se 
jide_started。 从 指定 的 扇 区 将 数据 读 入 其 内 部 缓冲 器 后 ， 磁 盘 就 会 向 CPU 发 出 中 断 请 求 ， 以 后 就 是 中 
上 断 服 务 程序 read_intr( ) 的 事 了 。 

再 看 写 操作 的 启动 : 


[run_task_queue( ) > | run task queue( ) > generic_unplug_device( ) > __generic_unplug_device( ) 
»do ide request( ) > ide do request( ) > start request( ) > do rw disk( )] 


432 if (rq->cmd == WRITE) { 
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ide startstop t startstop; 
#ifdef CONFIG BLK DEV IDEDMA 
if (drive~>using dma && !(HWIF(drive)-^dmaproc(ide dma write, drive))) 
return ide started; 
Hendif /* CONFTG BLK DEV IDEDMA */ 
OUT BYTE(drive-^mult count ? WIN MULTWRITE : WIN WRITE, LDE COMMAND REO); 
if (ide wait stat(&startstop, drive, DATA READY, 
drive->bad_wstat, WAIT DRQ) { 
printk(KERN ERR “%s: no DRQ after issuing %s\n”, drive->name, 
drive-^»mult count ? "MULTWRITE" : "WRITE^); 
return startstop; 
} 
if (!drive—unmask) 
|. cli( 2; /x* local CPU only */ 
if (drive->mult count) { 
ide hwgroup t *hwgroup = HWGROUP (drive); 
f* 
Ugh.. this part looks ugly because we MUST set up 
the interrupt handler before outputting the first block 
of data to be written. If we hit an error (corrupted buffer list) 
in ide multwrite( ), then we need to remove the handler/timer 
before returning. Fortunately, this NEVER happens (right?). 


* xXx X X X* X 


Except when you get an error it seems.. 
*/ 
hwgroup-?wrq = *rq; /* scratchpad */ 
ide set handler (drive, &multwrite intr, WAIT CMD, NULL); 
if (ide multwrite(drive, drive->mult_count)) { 
unsigned long flags; 
spin lock irqsave(&io request lock, flags); 
hwgroup-»handler - NULL; 
del timer(&hwgroup >timer) ; 
spin unlock irqrestore(&io request lock, flags); 
return ide stopped; 
} 
} else { 
ide set handler (drive, &write intr, WAIT CMD, NULL); 
idedisk output data(drive, rq->buffer, SECTOR WORDS); 
} 
return ide started; 
} 
printk(KERN_ERR "Ws: bad command: %d\n”, drive->name, rq->cmd) ; 
ide end request (0, HWGROUP (drive)) ; 
return ide_stopped; 


} 


同样 ， 我 们 在 这 里 先 不 关心 DMA。 对 当 操 作 也 此 先 发 出 启动 命令 。 同 样 ， 根 据 其 体 磁盘 的 特性 ， 
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有 针对 单个 扇 区 的 WIN. WRITE 和 多 个 扇 区 的 WIN_NULTWRITE 两 种 命令 。 发 出 命令 以 后 ， 就 要 通 
过 ide wait stat( ) 等 待 和 读 收 磁盘 的 状态 寄存 器 。 这 个 等 待 只 不 过 是 大 约 400 微 堂 秒 的 时 间 ， 所 以 不 值 
得 采用 中 断 方 式 〈 磁 盘 也 并 不 为 此 提供 中 断 请 求 的 功能 )。 另 “方面 ， 由 于 对 VO 的 启动 是 在 bh 函数 
中 进行 的 ， 所 以 也 不 能 进入 睡眠 。 磁 盘 在 接收 到 写 操作 命令 并 准备 好 接受 待 写 入 的 数据 时 ， 就 将 其 状 
态 寄存 器 中 的 DRO 位 设 成 1， 表示 可 以 传输 数据 了 。CPU 一 方 检测 到 这 个 信息 以 后 ， 就 可 以 开始 答 出 
数据 了 。 可 想 而 知 ， 单 扇 区 的 写 出 与 多 扇 区 的 写 出 会 略 有 人 不同， 我 们 把 多 扇 区 的 写 出 447 一 466 DB 
给 读者 。 这 里 只 看 与 单 扇 区 有 关 的 代码 。 

首先 还 是 设置 中 断 服务 程序 ， 厅 过 这 一 次 设置 的 是 write_intr( )。 然 后 就 是 数据 的 输出 了 ， 函 数 
idedisk output data( ) 的 代码 也 在 ide_disk.c F: 


[run task _ queue( ) > run task queue( ) > generic unplug device()» ___ generic_unplug_device( ) 
> do ide request( ) > ide do request( ) > start request( ) > do rw. disk( ) > idedisk output data( )] 


79 static inline void idedisk_output_data (ide drive t *drive, void *buffer, unsigned 
int wcount) 


80 { 

81 if (drive->bswap) { 

82 idedisk bswap data(buffer, wcount); 

83 ide output data(drive, buffer, wcounl); 
84 idedisk bswap data(buffer, wcount); 

85 ] else 

86 ide output data(drive, buffer, wcount); 
87 } 


先 看 参数 ， 第 “个 参数 指 癌 代表 具体 硬盘 的 ide drive t AH; 第 二 个 参数 指向 缓冲 |x ， 操 作 请 求 
结构 中 的 指针 buffer 总 是 指 辣 其 缓冲 区 队 询 中 第 一 个 缓冲 区 的 升 头 ;第 三 个 参数 是 待 写 数据 的 长 度 ， 
这 里 固定 为 SECTOR. WORDS, #0 DEI RE CUL 16 位 字 计 算 )。 以 前 讲 过 ， 同 一 操作 请 求 所 涉 
及 的 肩 区 一 定 是 连续 的 ， 但 是 他 们 的 缓冲 区 却 不 : 定 连续 ， 不 过 缓冲 区 的 长 度 一 定 是 扇 区 大 小 的 整数 
倍 。 例 如 ， 将 两 个 操作 请 求 合并 成 一 个 时 ， 它 们 的 扇 区 定 是 连续 的 ， 但 是 缓冲 区 却 不 连续 。 

这 个 函数 所 做 的 还 不 是 真正 的 数据 输出 , AS GE FA ide output data( ) 完 成 的 。 这 里 所 做 的 是 可 能 需要 
的 对 宁 节 次 序 的 转换 。CPU 有 big ending 和 little enging 之 分 ，16 位 和 32 位 的 数据 在 这 两 种 制式 中 字 
贡 次 序 不 同 。 可 是 ， 磁 桂 上 的 数据 制式 不 应 该 跟着 CPU 跑 ， 册 应 该 固定 使 用 一 种 ， 所 以 有 可 能 需要 在 
读 / 写 磁盘 时 加 以 转换 。 

函数 ide output data( ) 的 代码 在 ide.c 中 : 

[run_task_dueue( ) > . run task queue( ) > generic unplug device()» . generic unplug device( ) 


> do ide request( ) > ide do request( ) > start request( ) > do rw disk( ) > idedisk output, data( ) 
» ide output, data( )] 


405 /* 
406 * This is used for most PIO data transfers *to* the IDE interface 
407 x/ 


408 void ide output data (ide drive t *drive, void *buffer, unsigned int wcount) 
409 { 
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410 byte io 32bit = drive-^io 32bit; 

411 

412 if (io 32bit) { 

413 Hif SUPPORT VLB SYNC 

414 if (io 32bit & 2) f 

415 unsigned long flags; 

416 save flags(flags); /* local CPU only */ 
417 clit ); /* local CPU only */ 

418 do vlb sync(IDE NSECTOR REO); 

419 outs] (IDE DATA REG, buffer, wcount); 

420 | restore flags(flags):; /* local CPU only */ 
421 } else 

422 üondif /* SUPPORT VLB SYNC */ 

423 outs] (IDE DATA REG, buffer, wcount); 

424 | else 1 

425 #if SUPPORT SLOW DATA PORTS 

426 if (drive->slow) | 

427 unsigned short *ptr = (unsigned short *) buffer; 
428 while (wcount--) 1 

429 outw p(kptrt++, IDE DATA REG); 

430 outw pOkptr**, IDE DATA REG); 

431 } 

432 } else 

433 &endif /* SUPPORT SLOW DATA PORTS */ 

434 ouLsw(TDE DATA REG, buffer, weount<<1) ; 

435 } 

436} 


人 部 分 IDE RERUM A EAB HE 16 f, Ae XE DEA OYEBRTEA B ETA “mk 
囊 输 出 ”指令 OUTS， 但 也 有 些 新 式 IDE 磁盘 提供 32 (BRA E28. MT ASB BEE 85 TDE W 
盘 而 言 ， 具 体 的 输出 是 通过 成 中 输出 指令 〈 见 434 行 ) 完成 的 。 输 出 的 数据 号 入 到 做 盘 的 内 部 缓冲 区 
中 

输出 完成 以 后 ， 对 写 操作 的 启动 就 完成 了 。 伐 盘 企 完成 本 次 与 入 操作 〈 将 数据 写 入 指定 的 而 区 中 ) 
后 会 向 CPU 发 出 中 断 请 求 , 以 后 就 是 中 断 服务 程序 write_intr( ) 的 事情 了 。 同样 , 这 里 也 返回 ide_started 

( 见 上 面 的 471 行 )。 

回 到 前 面 start_request( ) 的 代码 中 《〈 见 1189 行 )。 对 于 有 特殊 要 求 的 做 内 ， 其 special. all 字段 可 能 
为 非 0， 所 以 会 走 另 :条 路 线 执行 do_special( )。 不 过 ， 这 些 特殊 的 处 理 都 带 有 初始 化 的 性 质 ， 因 而 执 
行 了 一 所 以 后 就 把 相应 的 标志 位 清 成 0， 以 后 specialall 就 为 0 MAA NRA T o Zt do special( ) 
的 代码 也 在 ide.c 中 ， 我 们 把 它 留 给 有 兴趣 的 读者 自己 阅读 。 

至 此 ， 对 块 设备 VO 的 启动 己 经 完成 ， 以 后 的 事 就 完全 是 异步 的 了 。 下 面 我 们 以 读 操 作为 例 米 二 
罕 其 全 过 程 ， 读 者 在 理解 了 该 操作 的 全 过 程 以 后 自然 不 难 把 它 推广 到 与 操作 。 

磁盘 从 指定 的 扇 区 中 将 数据 读 入 其 内 部 缓冲 区 以 后 ,就 向 CPU 发 出 中 断 请 求 。 在 IDE 设备 初始 化 
时 ， 从 hwif_init( ) 调 用 的 init_irq( ) 中 , 已 经 通过 request_irq( ) 为 每 个 IDE 磁盘 组 登记 了 总 的 中 断 服务 程 
序 ide_intr( )， 所 以 CPU 在 响应 中 断 时 就 经 由 内 核 的 中 断 服务 机 制 ( 见 第 3 章 ) 进入 了 idein), € 
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的 代码 在 ide.c 中 : 


[do IRQ( ) > handle IRQ. event( ) > ide intr( )] 


1524 /* 
1525 * entry point for all interrupts, caller does | cli( ) for us 
1526 */ 


1527 void ide intr (int irq, void *dev id, struct pt regs *regs) 
1528 { 


1529 unsigned long flags; 

1530 ide hwgroup t *hwgroup = (ide hwgroup t *)dev id; 

1531 ide hwif t *hwif; 

1532 ide drive t *drive; 

1533 ide handler t *handler; 

1534 ide startstop t startstop; 

1535 

1536 spin lock irqsave(&io request lock, flags); 

1537 hwif = hwgroup->hwif; 

1538 

1539 if (lide ack intr(hwif)) { 

1540 spin unlock irqrestore(&io request lock, flags); 

1541 return; 

1542 ] 

1543 

1544 if ((handler = hwgroup->handler) == NULL || hwgroup— poll timeout != 0) { 
1545 /* 

1546 * Not expecting an interrupt from this drive. 

1547 * That means this could be: 

1548 * (1) an interrupt from another PCI device 

1549 * sharing the same PCI INTE as us 

1550 * or (2) a drive just entered sleep or standby mode, 
1551 * and is interrupting to let us know. 

1552 * or (3) a spurious interrupt of unknown origin. 
1553 * 

1554 * For PCI, we cannot tell the difference, 

1555 * so in that case we just ignore it and hope it goes away. 
1556 */ 

1557 ifdef CONFIG BLK DEV IDEPCT 

1558 if (IDE PCI DEVID EQ(hwif-^»pci devid, IDE PCI DEVID NULL)) 
1559 Wendif /* CONFIG BLK DEV IDEPCI */ 

1560 { 

1561 /* 

1562 * Probably not a shared PCI interrupt, 

1563 * so we can safely try to do something about it: 
1564 */ 

1565 unexpected intr(irg, hwgroup); 

1566 #ifdef CONFIG BLK DEV IDEPCI 

1567 ) else { 
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一 


1568 
1569 
1570 
1571 
1572 
1573 
1574 
1575 
1576 
1577 
1578 
1579 
1580 
1581 
1582 
1583 
1584 
1585 
1586 
1587 
1588 
1589 
1590 
1591 
1592 
1593 
1594 
1595 
1596 
1597 
1598 
1599 
1600 
1601 
1602 
1603 
1604 
1605 


1606 
1607 
1608 
1609 
1610 
1611 
1612 
1613 
1614 


/* 
* Whack the status register, just in case we have a leftover pending IRQ. 
*/ 

(void) IN BYTE(hwif-^io ports[TDE STATUS OFFSET]); 


Hendif /* CONFIG BLK DEV IDEPCI */ 


/* 


) 
spin unlock irqrestore(&io request lock, flags); 
return; 

} 

drive = hwgroup~>drive; 

if (!drive) { 


* This should NEVER happen, and there isn't much we could do about it here. 


*/ 


spin unlock irqrestore(&io request lock, flags); 
return; 
j 
if (!drive is ready(drive)) { 
/* 
* This happens regularly when we share a PCI IRQ with another device 
* Unfortunately, it can also happen with some buggy drives that trigger 
* the TRQ before their status register is up to date. Hopefully we have 
* enough advance overhead that the latter isn't a problem. 
*/ 
spin unlock irqrestore(&io request lock, flags); 
return; 
} 
if ({hwgroup->busy) { 
hwgroup->busy = 1; /* paranoia */ 
printk(“%s: ide intr: hwgroup->busy was 0 ??\n”, drive->name) ; 
} 
hwgroup >handler = NULL; 
del timer(&hwgroup-^timer); 
spin unlock(&io request lock); 


if (drive unmask) 
ide sti(); /* local CPU only */ 
startstop = handler(drive); /* service this interrupt, may set 
handler for next interrupt */ 
spin lock irq(&io request lock); 


/* 

* Note that handler( ) may have set things up for another 

* interrupt to occur soon, but it cannot happen until 

* we exit from this routine, because it will be the 

* samc irq as is currently being serviced here, and Linux 

* won t allow another of the same (on any CPU) until we return. 


*/ 
.309 . 


Linux W Ea RAN C FAO 


1615 set recovery timer(HWIF(drive)); 

1616 drive-^?service time = jiffies - drive->service start: 

1617 if (startstop == ide stopped) { 

1618 if (hwgroup-^handler == NULL) { /* paranoia */ 

1619 hwgroup->busy = 0; 

1620 ide do request(hwgroup, hwif-»irq); 

1621 ) else { 

1622 printk(^*s: ide intr: huh? expected NULL handler on exit An^ 
drive-^name); 

1623 } 

1624 } 

1625 spin unlock irqrestore(&io request lock, flags); 

1626 } 


向 内 核 的 中 断 机 制 登 记 中 断 服务 程序 时 ， 可 以 同时 为 之 设置 一 个 void 指针 ， 作 为 将 来 调用 该 服务 
程序 时 的 参数 〈 见 第 3 章 ) 。 这 就 是 这 里 的 指针 dev_id， 它 实际 上 是 指向 磁 得 组 的 ide hwgroup. t 数据 
结构 ， 从 这 个 数据 结构 中 可 以 找到 该 磁盘 组 的 当前 IDE 接口 ( 见 1537 行 ) 。 对 于 i386 结构 的 CPU, 
这 里 的 ide_ack_intr( ) 是 个 空 函数 ， 见 ide.h: 


109 #define ide ack intr(hwif) (1) 


由 于 我 们 已 经 在 前 面 的 do_rw_disk( ) 中 设置 好 了 具体 的 中 断 服务 程序 ， 对 十 读 操作 起 read. intr), 
这 里 的 函数 指针 hwgroup->handler 不 可 能 为 0， 所 以 我 们 跳 过 第 1544 行 条 件 语句 的 执行 部 分 。 同 时 ， 
1578 行 的 指针 hwgroup->drive 也 不 会 是 0， 因 为 磁盘 之 所 以 会 发 出 中 断 请 求 是 因为 曾经 向 它 发 出 了 命 
令 。 但是， 即使 对 于 在 正常 情况 下 不 会 发 生 的 事 也 要 作 好 准备 ， 以 防 万 -。 同 样 的 道理 也 适用 于 1585 
行 对 磁盘 状态 的 测试 。 

函数 指针 hwgroup->handler 的 内 容 已 经 转移 到 另 一 个 指针 handler 中 ，1599 行将 其 清 0。 这 说 明 在 
磁盘 组 层次 上 中 断 服务 程序 的 设置 是 一 次 性 的 ， 以 后 的 中 断 服务 程序 是 什么 要 视 本 次 中 断 服务 中 的 处 
理 而 定 。 向 磁盘 发 出 命令 启动 其 写 操作 时 ， 兽 经 为 磁盘 的 操作 设置 下 一 个 定时 器 ， 以 备 在 操作 超过 时 
间 限 制 时 采取 必要 的 措施 。 现 在 中 断 既 已 发 生 〔 并 且 已 经 检查 了 状态 寄存 器 ) ， 这 个 定时 器 显然 已 经 
不 需要 了 ， 所 以 通过 del_timer( ) 将 其 撤销 (1600 行 ) 。 

接 痢 就 是 调用 预先 设置 好 的 中 断 服务 程序 了 《〈1605 行 ) ， 对 于 读 盘 操作 这 是 read_intr( )， 其 代码 
在 ide disk.c 中 : 


[do. IRQ( ) > handie_IRQ_event( ) > ide intr( ) > read. intr( )] 


134 /* 

135 * read intr( ) is the handler for disk read/multread interrupts 
136 */ 

137 stalic ide startstop t read intr (ide drive t *drive) 

138 

139 byte stat; 

140 int i; 

141 unsigned int msect, nsect; 
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142 struct request *rq; 

143 

144 /* new way for dealing with premature shared PCI interrupts */ 
145 if (10K STAT(stat-GET STAT( ), DATA READY, BAD R STAT) | 
146 if (stat & (ERR STAT|DRQ STAT) { 

147 return ide error(drive, "read intr/, stat); 

148 ) 

149 /* no data yet, so wait for another interrupt */ 
150 ide set handler(drive, &read intr, WAIT CMD, NULL) ; 
151 return ide started; 

152 } 

153 msect = drive-?mult count; 

154 

155 read next: 

156 rq = HWGROUP (drive) rq; 

157 if (msect) { 

158 if ((nsect = rq current nr sectors) > msect) 

159 nsect - msect; 

160 msect -= nsect; 

161 ) else 

162 nsect = 1; 

163 idedisk input data(drive, rq->buffer, nsect * SECTOR WORDS) ; 
164 #ifdef DEBUG 

165 printk("%s: read: sectors (%ld-%ld), buffer-0x*081x, remaining=%ld\n’, 
166 drive->name, rq->sector, rq->sector+nsect-l, 

167 (unsigned long) rq->buffer+(nsect<<9), rq->nr_sectors-nsect) ; 
168 fendif 

169 rq->sector += nsect; 

170 rq->buffer += nsect<<9; 

171 rq-?errors = 0; 

172 i = (rq->nr_sectors -= nsect); 

173 if (((long) (rq->current_nr_sectors -= nsect)) <= 0) 

174 ide end request (1, HWGROUP(drive)); 

175 if (i > 0) { 

176 if (msect) 

177 goto read next; 

178 ide set handler (drive, &read intr, WAIT CMD, NULL); 
179 return ide started; 

180 } 

181 return ide stopped; 

182 ] 


这 里 的 OK_STAT() 是 个 安 操 作 , 它 将 由 GET_STAT() 从 状态 寄存 器 读 回 的 数值 与 DATA. READY 
#l BAD. R. STAT 比较 ， 看 是 否 状态 字 节 中 的 DATA_READY 位 为 1 而 BAD_R_STAT 位 为 0。 如 果 状 
态 字 节 表明 磁盘 尚未 准备 好 ， 但 是 也 没有 出 错 〈 见 150 行 ) ， 就 再 把 中 断 上 服务 程序 设置 成 read_intr( )， 
到 下 次 中 断 时 再 来 处 理 。 
如 果 磁 盘 确 已 准备 好 了 ， 那 就 从 相应 的 ide_hwgroup_t 结构 中 找到 当前 的 操作 请 求 。 以 前 讲 过 : 每 
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个 IDE 设备 都 有 自己 的 操作 请 求 队列 ,但 是 整个 1DE 接口 组 只 能 有 个 “当前 操作 请 求 ”,ide_hwgroup_t 
结构 中 的 指针 rq 就 指向 这 个 请 求 的 request 数据 结构 。 所 以 ， 这 里 先 时 通过 HWGROUP( ) 找 到 设备 所 
属 的 接口 组 ， 再 取得 其 当前 操作 请 求 。 此 外 ， 还 要 根据 反映 磁 骨 内 部 缓冲 区 人 小 的 drive->mult_count 
和 本 次 操作 中 要 求 从 磁盘 读 入 当前 缓冲 区 的 而 区 个 数 rq->current_nr_sectors， 确 定 一 次 从 磁盘 读 入 的 扇 
区 个 数 为 nsect。 

PR. idedisk_input_data( ) 的 代码 在 ide disk.c 中 。 可 以 想像 ， 它 与 前 面 的 idedisk_output_data( ) 相 似 
而 只 是 传输 数据 的 方 身 相 反 ， 所 以 我 们 不 看 具体 的 代码 了 。 

从 磁盘 读 入 以 后 ， 要 对 当前 操作 请 求 的 指针 buffer 和 计数 器 sector 、nr_sectors 、 以 及 
current. nr. sectors 作 相 应 的 调整 ( 见 169—170 以 及 172 一 173 行 )， 并 计算 出 当前 操作 尚未 完成 的 扇 区 数 
(172 行 )。 这 里 sector 为 已 经 读 入 的 累计 请 区 数 (对 本 次 操作 请 求 )，nr_sectors 为 本 次 操作 请 求 要 恋 入 的 
BR DX RX; current. nr. sectors 为 本 次 中 断 服 务 中 要 从 磁盘 读 入 到 当前 内 存 缓冲 区 的 扇 区 数 ; 而 msect 则 
为 本 次 操作 中 要 求 磁盘 读 入 ， 但 尚未 读 入 到 内 存 缓冲 区 的 扁 区 数 。 即 使 磁 捞 支持 多 扇 区 操作 ， 一 个 操 
作 请 求 也 可 能 要 通过 好 几 次 中 断 服 务 才 能 完成 。 此 外 ， 一 个 抬 作 请 求 也 可 能 涉及 多 个 缓冲 区 ， 所 以 在 
request 数据 结构 中 有 个 缓冲 区 队列 ; 对 分 布 在 不 同 缓冲 区 中 的 连续 扇 区 可 以 合并 成 同一 次 多 扇 区 操作 ， 
但 是 却 要 分 次 从 磁盘 读 入 ， 特 别 起 考虑 到 采用 DMA 时 更 是 如 此 ， 因 为 一 般 的 DMA 控制 器 (不 是 所 请 
Intelegent DMA) 没 有 自动 切换 缓冲 区 的 功能 。 

考虑 已 经 读 进 米 的 这 部 分 数据 与 整体 的 关系 ， 在 在 着 三 种 可 能 的 情况 : 

(1) 这 些 数 据 只 是 一 部 分 ， 并 且 磁 盘 的 内 部 缓冲 区 中 还 有 数据 尚未 读 出 ， 之 所 以 不 能 把 内 部 缓冲 

区 中 的 数据 全 部 读 出 是 因为 已 经 到 了 一 个 内 存 缓冲 段 的 末尾 。 在 继续 从 磁 描 的 内 部 缓冲 区 读 
出 之 前 ， 先 要 调整 缓冲 区 指针 使 其 指向 让 一 个 内 存 缓冲 区 ， 这 是 由 ide end request( ) 完 成 的 
CA 173—174 行 和 177 行 ) 。 

(2) 由 于 磁盘 内 部 缓冲 区 大 小 的 限制 ， 磁 盘 内 部 缓冲 区 中 的 数据 已 经 全 部 读 出 ， 但 是 当前 操作 尚 
木 完成， 磁盘 会 继续 从 有 关 扇 区 将 数据 谈 入 内 部 缓冲 区 后 再 次 发 出 中 断 请 求 ， 所 以 要 为 下 C 
RPI TERE HES COL 178 一 179 行 ) 。 同 时 ， 如 果 恰 巧 已 经 到 了 当前 缓冲 区 的 末尾 ， 就 也 葛 
通过 ide end request( ) 启 用 新 的 缓冲 区 ( 见 173 一 174 行 ) 。 

(3) ”这些 数据 就 是 当前 操作 请 求 所 要 求 的 全 部 ， 或 者 是 它 的 最 后 “部 分 ， 所 以 整个 操作 请 求 已 经 

完成 〈 见 181 行 ) 。 

显然 ， 当 整个 操作 请 求 完成 时 ， 内 存 中 的 缓冲 区 指针 也 必定 恰好 介 达 一 :个 缓冲 区 的 林 尾 ， 所 以 也 
会 调用 ide end request( )( 见 173 和 174 行 )。 

可 见 ， 内 要 到 达 了 一 个 缓冲 |x 的 末尾 ， 就 会 调用 ide end request( )， 其 目的 可 能 只 是 局 用 同 -操作 
请 求 中 的 下 一 个 缓冲 区 ， 也 可 能 对 整个 操作 请 求 的 善后 处 理 。 必 的 代码 在 ide.c h: 


[do IRQ( ) > handie IRQ event( ) > ide_intr( ) > read_intr( ) > ide, end request( )] 


505 /* 
506 * This is our end_request replacement function. 
507 */ 


508 void ide end request (byte uptodate, ide hwgroup t *hwgroup) 
509 | 
510 strucl request *rq; 
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511 unsigned long flags; 

512 

513 spin lock irqsave(&io request lock, flags); 

514 rg = hwgroup-?rq; 

515 

516 if (lend that request first(rq, uptodate, hwgroup->drive->name)) { 
517 add_blkdev_randomness (MAJOR (rg->rq_dev) ) ; 
518 blkdev_dequeue request (rq) ; 

519 hwgroup->rq = NULL; 

520 end that request last (rq); 

521 } 

522 spin unlock, irqgrestore(&io request lock, flags); 
33  j 


首先 调用 end. that. request. first( )， 其 代码 在 1L_rw_blk.c F; 


[do. IRQ( ) > handle IRQ event( ) > ide intr( ) > read_intr( ) > ide end. request( ) 
> end, that, request. first( )] 


10909 — /* 

1100 * First step of what used to be end request 

1101 * 

1102 * 0 means continue with end that request last 

1103 * ] means we are done 

1104 */ 

1105 

1106 int end that request first (struct request *req, int uptodate, char *name) 
1107 { 

1108 struct buffer_head * bh; 

1109 int nsect; 

1110 

1111 req-?errors = 0; 

1112 if (tuptodate) 

1113 printk('end request: 1/0 error, dev %s (%s), sector %lu\n’, 
1114 kdevname(req-^rq dev), name, req->sector) ; 
1115 

1116 if ((bh = req-^bh) != NULL) { 

1117 nsect = bh-^b size >> 9; 

1118 req->bh = bh-?b regnext; 

1119 bh->b_reqnext = NULL; 

1120 bh->b_end_io(bh, uptodate) ; 

1121 if ((bh = req->bh) != NULL) { 

1122 req-vhard_sector += nsect; 

1123 req->hard_nr sectors -= nsect; 

1124 req->sector = req->hard_sector; 

1125 req->nr_sectors = req->hard_nr_sectors; 
1126 

1127 req->current_nr_sectors - bh->b_size >> 9; 
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1128 if (req->nr_sectors < req-?current nr sectors) | 
1129 req-?nr sectors = req-?current nr sectors; 

1130 printk( lend request: buffer-list destroyed\n’) ; 
1131 ] 

1132 req->buffer = bh->b data; 

1133 return 1; 

1134 } 

1135 } 

1136 return 0; 

1137. ] 


不 管 整个 操作 请 求 是 个 已 经 完成 ， 对 其 中 一 个 缓冲 区 的 读 入 总 归 是 完成 了 ， 和 否则 就 到 不 了 这 个 函 
数 中 ， 所 以 把 当前 操作 请 求 的 缓冲 区 指针 移 向 队列 中 的 下 一 个 缓冲 区 (1118 行 )， 将 原来 的 当前 缓冲 区 
从 队列 中 解脱 出 来 。 同 时 ， 既 然 对 一 个 缓冲 区 的 操作 已 经 完成 ， 就 要 通过 其 函数 指针 b end io 调用 该 
缓冲 区 的 善后 程序 。 对 于 写 操作 , 这 个 函数 指针 是 在 __block_prepare_write( ) 以 及 类 似 的 函数 中 设置 的 ; 
对 于 读 操 作 则 在 getblk( ) 一 类 的 函数 中 通过 init buffer( ) 设 置 ， 但 是 这 个 函数 指针 一 般 都 指向 
end buffer io_sync()， 包 的 代码 在 fs/butfer.c F: 


[do IRQ() > handle IRQ event( ) > ide_intr( ) > read, intr( ) > ide end request( ) 
> end that request first( ) > end buffer io sync( )] 


978 /* 
979 * Default IO end handler, used by "1l rw block( )". 
980 */ 


981 static void end buffer io sync(struct buffer head *bh, int uptodate) 
982 { 


983 mark buffer uptodate(bh, uptodate); 
984 unlock buffer (bh); 
985  ] 


第 一 件 事 是 将 已 经 读 / 写 完毕 的 缓冲 区 的 BH, Uptodate 标志 位 设 成 1， 表 示 该 缓冲 区 的 内 容 已 是 最 
新 版 本 了 。 第 二 件 事 是 unlock_buffer( )， 见 locks.h: 


[do IRQ( ) > handle IRQ event( ) > ide_intr( ) > read intr( ) > ide_end_request( ) 
> end that request first( ) > end. buffer io sync( ) > unlock, buffer( )] 


29 . extern inline void unlock buffer (struct buffer head *bh) 


30 { 

31 clear bit(BH Lock, &bh->b state); 
32 smp mb after clear bit( ); 

33 if (waitqueue active(&bh-^b wait)) 
34 wake up(&bh-^b wait); 

35 } 


它 一 方面 清除 缓冲 区 的 BH lock 标志 位 ， 一 方面 唤醒 被 锁 在 外 面 、 正 在 睡眠 等 待 的 进程 。 哪 些 进 
程 会 被 唤醒 呢 ? 至 少 启动 了 对 该 缓冲 区 的 读 / 写 操作 , 并 调用 了 wait on. buffer ) 正 在 等 待 其 完成 的 进程 
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会 被 唤醒 。 例 如 ， 在 block_write( ) 和 block_read( ) 的 代码 中 ， 当 前 进程 在 通过 1L_rw_block( ) 发 出 对 块 设 
备 的 读 / 写 请 求 以 后 都 要 调用 wait_on_buffer( ) 等 待 。 所 以 ，wait_on_buffer( ) 是 启动 操作 的 进程 与 异步 的 
设备 操作 过 程 的 同步 点 。 当 读 / 写 操作 涉及 多 个 缓冲 区 时 ， 对 这 个 阴 数 的 调用 通常 放 在 一 个 循环 中 ， 以 
取得 与 所 有 缓冲 区 ( 读 / 写 ) 的 同步 。 

回 到 end_that_request_first( ) 的 代码 中 。 如 果 缓冲 区 队列 中 还 有 下 一 个 缓冲 区 存在 ， 就 相应 地 设置 
request 数据 结构 中 的 各 项 参数 ， 为 下 一 个 缓冲 区 的 读 / 写 作 好 准备 ， 并 返回 1。 如 果 绥 冲 区 队列 已 终 衬 
了 就 返回 0， 说 明 对 整个 操作 请 求 的 服务 都 已 完成 。 

回 到 ide_end_request( OHER. WR end_that_request_first( ) 返 回 的 是 1, 就 表示 同一 操作 请 求 的 
缓冲 区 队列 中 还 有 下 一 个 缓冲 区 ， 并 且 已 经 户 用 。 既 然 操 作 尚 末 完 成， 加 到 readin ) 中 自 会 进一步 加 
以 人 处理。 反之， 如果 返回 的 是 0， 那 就 说 明 整 个 操作 请 求 都 已 完成 了 。 这 时候 需要 执行 “ 些 对 整个 操作 
请 求 的 善后 处 理 。 处 理 些 什么 昵 ? -是 通过 blkdev_dequeue_request( ) 将 代表 这 个 操作 请 求 的 request £i 
构 从 操作 请 求 队列 中 摘除 ， 并 将 整个 IDE 接口 组 的 当前 请 求 指针 设置 成 NULL。 二 是 调用 
end_that_request_last( )， 等 一 下 我 们 要 看 它 的 源 代码 。 除 此 之 外 ， 还 搭配 了 一 点 “ 私 货 ”， 就 是 对 
add blkdev_randomness( ) 的 调用 。 这 是 干什么 用 的 呢 ? 系统 中 常常 需 此 生成 一 些 随 机 数 ， 为 了 使 这 些 
“随机 数 ” 更 加 随机 ， 需 要 在 生成 的 过 程 中 介入 尽 可 能 多 、 尽 可 能 随机 的 因素 ， 称 为 “ 米 ”。 例 如 ， 
刍 每 输入 的 内 容 就 可 以 用 来 作为 这 些 因 素 之 一 ， 因 为 每 次 开机 以 后 键 稚 输入 的 内 容 和 次 序 往往 是 不 完 
全 一 样 的 。 而 对 块 设备 的 访问 也 可 以 用 来 作为 个 因素 ， 这 就 是 这 时 调用 这 个 函数 的 原因 。 

函数 end_that_request_last( ) 的 代码 在 Hl rw. blk.c H: 


[do IRQ( ) > handle IRQ event( ) > ide_intr( ) > read, jntr( ) > ide end request( ) > end that request last( )] 


1139 void end that request last(struct request *req) 


1140 { 

1141 if (req2e) | 

1142 printk('end that request last called with non-dequeued req\n”); 
1143 BUG ( ) ; 

1144 } 

1145 if (req->sem != NULL) 

1146 up (req->sem) ; 

1147 

1148 blkdev_release_request (req) ; 

1149 ] 


显然 ， 这 里 主要 的 操作 是 释放 request 结构 (1148 行 ) 和 对 内 核 信号 量 req->sem 的 up( ) 操 作 。 用 
户 进程 可 能 通过 系统 调用 ioctl( ) 直 接 启 动 一 些 对 IDE 设备 的 操作 ， 对 这 些 操作 要 通过 使 用 内 核 信 号 量 
来 保证 互 斥 ， 现 在 既然 操作 已 经 完成 就 要 通过 up( ) 进 出 临界 区 。 

[E] & read_intr( ) 中 (175 行 )， 如 果 还 有 扇 区 尚未 读 入 ， 那 就 是 因为 原来 的 缓冲 区 已 经 满 了 ， 现 在 已 
经 通过 ide_end_request( ) 在 end. that, request, first( ) 中 切换 到 了 下 -个 缓冲 区 ， 所 以 可 以 继续 了 。 此 时 
+ msect 非 0， 就 表示 伐 盘 的 内 部 缓冲 区 中 还 有 数据 尚未 读 出 ， 所 以 直接 转 到 标号 read. next 处 (155 行 ) 
继续 读 出 。 香 则 ， 就 要 调用 ide_set_handler( ) 再 次 设置 中 断 服 务 程序 ， 为 下 “次 路 断 作 好 准备 ， 这 个 函 
数 的 代码 已 经 在 前 面 看 到 过 了 。 
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当 CPU 从 read. intr( ) 返 回 到 ide. intr( ) 中 时 ( 见 ide intr( ) 中 的 1606 行 )， 其 返回 值 有 两 种 可 能 。 一 


种 是 ide_started， 表 示 对 当前 操作 请 求 的 服务 尚未 完成 , 所 以 已 经 为 下 一 次 中 断 请 求 设 置 好 了 中 断 服务 
请 求 。 不 过 ， 只 要 还 没有 从 ide_intr( ) 返 回 ， 就 不 会 因 新 的 中 BERM ERS EARS PR. Ai 
Æ ide_stopped， 表 示 当 前 操作 已 经 完成 ， 代 表 当 前 操作 请 求 的 request 数据 结构 也 已 经 从 操作 请 求 队 鹿 
中 摘除 。 不 管 返 回 的 值 是 什么 ， 有 两 件 事 总 是 要 做 的 。 第 -一 件 事 是 通过 set recovery. timer( ) 根 据 当 前 
的 时 间 设 置 相 应 ide_hwif_t 数据 结构 中 的 last time 字段 。 不 过 这 只 有 对 那些 在 两 次 操作 之 间 需 此 有 - 
个 恢复 时 间 的 磁盘 才 必 须 。 第 二 件 事 是 根据 当前 时 间 和 本 次 操作 的 启动 时 间 计 算出 本 次 操作 山 经 耗费 
的 时 间 service_time。 

如 果 从 read_intr( ) 返 回 的 值 是 ide, stopped, MAZAH ide_do_request(), @ RJ -IDE NAL 
是 否 还 有 哪个 磁盘 的 队列 中 还 有 操作 请 求 。 这 个 函数 的 代码 已 经 在 前 面 读 过 了 。 

就 这 样 ， - 直 要 到 整个 IDE 接口 组 中 再 没有 任何 活跃 (不 在 睡 虑 中 ) 的 磁盘 还 有 操作 请 求 时 为 目 ， 
到 那 时 由 中 断 驱 动 的 设备 读 / 写 过 程 才 会 结束 。 如 果 结 束 时 有 磁极 正在 睡眠 中 ， 而 该 磁盘 的 操作 请 求 队 
列 中 又 有 操作 请 求 ， 那 么 在 睡眠 到 点 时 又 会 启动 这 个 过 程 。 当 然 ， 新 操作 请 求 的 到 来 也 会 再 次 启动 这 
个 过 程 。 


在 前 面 的 叙述 和 讨论 中 ， 我 们 假定 采用 的 是 程序 控制 TO 而 不 是 DMA， 现 在 我 们 再 来 看 看 对 IDE 
硬盘 的 DMA 输入 /输出 是 怎样 实现 的 。 如 前 所 述 ， 是 否 采 用 DMA 是 - -个 系统 配置 的 选项 ， 由 条 件 编 
译 控制 量 CONFIG_BLK_DEV_IDEDMA 决定 实际 采用 的 代码 。 

大 家 知道 ， DMA 是 “直接 访问 内 存 ” 的 缩写 ， 表 示 由 外 部 设备 直接 访问 内 存 。 但 是 ， 存 传统 的 
PC 系统 结构 中 , DMA 操作 要 通过 一 个 “DMA 控制 器 ” (更 确切 地 说 是 DMA 控制 器 中 的 一 个 “通道 ”) 
才能 进行 。 在 这 种 系统 结构 中 ， 要 对 外 设 进行 DMA 操作 时 ，DMA 控制 器 (经 过 CPU 的 设置 和 启动) 
就 暂时 “接管 ”CPU HAE, RAATH ERA”, 代替 CPU 发 出 访问 内 存 和 外 设 寄存 器 所 需 的 地 
址 以 及 控制 脉冲 ， 只 是 操作 的 速度 比 CPU 更 快 。 严 格 地 说， 在 这 种 系统 结构 中 ， 外 设 并 没有 变 成 内 存 
的 “ 主 设备 ”而 “当家 作 主 ” 从 而 “直接 ” 访 问 内 存 ， 而 是 仍然 处 十 被 动 的 地 位 ， 只 不 过 “ 主 设备 ” 
从 CPU 变 成 了 DMA 控制 器 和 而已。 所 以 ， 从 外 部 设备 的 角度 而 言 ， 比 之 别 的 “: 些 系统 结构 ， 传 统 PC 
系统 结构 中 的 DMA ALES ARIS. RT. PCL 总 线 的 设计 推广 了 PC 系统 结构 中 DMA 操作 的 概念 。 
以 前 我 们 曾 提 到 ，PCI 总 线 允 许 连 接 的 总 线 上 的 设备 竞争 成 为 总 线 主 设备 ， 并 日 可 以 把 内 存 看 成 是 总 
线 上 的 从 设备 。 这 样 一 来 ，PCI 设备 就 有 可 能 真正 当家 作 主 ， 作 为 主 设备 米 直 接 访问 内 存 了 。 当 然 
有 这 种 能 力 的 PCT 设备 接口 的 结构 要 更 复杂 一 些 。 因 具体 设备 性 质 的 不 同 ，PCI 设备 (接口 ) 吕 以 做 成 只 
有 成 为 总 线 主 设备 的 能 力 ， 也 可 以 不 具备 这 种 能 力 。 对 于 可 以 成 为 总 线 主 设备 的 设备 ， 在 配置 寄存 器 
组 的 命令 寄存 器 中 有 个 控制 位 ， 可 以 允许 或 不 允许 该 设备 (在 需要 时 ) 参 加 竞争 。IDE 硬盘 (接口 ) 就 具有 
成 为 总 线 主 设备 的 能 力 ， 因 而 可 以 进行 真正 意义 上 的 DMA 操作 。 为 了 与 传统 PC 系统 结构 的 DMA 操 
作 相 区 别 ， 这 种 DMA 操作 称 为 “总 线 主 DMA” (Bus Master DMA) 或 BMDMA. 2 TRA% BMDMA 
功能 的 PCI 设备 ， 如 果 有 必要 的 话 ， 仍 可 以 通过 DMA 控制 器 对 其 进行 “DMA，” 操 作 。 

为 了 BMDMA 的 需要 ，IDE 接口 中 增设 了 两 组 DMA 寄存 器 ， 分 唱 用 于 IDE BEM | 的 两 个 通道. 
这 些 寄存 器 采用 VO Hhhb, Jf Alley IDE 接口 的 第 五 个 地 址 区 站 (了 柄 置 寄存 器 组 中 的 resource[4]). ifi 
fi, IDE 接口 不 但 能 进行 传统 的 、 单 缓冲 区 的 DMA， 还 能 进行 多 缓冲 区 间 (- -个 区 间 中 可 以 包含 车 十 
连续 的 缓冲 区 ) 的 “ 串 式 ”DMA。 只 要 为 之 准备 下 A “DMA XER”, 表 沾 逐个 地 记 出 用 于 DMA f$ 

. 316 . 








第 8 章 设备 驱动 

作 的 若干 缓冲 区 间 ( 包 括 起 点 与 长 度 )， 并 把 这 个 表 的 起 始 地 址 写 入 IDE 接口 上 相应 的 “总 线 主 IDE Hi 
述 表 指针 ”寄存 器 (BMIDTPX)， 则 启动 DMA 操作 以 后 IDE 接口 会 先 从 表 中 找到 第 一 个 缓冲 区 间 的 地 
址 ;完成 对 第 一 个 缓冲 区 间 的 操作 以 后 就 会 自动 转 到 第 一 个 缓冲 区 问 ， 如 此 等 等 ， 育 到 完成 对 所 有 组 
冲 区 间 的 操作 。 下 面 读者 就 会 看 到 ， 一 旦 准备 好 了 DMA KEK, KI DMA 操作 的 代码 就 很 简单 了 。 

采用 DMA 与 否 只 涉及 很 底层 的 代码 ， 对 具体 设备 驱动 程序 的 结构 并 无 显著 的 影响 。 对 十 IDE B 
盘 的 驱动 ， 区 别 主 要 在 底层 函数 do_rw_disk( ) 中 ， 为 方便 阅读 ， 我 们 再 把 这 个 函数 的 有 关 片 断 列 出 于 
下 (drivers/ide/ide-disk.c): 


377 /* 

378 * do rw disk( ) issues READ and WRITE commands to a disk, 

379 * using LBA if supported, or CHS otherwise, to address sectors. 
380 * lt also takes care of issuing special DRIVE CMDs. 

381 */ 


382 static ide startstop t do rw disk (ide drive t *drive, 
struct request *rq, unsigned long block) 


383 { 

423 if (rq->cmd == READ) { 

424 #ifdef CONFIG BLK DEV IDEDMA 

425 if (drive-using dma && ! (HWIF(drive)->dmaproc (ide dma read, drive))) 
426 return ide started; 

427 Hendif /* CONFIG BLK DEV IDEDMA */ 

428 ide set handler(drive, &read intr, WAIT CMD, NULL): 

429 OUT BYTE(drive-^mult count ? WIN MULTREAD : WIN READ, IDE COMMAND REG); 
430 return ide started; 

431 } 

432 if (rq-^cmd == WRITE) { 

433 ide startstop t startstop; 

434 #ifdef CONFIG BLK DEV IDEDMA 

435 if (drive->using_dma && ! (HWIF(drive)->dmaproc (ide dma write, drive))) 
436 return ide started; 


437 #endif /* CONFIG BLK DEV IDEDMA */ 


476 } 


在 423 行 以 前 的 代码 已 经 对 IDE 硬盘 的 有 关 寄 存 器 (如 要 读 / 写 的 块 号 等 ) 进 行 了 必要 的 设置 。 有 关 
详情 可 参看 前 向 对 程序 控制 LO 方式 的 说 明 。 现 在 ， 剩 下 的 只 是 对 读 / 号 把 作 的 月 动 了 。 正 是 在 这 一 步 
E. DMA 与 程序 控制 WO A TEKH. 

"LX HI DMA 时 ,对 IDE 硬盘 的 谈 / 写 操作 部 是 通过 ide hwif t 数据 结构 中 提供 的 函数 指针 dmaproc 
完成 ， 只 是 参数 func 一 为 ide_dma_read， 为 ide_dma_write。 这 个 函数 指针 在 初始 化 时 设置 成 指 网 
ide dmaproc( )， 其 代码 在 drivers/ide/ide-dma.c 中 : 


[do rw. disk( ) > ide_dmaproc( )! 
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447 /* 

448 * ide dmaproc( ) initiates/aborts DMA read/write operations on a drive. 
449 * 

450 * The caller is assumed to have selected the drive and programmed the drive's 
451 * sector address using CHS or LBA. All that remains is to prepare for DMA 
452 * and then issue the actual read/write DMA/PIO command to the drive. 
453 * 

454 * For ATAPI devices, we just prepare for DMA and return. The caller should 
455 * then issue the packet command to the drive and call us again with 
456 * ide dma begin afterwards 

457 * 

458 * Returns 0 if all went well. 

459 * Returns 1 if DMA read/write could not be started, in which case 

460 * the caller should revert to PIO for the current request. 

461 * May also be invoked from trm290.c 

462 */ 

463 int ide dmaproc (ide dma action t func, ide drive t *drive) 

464 { 

465 ide hwif t *hwif = HWIF (drive) ; 

466 unsigned long dma base = hwif->dma_base; 

467 byte unit = (drive->select. b. unit & 0x01); 

468 unsigned int count, reading = 0; 

469 byte dma stat; 

470 

471 switch (func) { 

412 case ide dma off: 

473 printk(/$s: DMA disabled\n”, drive->name) ; 

474 case ide dma off quietly: 

475 outb(inb(dma base-2) & ~(1<<(Stunit)), dma_base+2) ; 

476 case ide dma on: 

477 drive->using dma = (func == ide dma on); 

478 if (drive-^using dma) 

419 outb (inb(dma_base+2) ; (1<<(5tunit)), dma base*2); 

480 return 0; 

481 case ide dma_check: 

482 return config drive for dma (drive); 

483 case ide dma read: 

484 reading = 1 << 3; 

485 case ide dma write: 

486 SELECT READ WRITE (hwif, drive, func) ; 

487 if (!(count = ide build dmatable(drive, func))) 

488 return 1;  /* try PIO instead of DMA */ 

489 outl (hwif->dmatable dma, dma base + 4); /* PRD table */ 

490 outb (reading, dma base); /* specify r/w */ 

491 outb(inb(dma base*2)!6, dma base+2);/* clear INTR & ERROR flags */ 
492 drive->waiting for dma = 1; 

493 if (drive->media !- ide disk) 

494 return 0; 
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495 ide set handler(drive, &ide dma intr, WAIT CMD, dma timer expiry): 
/* issue cmd to drive */ 

496 OUT BYTE(reading ? WIN READDMA : WIN WRITEDMA, IDE COMMAND REG); 

497 case ide dma begin: 

498 /* Note that this is done *after* the cmd has 

499 * been issued to the drive, as per the BM-IDE spec. 

500 * The Promise Ultra33 doesn't work correctly when 

501 * we do this part before issuing the drive cmd. 

502 */ 

503 outb(inb(dma base)|l, dma base); /* start DMA */ 

504 return 0; 

505 case ide dma end: /* returns l on error, 0 otherwise */ 

506 drive-^waiting for dma = 0; 

507 outb(inb(dma base)& 1, dma base);  /* stop DMA x/ 

508 dma stat = inb(dma_baset2) ; /* get DMA status */ 

509 outb(dma stat|6, dma base*2);/* clear the INTR & ERROR bits */ 

510 ide destroy dmatable(drive); /* purge DMA mappings */ 

511 return (dma stat & 7) != 4; /* verify good DMA status */ 

512 case ide dma test irq: /* returns 1 if dma irq issued, 0 otherwise */ 

513 dma stat = inb(dma base*2); 

514 Hif 0 /* do not set unless you know what you are doing */ 

515 if (dma stat & 4) 1 

516 byte stat = GET STAT( ); 

517 outb(dma base*2, dma stat & OxE4); 

518 } 

519 Hendif 

520 return (dma stat & 4) == 4; /* return 1 if INTR asserted */ 

521 case ide dma bad drive: 

522 case ide dma good drive: 

523 return check drive lists(drive, (func -- ide dma good drive)); 

524 case ide dma verbose: 

525 return report drive dmaing(drive); 

526 case ide dma timeout: 

527 #ifdef CONFIG BLK DEV IDEDMA TIMEOUT 

528 /* 

529 * Have to issue an abort and requeue the request 

530 * DMA engine got turned off by a goofy ASIC, and 

531 * we have to clean up the mess, and here is as good 

532 * as any. Do it globally for all chipsets. 

533 */ 

534 Hendif /* CONFIG BLK DEV IDEDMA TIMEOUT */ 

535 case ide dma retune: 

536 case ide dma lostirq: 

537 printk('ide dmaproc: chipset supported %s func only: %d\n’, 

ide dmafunc verbose(func), func); 

538 return 1; 

539 default: 

540 printk (“ide dmaproc: unsupported %s func: %d\n’, 
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ide dmafunc verbose(func), func); 
541 return 1; 


542 } 
543 } 


我 们 在 这 里 只 关心 idge_dma_read fll ide_dma_write PS FPERTE VERZE 484 行 下 面 没有 break 或 return 
诸多 ， 读 和 写 的 区 别 仅 在 十 变量 reading 的 代为 0x8 或 0x0，IDE 硬盘 接口 的 BMDMA 命令 寄存 器 中 用 
这 一 位 区 分 操作 的 方向 。 此 外 ， 在 496 行 后 面 也 没有 break 或 return 语句 ， 也 就 是 说 ide dma read 或 
ide_dma_write 操作 都 草 含 着 ide dma begin 操作 。 宏 操作 SELECT READ WRITE 定义 于 


include/linux/ide.h: 


203 Hdefine SELECT READ WRITE (hwif, drive, func) N 
204 { \ 

205 if (hwif->rwproc) \ 

206 hwif-^rwproc (drive, func) ; \ 

207  ) 


其 目的 是 为 一 些 特殊 的 IDE 硬盘 提供 可 能 需要 的 附加 操作 ， 一 般 的 IDE 硬盘 不 需要 附加 操作 ， 这 
个 函数 指针 rwproc 就 为 0。 
启动 DMA 操作 之 前 ， 先 要 通过 ide build dmatable( ) 准 备 好 DMA 区 间 表 。 这 个 函数 的 代码 在 


drivers/ide/ide-dma.c "P: 


[do rw. disk( ) » ide, dmaproc( ) » ide build dmatabie( )] 


248 int ide build dmatable (ide drive t *drive, ide dma action t func) 


249 í 

250 unsigned int *table = HWIF(drive)—>dmatable cpu; 

251 #ifdef CONFIG BLK DEV TRM290 

252 unsigned int is trm290 chipset = (HWIF (drive)->chipset == ide_trm290) ， 
253 #else 

254 const int is_trm290 chipset = 0; 

255 Bendif 

256 unsigned int count - 0; 

257 int 1; 

258 struct scatterlist *sg; 

259 

260 HWIF (drive)->sg nents = i = ide build sglist(HWIF(drive), HWGROUP (drive) rq); 
261 

262 sg = HWIF(drive) ->sg table; 

263 while (i && sg dma len(sg)) { 

264 u32 cur addr; 

265 u32 cur len; 

266 

267 cur addr = sg dma address (sg); 

268 cur len - sg dma len(sg); 
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} 


} 
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/* 

* Fill in the dma table, without crossing any 64kB boundaries. 
* Most hardware requires 16-bit alignment of all blocks, 

* but the trm290 requires 32-bit alignment. 


*/ 


while (cur len) { 
if (**count >= PRD ENTRIES) { 
printk(“%s: DMA table too smallWn^, drive-^name); 
pei_unmap_sg (HWLF (drive) —>pci_dev, 
HWIF (drive) —>sg_table, 
HWIF (drive) —>sg_nents, 
HWWIF(drive)-»sg dma direction); 
return 0; /* revert to P10 for this request */ 
} else { 
u32 xcount, beount = 0x10000 - (cur addr & Oxffff); 


if (bcount > cur. len) 
bcount = cur len; 
*table-* = cpu to le32(cur addr); 
xcount = bcount & Oxffff; 
if (is trm290 chipset) 
xcount = ((xcount >> 2) - 1) << 16; 
*iablet- = cpu to le32(xcount); 
cur addr += bcount; 
cur len -= bcount; 


if (!count) 


printk("*s: empty DMA table?\n”, drive-^name); 


else if (lis trm290 chipset) 


*--table |= cpu to 1e32(0x80000000); 


return count; 


在 ide hwif t 数据 结构 中 有 两 个 指针 ， 即 dmatable cpu 和 dmatable_dma， 二 者 都 指向 同一 个 用 于 
DMA 区 间 表 的 页 面 ， 这 个 页 而 是 在 初始 化 时 分 配 好 的 。 所 不 同 的 是 ，dmatable_cpu 通过 页 面 的 虚拟 地 
址 指向 这 个 页 面 , 这 是 CPU 所 看 到 的 DMA 区 问 表 ; 而 dmatable_dma 则 通过 其 物理 地 址 指向 这 个 页 面 ， 
这 是 IDE 接口 的 DMA 功能 部 分 所 看 到 的 DMA KEA. IR], ide hwif t 数据 结构 中 还 有 个 指针 
sg_table， 指 向 -… 个 scatterlist 结构 数组 。 每 个 scatterlist 结构 都 描述 了 一 个 用 本 DMA 操作 的 缓冲 区 问 ， 
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包括 其 起 始 ( 谱 拟 ) 地 址 address 与 长 度 length。 如 前 所 述 ， 每 个 缓冲 区 间 可 以 包含 若干 连 续 的 缓冲 区 ， 

而 IDE 接口 可 以 对 车 十 个 散布 的 (所 以 称 为 scatterlist) 缓冲 区 间 操作 。 当 文件 系统 层 要 求 设备 驱动 层 完 
成 对 具体 设备 的 I/O 时 ， 交 下 来 的 是 一 个 buffer_head 结构 队列 ， 队 列 中 的 繁 个 buffer_head 数据 结构 者 
描述 着 一 个 缓冲 区 。 这 些 缓冲 区 中 有 些 是 互相 连续 的 ， 有 些 则 不 是 ， 所 以 先 要 把 它们 整理 成 若干 人 组 
冲 区 间 ， 建 立 起 一 个 scatterlist， 为 进一步 建立 DMA 区 间 表 作 好 准备 。 这 种 数据 结构 定义 于 


include/asm-i386/scatterlist.h: 


Oo DN DA se 
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struct scatterlist { 


}; 


char * address; /* Location data is to be transferred to */ 
char * alt address; /* Location of actual if address is a 

* dma indirect buffer. NULL otherwise */ 
unsigned int length: 


先 通过 ide_build_sglist( ARTE AA PEPER eS AKIE”, dE] EERE 
FLEE Rh XARA JE ARTE KB), IX TS RC EC AE. drivers/ide/ide-dma.c 中 : 


static int ide build sglist (ide hwif t *hwif, struct request *rq) 


{ 
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struct buffer_head *bh; 
struct scatterlist *sg = hwif->sg table: 
int nents = 0; 


if (rq->emd == READ) 
hwif->sg_dma_direction = PCI DMA FROMDEVICE; 
else 
hwif->sg_dma direction = PCI DMA TODEVICE; 
bh = rq->bh; 
do { 
unsigned char *virt_addr = bh->b data; 
unsigned int size = bh->b_size: 


while ((bh = bh—b regnext) != NULL) { 
if ((virt addr + size) != (unsigned char *) bh->b data) 
break; 
size += bh->b size; 
] 
memset(&sg[nents], 0, sizeof(*sg)); 
sg[nents].address = virt addr; 
sg[nents]. length = size; 
nentst+; 
} while (bh != NULL); 


return pci_map_sg(hwif->pci_dev, sg, nents, hwif-^sg dma direction); 
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这 里 的 函数 pci_map_sg( ) 实 际 上 并 没有 什么 操作 ， 只 是 对 参数 的 合理 性 作 ”` 些 检验 ， 然 后 返回 
nents， 即 区 间 的 个 数 。 这 样 ， 操 作 请 求 所 涉及 的 一 串 缓冲 区 就 合并 成 了 着 十 区 间 ， 由 一 个 scatterlist 结 
构 数组 代表 。 数组 的 大 小 为 nents, 最 后 保存 在 ide hwif t 结构 的 sg. nents 字段 中 。 ALL, 这 个 scatterlist 
结构 数组 还 不 是 DMA 区 间 表 ， 所 以 在 同 到 ide_build_dmatable( ) 中 (260 行 ) 还 要 据 此 建立 起 DMA K 
表 。 

DMA 区 间 表 也 是 以 缓冲 区 间 为 基础 的 。 但 是 ， 由 十 IDE 接口 中 DMA 控制 部 分 的 设计 ,缓冲 区 间 
不 能 跨越 64KB 的 边界 (显然 ， 用 来 发 出 32 位 内 存 地 址 的 寄存 器 分 成 两 截 ， 其 商 16 位 在 整个 DMA 操 
作 过 程 中 国定 不 变 )。 因 此 ， 对 于 scatterlist 结构 数组 中 的 得 个 区 间 ， 代码 中 通过 一 个 while 循环 加 以 检 
查 ， 如 果 跨 越 了 64KB 边界 就 要 将 其 分 割 成 基干 DMA 缓冲 区 间 。 与 此 同时 ， 则 根据 最 终 形成 的 缓冲 区 
间 建 立 起 DMA KAK. DMA 缓冲 区 间 不 能 跨越 64KB 边界 ， 如 果 缓 冲 区 间 的 起 点 恰好 与 64KB 边界 
对 齐 , 则 每 个 DMA 缓冲 区 最 大 可 达 64KB, 省 则 就 取决 于 起 点 的 位 置 。 例 如 ， 如 果 缓 冲 区 的 起 点 在 16KB 
处 ， 那 么 最 大 可 达 48KB( 见 285 17). DMA 区 间 表 是 个 32 位 无 符号 整数 数组 ， 数组 中 每 岗 个 无 符号 整 
数 合 在 一 起 描述 -个 DMA 缓冲 区 ， 称 为 “物理 区 间 描 述 ”(Physical Region Descriptor). 其 中 第 PA 
符号 整数 为 缓冲 区 起 点 的 物理 地 址 (289 行 ), 第 :个 为 缓冲 区 的 长 度 (293 17), 均 须 转换 成 “Little Ending” 
格式 。 区 间 的 起 点 在 一 开始 (267 行 ) 就 通过 宏 操 作 sg_dma_address( ) 转 换 成 了 物理 地 址 ， 所 以 随后 计算 
出 来 (294 行 ) 的 都 是 物理 地 址 。 宏 操作 sg_dma_address( ) 的 定义 在 include/asm-i386/pci.h 中 : 


164  #define sg dma address(sg) (virt_to_bus((sg)->address)) 
165 &define sg dma len(sg) ((sg)->length) 


总 线 地 址 实际 上 就 是 物理 地 址 ， 宏 操作 virt to bus 也 就 是 virt_to_phys ， 定义 于 


include/asm-i386/1o.h: 


157 /* 
158 * IO bus memory addresses are also 1:1 with the physical address 
159 */ 


160 #define virt to bus virt to phys 
161 #define bus to virt phys to virt 


Y DMA 区 间 表 分 配 的 空间 是 一 个 页 面 ， 分 用 于 IDE 接口 的 两 个 设备 ， 所 以 每 个 操作 表 的 容量 为 
PRD ENTRIES, El 256. 如果 蓝 求 一 次 就 读 / 写 超过 256 个 DMA 缓冲 区 (难以 想像 )， 那 就 不 能 道 过 DMA 
操作 来 完成 了 ,此 时 ide_puild_dmatable( )JR[Pl 0, 从 而 使 de_dmaproc( EIE 101. 488 行 )。 从 do_rw_disk( ) 
的 代码 中 (425 和 435 行 ) 可 以 看 出 ， 当 ide_dmaproc( REL 1 时 ， 就 又 回 到 程序 控制 VO 方式 的 代码 中 继 
续 执 行 ， 仍 能 完成 所 要 求 的 读 / 写 ， 只 不 过 效 兴 低 一 些 而 已 。 

回 到 ide_dmaproc( ) 的 代码 中 (487 行 ), 准备 好 DMA 区 间 表 以 后 ， 下 面 就 是 对 DMA 控制 器 中 有 关 
寄存 器 的 操作 了 。 为 便 寺 阅读， 我 们 理 列 出 这 个 函数 中 的 关键 几 行 : 


[do_rw_disk( ) > ide, dmaproc( )] 


489 out] (hwif->dmatable_dma, dma base + 4); /* PRD table */ 
490 outb(reading, dma base); /* specify r/w */ 
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491 outb (inb (dma base*2) |6, dma_base+2) ; /* clear INTR & ERROR flags */ 
492 drive->waiting for dma = 1; ^ 
493 if (drive—media != ide disk) 
494 return 0; 
495 ide set handler(drive, &ide dma intr, WAIT CMD, 
dma, timer expiry); /* issue cmd to drive */ 
497 OUT BYTE(reading ? WIN READDMA : WIN WRITEDMA, IDE COMMAND REG); 
497 case ide dma begin: 
498 /* Note that this is done *after* the cmd has 
499 * been issued to the drive, as per the BM-IDE spec 
500 * The Promise Ultra33 doesn't work correctly when 
501 * we do this part before issuing the drive cmd. 
502 */ 
503 outb (inb (dma_base) |1, dma base): /* start DMA */ 
504 return 0; 


Ft DMA 区 间 表 的 (物理 ) 地 址 hwif-»dmatable dma 写 入 描述 表 指 针 寄存 器 (489 行 )。 把 操作 的 
方向 ( 读 或 写 ) 写 入 共 “ 命 令 寄 存 器 ”(490 行 )， 并 将 状态 寄存 器 中 的 “中 断 请 求 ” 和“ 出 错 ” 岗 个 标志 
位 清 成 0(491 行 )。IDE 接口 的 DMA 控制 部 分 共有 16 个 字 节 ， 前 8 个 用 于 接口 上 的 第 - -个 设备 ide0， 
后 8 个 则 用 于 ide1。 根 据 具体 的 设备 ， 初 始 化 时 就 把 相应 ide_hwif t 数据 结构 中 的 字段 dma_base 设置 
成 指向 其 DMA 控制 部 分 的 起 点 ， 这 就 是 这 里 的 dma_base〔 见 466 行 ) 。 其 中 从 地 址 dma_base 并 始 是 
8 位 的 命令 寄存 器 ， 从 (dma_base+2) 开 始 是 8 位 的 状态 寄存 器 ， 从 (dma_base+4) 开 始 则 是 32 位 的 描述 麦 
指针 寄存 器 。 

然后 ， 通 过 ide set handler( ) 设 置 好 本 次 DMA 操作 结束 时 的 中 断 服 务 程序 ide dma intr( )， 同 时 
也 设置 好 超时 处 理 程序 dma_timer_expiry( )，ide_set_handler( ) 的 代码 在 drivers/ide/ide.c +: 


532 void ide set handler (ide drive t *drive, ide handler t *handler, 


533 unsigned int timeout, ide expiry t *expiry) 
534 { 

535 unsigned long flags; 

536 ide hwgroup t *hwgroup = HWGROUP (drive); 

537 

538 spin lock irqsave(&io request lock, flags); 

539 if (hwgroup-^handler !- NULL) { 

540 printk("Xs: ide set handler: handler not null; old=%p, new=%p\n”, 
541 drive->name, hwgroup >handler, handler); 

542 } 

543 hwgroup->handler = handler; 

544 hwgroup—>expiry - expiry; 

545 hwgroup->timer. expires = jiffies + timeout; 

546 add timer(&hwgroup ->>timer) ; 

547 spin unlock irqrestore(&io request lock, flags); 

548 } 


最 后 ,中 IDE 硬盘 的 命令 寄存 器 发 出 WIN. READDMA 或 WIN_WRITEDMA, 启动 硬盘 的 操作 (496 
.324 . 


47), 紧 接着 (503 行 ) 向 其 DMA 命令 寄存 器 也 发 出 启动 命令 (将 其 最 低位 设 成 1). 此后, IDE 硬盘 和 DMA 
控制 器 的 操作 对 于 CPU 就 是 透明 的 了 。 以 读 操作 为 例 , IDE 硬盘 在 有 了 供 读 出 的 数据 以 后 便 向 其 DMA 
控制 部 分 发 出 电信 号。 而 DMA 控制 部 分 , 则 从 DMA 区 间 表 中 找到 第 个 缓冲 区 间 。 然 后 产生 出 反复 
从 IDE 接口 读 出 数据 并 写 入 缓冲 区 间 所 需 的 电信 号。 如 盯 … 个 缓冲 区 间 满 了 ， 就 从 DMA 区 间 表 中 找 
到 下 一 个 缓冲 区 间 ， 再 继续 往 里 写 。 这 样 ， 一 直 要 到 完成 了 当前 的 整个 DMA 操作 以 后 才 会 向 CPU 发 
出 一 个 中 断 请 求 ， 使 CPU SA DMA 操作 的 中 断 服务 程序 ide dma intr( ) 中 ， 这 个 晤 数 的 代码 在 
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drivers/ide/ide-dma.c 中 : 


189 
190 
191 
192 
193 
194 
195 
196 
197 
198 
199 
200 
201 
202 
203 
204 
205 
206 
207 
208 
209 
210 
211 
212 


DMA 中 断 的 发 生意 味 着 一 次 DMA 操作 的 结束 ， 因 此 以 功能 码 ide dma end. 为 参数 调用 


y 


* 


* dma intr( ) is the handler for disk read/write DMA interrupts 


*/ 


ide startstop t ide dma intr (ide drive t *drive) 


{ 


} 


int i: 


byte stat, dma stat; 


dma stat = HWIF(drive)-^dmaproc(ide dma end, drive); 


stat = GET STAT( ) ; 


/* get drive status */ 


if (OK STAT(stat, DRIVE READY, drive->bad_wstat DRQ_STAT)) { 
if (!dma stat) ( 


) 


} 


struct request *rq = HWGROUP (drive)—>rq; 
rq = HWGROUP (drive) ->ra; 
for (i = rq->nr_sectors; i > 0;) | 

i -= rq-?current nr sectors; 

ide end request(l, HWGROUP (drive)); 
} 


return ide stopped; 


printk("%s: dma intr: bad DMA status\n”, drive-^name); 


return ide error(drive, “dma_intr”, stat); 


ide_dmaproc( )。 同 样 ， 为 方便 阅读 ， 我 们 再 把 这 个 函数 中 有 关 的 片断 列 出 于 下 : 


[ide_dma_intr( ) > ide, dmaproc( )] 


505 
506 
507 
508 
509 
510 
511 


case ide dma end: /* returns 1 on error, 0 otherwise */ 


drive->waiting for dma = 0; 
outb(inb(dma base)& 1, dma base); /* stop DMA */ 


dma stat = inb(dma base^2); /* get DMA status */ 
outb(dma stat|6, dma base*2); /* clear the INTR & ERROR bits */ 
ide destroy dmatable(drive); /* purge DMA mappings */ 


return (dma_stat & 7) != 4; /* verify good DMA status */ 
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首先 将 DMA 控制 器 命令 寄存 器 的 最 低位 清 0， 使 其 停 目 运行 : 然后 读 入 其 状态 寄存 器 ， 并 将 其 中 
断 标志 位 INTR 和 出 错 标志 位 清 0。 这 时 还 调用 了 一 个 函数 ide destroy dmatable( )， 其 代码 在 
drivers/ide/ide-dma.c 中 : 


[ide_dma_intr( ) > ide dmaproc( ) > ide_destroy_dmatable( )] 


311 /* Teardown mappings after DMA has completed. */ 
312 void ide destroy dmatable (ide drive t *drive) 


313 { 

314 struct pci dev *dev = HWIF(drive)—>pci_dev; 

315 struct scatterlist *sg = HWIF(drive)—>sg table; 

316 int nents = HWIF(drive)—>sg_nents: 

317 

318 pci unmap sg(dev, sg, nents, HWIF(drive)—>sg_dma_direction) : 
319  ] 


这 里 的 pei. unmap. sg ) 实 际 上 并 没有 什么 操作 。 其 实 ，DMA 区 间 表 也 无 须 废除 ， 用 于 DMA RKE 
Fe) SEA EA, OP … 次 要 进行 DMA 操作 时 月 会 再 在 同 一 个 页 面 中 建立 起 新 的 DMA KAR. 

然后 ， 如 果 状 态 寄 存 器 指示 操作 并 未 出 错 ， 则 对 操作 请 求 中 涉及 的 缓冲 区 调用 ide end request(). 
这 个 函数 的 代码 已 经 在 前 面 讲述 程序 控制 VO 时 读 过 了 ， 读 者 可 以 回 过 去 复习 一 下 。 另 一 方面 ， 这 也 
说 明 DMA 操作 和 程序 控制 VO 殊途同归 ， 者 到 了 调用 ide_end_request( ) 的 时 候 ， 下 面 就 都 一 样 了 。 


上 面 我 们 以 IDE 夸 盘 为 例 说 明了 块 设备 的 驱动 。 实 际 的 块 设备 种 类 当然 很 多 ， 光 是 IDE 设备 就 有 
WA KÈ Bi. wA (CDROM) 及 可 写 光盘 等 。 我 们 不 可 能 在 一 本 书 中 一 一 加 以 介绍 ,但 是 ， 
只 归 理 解 了 对 IDE 硬盘 的 驱动 ， 读 者 在 进步 阅读 分 析 其 他 设备 的 驱动 程序 代码 时 就 不 至 十 有 太 大 的 
问题 了 。 此 外 ， 除 IDE 硬盘 外 ，SCSI 硬盘 也 是 很 常用 的 ， 但 是 限于 篇 幅 我 们 也 不 能 对 SCSI 总 线 以 及 
有 关 设 备 的 驱动 再 作 介 绍 了 。 有 有 兴趣 或 需 些 的 读者 可 以 参考 有 关 专 著 或 技术 资料 ， 自 行 阅读 有 关 的 代 
码 ， 这 些 代 码 大 多 在 drivers/scsi Hf. 

最 后 ， 还 有 一 个 非常 值得 一 提 的 话题 是 磁盘 阵列 。 在 drivers/md Hax FE raid0.c、raidl.c 等 文件 
是 关于 做 检 阵 列 的 ， 但 是 限 十 篇 幅 也 不 能 在 本 书 中 加 以 介绍 ， 而 只 好 留 给 谈 者 了 。 读 者 也 许 对 此 感到 
Tati. Sed Sp. 


8.6 字符 设备 驱动 概述 


在 内 核 中 ， 字 符 设备 的 驱动 是 最 多 翌 、 最 灵活 多 变 的 部 分 。 这 首先 是 因为 学 符 设 备 本 身 的 多 样 性 ， 
各 种 字符 设备 在 作用 、 功 能 、 结 构 等 等 方面 真是 石花 八 门 。 有 的 “字符 设备 ”其 全 并 不 是 学 面 意义 上 
的 “设备 ”， 如 下 和 面 要 讲 到 的 /devnull 就 是 一 个 例子 ;而 有 的 则 又 相当 复杂 血 需 要 把 虹 动 程序 进一步 
划分 成 若干 子 层 ,或 者 进 …… 步 分 解 成 若干 项 低层 的 设备 ， 如 PC 机 的 控制 台 终 端 实际 上 就 包括 了 显示 器 
作 键 襄 。 其 次 ， 这 种 多 样 性 还 来 自 对 设计 和 开发 字符 设备 驱动 程序 的 广泛 参与 。 全 贞 界 通过 英 特 网 参 
与 Linux 开发 的 人 数 以 千 计 ， 如 果 说 如 进程 、 调 度 、 进 程 间 通信 、 内 存 管 理 等 方面 的 工作 相对 而 言 还 
. 326 . 
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比较 集中 丁 某 一 些 核心 人 士 的 话 ， 邦 么 对 十 设备 驱动 ， 特 别 是 字符 设备 驱动 方面 的 工作 就 分 布 得 很 广 
了 。 这 种 广泛 的 参与 当然 会 带 来 一 些 风 格 上 、 技 巧 运用 上 、 程 序 结构 上 的 多 样 性 。 不 过 ， 由 十 Linux 
内 核 总 体 上 的 结构 性 和 模块 性 ， 这 种 多 样 性 愉 是 次 要 的 ， 并 不 占 主导 地 位 。 最 后 ， 多 样 性 还 来 自 不 同 
的 历史 渊源 。 其 中 最 重 归 的 是 对 一 些 《〈 并 非 全 部 ) 网 络 设备 (如 Ethernet MNF) 的 上 驱动， 这些 设备 
的 驱动 从 开始 就 纳入 了 “插口 ” (socket) 机 制 的 范畴 而 并 不 遵循 Unix/Linux 为 设备 驱动 设计 的 统一 
的 格局 ， 导 就 是 通过 主 设备 号 /次 设备 号 来 区 分 设备 并 且 引 导 CPU 进入 具体 设备 的 驱动 程序 。 因 此 ， 这 
些 设备 似乎 既 不 属于 快 设备 ,也 不 属于 学 符 没 备 ,， 其 驱动 方式 自 成 一 赂 ， 并 且 没 有 相应 的 “设备 文件 ”。 
由 于 篇 幅 的 限制 ， 本 书 将 不 涉及 网 络 方面 的 内 容 ， 而 只 专注 十 传统 的 设备 驱动 模式 。 尽 管 有 些 网 络 设 
备 的 驱动 实际 上 确实 遵循 这 种 统一 的 格局 ， 我 们 也 只 好 从 略 。 

正如 我 们 反复 讲 过 的 那样 ， 传 统 的 、 统 -的 Unix 设备 驱动 是 以 主 / 次 设备 号 为 岗 的 。 等 项 设备 都 
属于 块 设备 或 字符 设备 ， 部 有 惟 ， :的 主 设备 号 利 次 设备 号 ， 衣 内 核 中 则 有 块 设备 表 和 字符 设备 胡 ， 根 
据 设备 的 类 型 和 主 设备 号 便 可 通过 这 着 个 设备 表 之 一 找到 相应 的 驱动 函数 跷 转 结构 ， 而 次 设备 号 则 … 
般 只 用 作 同 类 型 设备 中 具体 设 备 项 的 编号 通常 决定 着 接口 的 VO 地 址 ) 。 但 是 ， 由 于 字符 设备 的 多 
样 性 ， 有 时 候 也 用 次 设备 号 作 进一步 的 归 类 。 这 方面 典型 的 例子 就 是 终端 设备 TTY。TTY 设备 是 字符 
设备 ， 主 没 备 号 为 4， 但 是 当 次 设备 号 为 0 时 表示 “当前 虚拟 控制 终端 ”， 而 1~63 表示 63 个 串 能 的 
“虚拟 控制 终端 ”，64 一 255 则 表示 192 ^ n] BR] BAT UART( 通 用 异步 收发 器 ) 和 连接 在 上 面 的 实际 
终端 设备 。 这 里 所 谓 实 际 终端 设备 通常 是 指 老式 的 CRT 终端 ， 或 “第 终端 ”， 而 “虚拟 控制 终端 ” 则 
通常 是 建立 在 PC 机 的 显示 器 和 图 形 接口 卡 基 础 上 的 。 显 然 , 在 这 里 相同 的 主 设 备 邱 并 不 意味 着 相同 的 
驱动 程序 。 由 于 控制 终端 的 重要 性 和 复杂 性 ， 我 们 将 用 两 节 的 篇 幅 去 门 介绍 它 的 驱动 程序 。 另 一 个 例 
子 是 主 设备 号 为 1 的 “字符 设备 ”， 当 次 设备 号 为 1 时 表示 物理 内 人 存 /rdevmem， 为 2 时 则 表示 内 核 的 
虚 存 空间 /dey/kmem, 为 3 时 就 表示 “ 空 设备 ”/dev/null, 而 次 设备 号 8 则 表示 随机 数 生成 器 /dev/random。 
类 似 的 情况 在 块 设备 中 虽然 也 有 【例如 对 软 规 设备 ) ， 但 是 很 少 。 随 同 Linux 内 核发 布 的 一 个 文件 
Documentation/devices.txt 列举 了 对 块 设备 和 字符 设备 两 种 主 设 备 号 和 次 设备 号 的 分 配 和 指定 ， 读 者 可 
DS. 

以 前 我 们 还 讲 过 ， 每 项 设备 都 有 一个 代表 着 儿 的 设备 文件 。 但 是 ， 当 一 项 设备 的 驱动 划分 成 若 十 
层次 而 形成 一 个 所 谓 设 备 驱动 层 “ 堆 栈 ”， 尤 其 是 当 遂 过 若 二 个 可 安装 模块 实现 时 ， 束 引发 了 一 个 问 
题 ; 这 项 设备 由 儿 个 设备 文件 代表 ? Ba TARBA 个 文件 还 是 整个 “堆栈 ”只 由 一 个 文件 代表 ? 
我 们 知道 ， 所 谓 一 个 设备 文件 代表 :项 设备 ， 实 质 上 是 代表 一 个 驱动 程序 的 入 口 以 及 与 之 相 联 系 的 数 
据 结构 。 用 “面向 日 标 程序 设计 ”的 话 来 说 ， 就 是 代表 着 一 个 目标 。 所 以 ， 一 个 其 体 的 子 层 〈 模 块 ) 
是 否 有 机 应 的 设备 文件 取决 于 症 否 构成 意义 上 独立 的 “设备 ”。 在 “可 安装 模块 ” : 节 里 所 引 的 例子 
中 ， 低 层 模 块 一 方面 向 其 上 层 登 记 ， 另 一 方面 又 在 文件 系统 中 创建 起 相应 的 设备 文件 节点 ， 就 是 因为 
这 个 模块 本 身 就 构成 项 独立 的 设备 ， 应 用 程序 有 可 能 需要 绕 过 其 高 层 间 接 进行 读 / 写 。 另 一 方面 ， 当 
从 -个 层次 进入 下 一 个 层次 时 ， 通 常 意味 着 一 次 选择 ， 央 此 需要 加 以 引导 。 以 上 面 提 到 的 “虚拟 终端 ” 
为 例 ， 当 从 虚拟 终端 层 进入 “物理 终端 ” 层 时 ， 就 意味 着 -次 选择， 或 者 说 “ 转 接 ”: 这 个 物理 终端 
ig HTH UART 上 的 “ 策 终 端 ” (或 者 模拟 策 终 端的 计算 机 ) ME? 还 是 接 在 VGA 卡 上 的 显 
示 器 ?我们 在 块 设备 驱动 一 节 中 看 到 了 ， 在 类 似 的 情况 下 是 由 主 设备 号 /次 设备 号 引导 的 ， 但 那 并 不 起 
惟一 的 方法 。 从 上 层 进入 下 层 的 路 径 既 可 以 临时 加 以 选择 (例如 根据 设备 写 ) ， 也 可 以 预先 设置 好 。 
这 种 设置 可 以 在 系统 CRRA) 初始 化 时 进行 ， 也 可 以 通过 对 高 层 的 doct ) 操 作 随时 进行 ， 述 可 以 是 
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称 序 中 固有 的 。 在 以 后 几 节 中 ， 读 者 将 通过 阅读 代码 看 到 这 些 技 巧 的 运用 。 

在 这 一 节 中 ， 我 们 将 阅读 几 个 简单 字符 设备 驱动 程序 的 源 代码 ， 这 些 设备 都 是 比较 简单 的 ,以 后 还 
将 阅读 虚拟 终端 驱动 程序 的 代码 ， 那 就 比较 复杂 了 。 由 于 打开 设备 文件 的 过 程 都 大 致 相同 ， 我 们 就 不 
再 重复 ， 而 直接 从 设备 的 file operations 数据 结构 开始 。 

我 们 要 看 的 第 一 个 字符 设备 , 其 实 谈 不 上 是 “设备 ”, 但 是 却 很 常用 , 那 就 是 “ 空 设备 ”, 即 /dewoull， 
大 家 知道 ， 应 用 程序 在 运行 的 过 程 中 一 般 都 要 通过 其 预先 打开 的 标准 输出 通道 或 标准 出 错 信息 通道 在 
终端 显示 屏 上 输出 … 些 信息 ， 但 是 有 时 候 〈 特 别 是 在 批 处 理 中 ) 不 宜 在 显示 屏 上 显示 这 些 信息 ， 又 不 
宜 将 这 些 信息 重 定向 到 个 磁盘 文件 中 ， 而 要 求 直 接 使 这 些 信 息 流 入 “下 水 道 ” 而 消失 ， 这 时 候 就 可 
以 用 /dev/null 来 起 这 个 “下 水 道 ”的 作用 。 如 前 所 述 ， 这 个 设备 的 主 设备 号 为 1。 主 设备 号 为 1 的 设备 
其 实 并 不 是 “设备 ”， 而 都 是 与 内 存 有 关 ， 或 者 在 内 存 中 《不 必 通 过 外 设 ) 就 可 以 提供 的 功能 ， 所 以 
其 符 与 为 MEM_MAJOR， 定 义 见 major.h: 





19 #define MEM MAJOR 1 


其 file operations 结构 为 memory. fops, 3E X. JL drivers/char/mem.c: 


613 static struct file operations memory. fops = { 
614 open: memory open, /* just a selector for the real open */ 
615 }; 


但 是 ， 如 前 所 述 ， 主 设备 号 为 1 的 字符 设备 需要 根据 次 设备 号 进一步 区 分 具体 的 设备 驱动 程序 ， 
所 以 memory_fops 还 不 是 最 终 的 file operations 数据 结构 ,还 需要 由 memory_open( ) 进 一 步 加 以 确定 和 
设置 ， 其 代码 和 在 同一 文件 (mem.c) 中 : 


549 static int memory open(struct inode * inode, struct file * fiip) 
550 { 


551 switch (MINOR(inode-^i rdev)) { 
552 case 1: 

558 filp-^f op = &mem fops; 
554 break; 

555 case 2: 

556 filp-^f op = &kmem fops; 
557 break; 

558 case 3: 

559 filp-^f op = &null fops; 
560 break; 

561 Sif !defined(  mc68000 ) 

562 case 4: 

563 filp-^f op = &port fops; 
564 break; 

565 #endif 

566 case 5: 

567 filp-^f op = &zero fops; 
568 break; 
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569 case 7: 
510 filp- f op = &full fops; 
571 break; 
572 case 8: 
573 filp->f_op = &random_fops; 
574 break; 
575 case 9: 
576 filp->f_op = &urandom fops; 
577 break; 
578 default: 
579 return -ENXIO; 
580 } 
581 if (filp->f op && filp->f_op->open) 
582 return filp->f_op->open (inode, filp) ; 
583 return 0; 
584} 


因为 /dev/nuli 的 次 设备 号 为 3, 所 以 其 最 终 的 file, operations 数据 结构 为 null_fops, 仍 定义 于 mem.c: 


521 static struct file operations null fops = { 


522 llseek: null lseek, 
523 read: read null, 
524 write: write null, 
525 D 


由 于 这 个 结构 中 的 函数 指针 open 是 NULL, 在 打开 文件 时 没有 任何 附加 操作 。 当 通过 write( ) 48 
调用 写 这 个 文件 时 ， 相 应 的 驱动 函数 为 write_null( )， 这 个 函数 的 代码 也 在 meme 中 : 


344 static ssize t write null(struct file * file, const char * buf, 


345 size t count, loff t *ppos) 
346 { 

347 return count; 

348} 





就 是 说 ， 它 什么 也 不 干 ， 而 只 是 返回 count, BORECEGR GANDIA Er Ss pe YS, Khir 
果 就 是 把 要 写 的 内 容 都 丢弃 了 (读者 也 许 会 联想 到 某 些 公务 员 的 行为 特征 )! 
那么 ， 通 过 系统 调用 read ) 的 读 操作 又 如 何 ? 再 看 read_null ) 的 代码 : 


338 static ssize t read null(struct file * file, char * buf, 


339 size t count, loff t *ppos) 
30 { 

341 return 0; 

342 ] 


返回 0 表示 从 这 个 文件 中 读 了 0 个 字 节 , 但 是 并 未 到 达 (永远 不 会 到 达 ) 文件 的 末尾 EOF, 即 一 1。 
当然 ， 字 符 设备 的 驱动 不 会 都 这 么 简单 ， 但 是 总 的 框架 是 一 样 的 。 
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8.7. 终端 设备 与 汉字 信息 处 理 


每 个 受 控制 的 系统 都 要 有 个 “控制 台 ”《console) ， 主 要 用 于 系统 的 引导 、 控 制 和 管理 。 最 原始 
的 控制 台 是 一 些 开关 之 类 的 东西 ， 后 来 改 成 了 电动 打字 机 (TTY 就 是 电动 打字 机 的 意思 ) ， 再 后 来 又 
改 成 了 CRT 终端 ， 即 带 显 象 管 的 终端 ， 大 多 是 个 带 智能 的 所 谓 “ 笨 终端 ”。 另 一 方面 ， 系 统 的 用 户 ， 
特别 是 在 多 用 户 系 统 中 ， 也 需要 有 个 作为 人 机 交互 手段 的 独立 的 终端 设备 ， 一 般 也 都 采用 CRT 终端 。 
特别 地 ， 用 户 向 系统 登录 时 使 用 的 终端 就 称 为 该 用 户 的 “控制 终端 ”。 在 早期 的 应 用 中 ， 这 些 终端 一 
般 都 是 面向 文字 的 ， 特 别 是 面向 拼音 文字 的 〔 如 英文 、 俄 文 等 ) ， 一 般 都 没有 图 形 /图 像 功能 ， 通 常 也 
不 要 求 很 强 的 脱 机 编辑 功能 ， 所 以 在 终端 设备 中 一 般 不 需要 有 微 处 理 器 ， 或 者 说 不 带 智能 ， 所 以 称 为 
“ 笨 终 端 ”。 严 格 说 来 ， 纯 粹 作为 控制 台 使 由 的 设备 与 作为 控制 终端 使 用 的 设备 在 功能 要 求 上 有 所 不 
同 ， 但 是 相 比 之 下 这 些 不 同一 般 部 不 大 ， 由 此 而 造成 的 设备 价格 上 的 不 同 也 并 不 突出 ， 所 以 人 们 常常 
倾向 于 采 几 同类 的 终端 设备 ， 和 市 把 其 中 一 台 保 留 给 “系统 管理 员 ” 用 作 控 制 台 。 

随 着 计算 机 应 用 的 普及 和 发 展 ， 企 有 些 应 用 中 对 终端 设备 有 了 -… 些 特殊 的 要 求 ， 例 如 对 图 内 /图 像 
的 支持 、 对 脱 机 编辑 功能 的 要 求 等 等 ， 而 其 中 最 重要 的 则 莫 过 于 对 非 拼 音 文字 如 汉字 、 日 文 等 等 的 支 
持 。 这 些 终端 设备 的 功能 都 比较 复杂 ， 所 以 木 身 都 带 有 微 处 理 器 而 成 为 “智能 终端 ”。80 年 代 初 期 人 
们 常常 看 到 的 “汉字 终端 ”就 是 支持 汉学 输入 和 显示 的 智能 终端 ， 但 是 智能 终端 的 出 现 并 不 给 操作 系 
统 内 核 的 设计 和 实现 带 来 显著 的 影响 。 以 汉字 终端 为 例 , 内 核 只 要 不 排斥 16 位 的 汉字 编码 就 可 以 了 (一 
般 而 言 ，Unix 内 核 并 不 排斥 汉字 编码 》。 只 体 到 对 汉字 的 输入 、 显 示 、 打 印 和 各 种 处 理 都 是 由 汉字 终 
端 、 中 文 打 印 机 以 及 各 种 中 文 应 用 软件 在 操作 系统 以 外 提供 支持 的 。 那 时 候 ， 典 型 的 计算 机 系统 形式 
就 是 一 台 “ 主 机 ” 带 上 许多 终端 ， 其 中 一 台 是 由 系统 管理 员 使 用 的 “控制 台 ”。 

个 人 计算 机 《PC) 的 出 现 和 发 展 使 情况 发 生 了 显著 的 改变 。 在 PC 机 |:， 人 们 通过 显示 器 和 键盘 
《通常 还 有 鼠标 器 》 进 行人 机 交互 。 这 些 设备 合 在 一 起 既 用 作 系 统 的 控制 台 又 是 用 户 的 控制 终端 ， 而 
且 与 “主机 ”融合 在 了 一 起 ，CPU 的 部 分 “能 力 ” 就 用 于 显示 器 和 键盘 的 驱动 。 这 样 ， 永 来 独立 存 
在 于 终端 设备 中 的 一 些 功能 ， 例 如 对 文字 显示 的 支持 ， 就 转移 到 了 系统 的 内 核 中 。 以 英文 字 蔷 的 显示 
为 例 ， 在 以 前 采用 笨 终 端的 Unix 系统 路 ， 内 核 只 比 把 代表 着 宁 母 的 编码 通过 串 行 送 给 控制 终端 (或 
控制 台 ) 就 行 了 ， 下 面 就 是 具体 终端 的 事 了 ， 主 机 对 此 既 不 需 关 心 也 其 长 典 及 。 而 现在 却 不 同 了 ,内 
核 可 能 归 管 到 屏 面 上 上 的 每 个 像素 为 止 ， 包 括 根 据 具 体 字 母 的 代码 和 学 体 找到 代表 着 该 字母 的 “字模 ” 
点 阵 ， 然 后 将 该 点 阵 中 的 每 一点 都 映射 到 屏 面 上 的 一 个 像素 。 显 然 ， 这 就 相当 于 在 原先 Unix/Linux 内 
核对 终端 设备 的 驱动 程序 中 又 增加 了 -- 层 ， 使 驱动 程序 更 加 复杂 ， 但 是 同时 也 使 对 终端 设备 的 驱动 更 
加 灵活 。 例 如 ， 这 人 么 一 来 ， 对 字体 的 选择 、 颜 色 的 改变 以 及 字母 的 放大 /缩小 等 等 就 比较 容 妃 实现 了 。 
而 特别 重要 的 是 ， 对 非 英文 字母 以 及 非 拼 首 文字 的 支持 就 基本 上 喇 以 不 依赖 于 硬件 了 。 但 是 ， 另 -- 方 
面 ， 山 显示 器 和 键盘 所 构成 的 终端 设备 并 不 是 Linux 内 核 所 支持 的 惟一 终端 设备 。 只 要 在 PC 机 的 品行 
Fl CCOMI/COMO) 上 插 上 条 终端 《或 者 用 来 模拟 生 终 端的 其 他 PC 机 ) ， 就 照样 可 以 把 运行 着 Linux 
的 PC 机 用 于 多 用 户 环境 。 进 一 步 ， 如 果 在 PC 机 上 加 工 足 够 的 串 行 接口 ， 就 照样 可 以 带 上 儿 十 个 其 全 
上 所 个 终端 而 成 为 名 副 其 实 的 “主机 ”。 当 然 ， 对 连 在 毕 行 所 上 的 终端 的 驱动 不 同 于 对 显示 器 和 键盘 
RIKZ. Linux 内 核对 汉学 输入 和 显示 的 支持 只 限于 其 控制 台 ， 即 显示 器 和 键盘 。 也 就 是 说 ， 如 果 要 在 
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除 显示 器 和 键盘 以 外 的 用 户 界面 上 (终端 上 ) 支持 汉字 ， 那 么 这 些 终端 或 用 户 界 面 本 身 就 得 带 有 智能 
而 支持 汉字 的 输入 和 显示 ， 例 如 汉字 终端 ， 或 者 在 其 他 PC 机 上 运行 的 汉字 终端 仿真 软件 以 及 (在 web 
环境 下 ) 支持 汉字 的 浏览 器 等 。 不 过 ， 技 术 发 展 的 趋向 是 连 成 网 络 的 PC 机 (或 “工作 站 ”)， 所 以 实际 
上 已 经 很 少 有 对 汉字 终端 的 需求 了 。 

最 后 ， 还 有 一 个 问题 也 是 要 考虑 的 ， 那 就 是 与 昌 有 软件 的 兼容 性 。，` 般 而 音 ， 在 Unix 上 开发 的 C 
语言 程序 拿 到 Linx 上 重新 编译 以 后 就 应 该 可 以 送行 ， 而 “Shell script” (Shell 过 程 ) 则 应 该 真 接 (最 
多 略 加 修改 ) 就 可 以 执行 。 这 样 ， 就 不 允许 对 设备 驱动 的 用 户 界面 作 太 大 的 改动 ， 例 如 不 能 将 由 显 丰 
器 和 键盘 构成 的 终端 与 普通 终端 通过 不 同 的 主 设备 号 加 以 区 分 ， 否 则 砸 到 类 似 “echo please wait >> 
devwtty0” 的 语 名 就 不 能 执行 了 。 可 见 ， 将 Unix 内 核 的 终端 设备 驱动 加 以 改造 ， 使 之 既 适 合 由 显示 器 
和 终端 构成 的 特殊 终端 设备 ， 又 适合 普通 的 、 传 统 的 终端 设备 ， 还 要 考虑 到 兼容 性 ， 确 是 -项 富有 挑 
战 性 的 任务 ， 而 对 多 种 文字 的 支持 ， 则 使 它 更 加 复杂 了 。 

在 迄今 为 止 的 计算 机 发 展 史 上 ， 大 部 分 的 技术 和 应 用 都 首先 出 现在 美国 和 欧洲 ， 因 而 最 初 帮 是 以 
英文 为 载体 的 。 英 文 是 拼音 文字 ， 而 且 其 字母 表 叉 很 小 ， 连 人 小 写字 母 加 数字 加 常用 符号 全 部 算 上 还 
不 到 127 个 ， 所 以 英文 (美国 英文 ) 的 编码 方案 ASCI 是 7 位 的 ， 这 又 正好 与 初期 的 RS232 串 行 接口 
每 次 只 能 传输 7 位 〈 另 一 位 用 作 检 错 》 相符 。 虽 然 当时 在 计算 机 中 已 经 广泛 采用 以 8 位 为 一 个 宁 贡 ， 
在 用 来 存储 字符 时 则 固定 使 最 高 位 为 0。 后来， 由 于 考虑 到 一 些 特殊 符号 ， 如 一 些 数学 符号 和 名 用 的 币 
BSG, Hit RS232 中 行 接口 上 的 传输 也 变 得 可 靠 而 不 再 需要 对 传输 的 每 个 字符 都 加 上 奇偶 检验 ， 才 
把 ASCII 编码 扩充 成 8 位 。 然 而 ， 当 要 把 计算 机 技术 和 应 用 推广 《或 者 销售 ) 到 其 他 国家 和 地 区 时 ， 
不 可 避免 地 会 碰 到 一 个 问题 ， 那 就 是 义 字 “本 土 化 ”的 问题 ， 即 对 所 在 国家 或 地 区 的 文字 的 支持 问题 。 
世界 上 多 数 国家 都 使 用 拼音 文字 ， 尽 管 其 字 世 表 有 大 有 小 ， 但 是 8 位 的 编码 可 以 容纳 256 个 代码 ， 

般 都 够 了 ， 而 且 恰 好 字 节 的 大 小 也 是 8 位 ，RS232 串 行 口 的 传输 也 是 每 次 8 位 ， 所 以 用 一 个 字 节 表示 
一 个 字符 就 成 了 事实 上 的 国际 标准 。 但 是 ， 还 有 些 国 家 和 地 区 使 用 的 是 非 拼音 文 字 ， 其 中 最 主要 的 就 
是 所 谓 CJKV， 邮 中 文 、 日 文 、 朝 鲜 文 和 越南 文 。 可 想 而 知 ， 对 于 像 中 义 这 样 的 非 拼 音 文字 ， 要 继续 以 

个 字 节 表示 一 个 字 是 不 可 能 的 ， 因 为 -个 字 节 总 共 才 有 256 种 不 同 的 编码 。 但 是 到 底 以 几 个 字 刁 表 
示 一 个 汉学 ， 每 个 字 节 中 用 7 位 还 是 8 位 ， 是 韶 定 长 度 还 是 可 变 长 度 ， 怎 样 编码 ， 在 一 个 学 符 毕 中 是 
否 允许 混合 使 用 单字 节 编 码 和 多 宁 节 编 伺 ， 以 及 怎样 在 二 者 之 间 切 换 等 等 ， 则 都 是 值得 研究 的 课题 。 
事实 上 ， 在 不 同 的 地 区 、 不 同 的 条 件 下 已 经 发 眶 起 了 多 种 不 同 的 编码 方案 。 

很 自然 地 ， 将 各 种 文字 的 编码 方案 加 以 标准 化 和 一 体 化 的 努力 也 就 应 运 而 生 。 这 里 所 谓 “标准 化 ” 
是 指 国际 标准 或 跨国 行业 标准 的 制订 ， 而 一 体 化 则 是 指 将 世界 上 所 有 的 文字 都 纳入 同 编码 方案 以 
及 标准 ) 里面。 冉 顾 这 方面 的 历史 ， 下 面 几 个 标准 是 必须 所 人 到 的 : 

(1) ”美国 标准 ASCIL。 

Q) ”国际 标准 ISO646。 

G) 国际 标准 ISO8859。 

(4) ”国际 标准 ISO2022 和 中 国 国 标 7 位 GB2312。 

(5) Unix 行业 标准 EUC 和 中 国 国标 8 位 GB2312 及 GBK. 

(6) ”计算 机 及 信息 行业 标准 Unicode. 

(7) “国际 标准 ISO10646。 

先 要 说 明 ， 我 们 在 这 里 只 是 为 阅读 和 理解 Linux. 内 核 代 码 以 及 汉化 Linux 内 核 的 需要 而 介绍 一 些 背 
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景 材料 ， 采 取 的 是 “ 带 着 问题 学 ”的 实用 主义 态度 。 读 者 要 了 解 详细 的 、 比 较 完 整 的 材料 应 参阅 有 关 
专著 以 及 这 些 标准 的 文本 。 

美国 的 国家 标准 ASCH (美国 标准 信息 交换 码 ) 公布 于 70 年 代 前 期 。 这 个 标准 把 数据 交换 采用 的 纺 
码 定 为 7 位 。 这 一 方面 是 由 于 当时 通过 囊 行 搂 门 RS232 的 数据 传输 还 不 太 可 靠 ， 需 要 对 得 个 代码 使 用 
一 位 作为 奇偶 校 验 ， 而 且 当时 传输 的 速度 也 比较 低 ， 能 够 在 每 个 代码 中 节省 下 一 位 就 可 以 使 总 体 的 吞 
叶 量 增加 10% 左 右 。 再 说 ， 当 时 人 们 的 头脑 中 可 能 觉得 7 位 已 是 不 简单 了 ， 在 此 之 前 还 使 用 过 S 位 和 
6 位 编码 呢 。 男 一 方面 ， 当 时 的 人 们 也 觉得 超过 7 位 是 没有 必要 的 ， 因 为 7 位 编码 的 容量 是 128， 而 美 
国 英语 中 的 可 打印 字符 才 94 个 〈 包 括 空格 在 内 ) 。 至 十 非 打 印字 符 ， 除 了 作为 控制 字符 使 用 外 ， 当 时 
的 人 们 也 看 不 出 在 数据 交换 中 有 多 大 用 处 。 当 时 的 计算 机 内 部 结构 可 说 是 五 彩 缤 纷 ， 有 的 厂家 采用 8 
fr, AR) 家 采用 10 位 ， 数 据 的 内 部 表示 也 由 厂家 自己 定义 (OBM 就 采用 8 位 EBCDIC HE), M 
以 除了 采用 划一 的 “打印 模式 ”外 ， 确 实 也 看 不 到 有 “透明 ”地 传输 计算 机 内 部 数据 的 必要 性 和 可 行 
性 。 随 着 计算 机 技术 的 发 展 ，ASCII 自然 地 变 成 了 事实 上 的 国际 标准 。 .个 标准 一 旦 制订 发 布 ， 各 种 
软件 就 会 以 此 为 准 来 设计 和 开发 。 这 样 ， 当 过 了 车 干 年 以 后 ， 原 先 考虑 的 因素 都 已 经 因为 技术 的 进展 
而 个 复 存 在 的 时 候 ， 一 大 批 以 此 为 基础 的 软件 却 已经 在 那里 运行 ， 以 后 开发 的 软件 只 好 继续 采用 7 位 
编码 以 维持 兼容 ， 从 而 形成 了 本 不 应 存在 的 壁垒 。 更 有 甚 者 ， 在 有 些 特 殊 应 用 中 甚至 还 从 95 个 打印 字 
符 中 “克扣 ”了 一 些 字 符 用 作 控 制 晶 的 ， 使 可 以 “透明 ”传输 的 字符 个 数 进一步 减少 。 建 立 在 64 个 可 
以 “透明 ”传递 的 可 打印 字符 基础 上 的 电子 邮件 编码 方案 Base64， 就 是 -个 典型 的 例 了 。 

在 ASCH 成 为 事实 上 的 国际 标准 以 后 ， 国 际 标准 化 组 织 ISO 通过 其 IS0646 加 以 确认 ， 使 其 成 为 
正式 的 国际 标准 “参考 版 ”之 .。 同 时 ， 义 从 中 提出 车 十 如 [、]、{、}、\ 和 | 等 符号 的 代码 ， 让 字母 
个 数 多 十 26 个 的 语言 叶 以 用 这 些 符 号 的 代码 来 表示 - 些 在 英语 中 不 存在 的 字母 ， 如 & 等 等 。 但 是 , 那 
已 经 是 80 年 代 前 期 的 事 了 ， 那 时 7 位 的 传输 技术 实际 上 早已 过 时 。 正 因为 这 样 ，1SO 从 80 年 代 中 其 
开始 陆续 推出 了 另 ， 个 标准 ISO8859， 这 个 标准 采用 8 位 传输 。ISO8859 分 成 10 个 部 分 ， 为 世界 上 存 
在 的 几乎 所 有 拼音 文字 如 何 进行 8 位 编码 都 作 了 规定 。 例 如 其 第 6 部 分 ， 即 ISO8859-6 是 阿拉 伯 文 字 
fi, B7 部 分 是 希腊 文字 的 编码 ， 第 8 部 分 是 希 伯 来 文字 的 编码 。 对 于 拼音 文字 来 说 ，8 位 的 编码 
容量 都 已 经 够 用 了 。 

但是 ，ISO8859 并 没有 解决 一 体 化 的 问题 ， 同 一 个 8 位 代码 对 十 不 辣 的 语言 文字 就 代表 着 不 同 的 
字 坪 ， 在 混合 使 用 多 种 文字 的 上 下 文中 要 加 以 切换 。 另 -方面 ， 新 标准 的 制订 和 采用 并 木 意味 着 旧 的 
标准 就 退出 了 舞台 。 大 量 基 于 | 标准 的 软件 已 经 在 使 用 中 ， 当 要 开发 新 产品 的 时 候 ， 虽 然 明 知道 新 的 
标准 已 经 发 而， 但 为 了 不 至 失去 一 大 块 市 场 ， 只 好 从 最 奈 、 最 严 苛 的 条 件 作 为 出 发 点 ， 即 继续 采用 7 
位 编码 ， 或 至 少 要 提供 用 户 “个 可 选项 ， 让 用 户 根据 具体 情况 来 设置 到 底 是 采用 7 位 编码 还 是 8 位 纺 
码 。 

这 几 个 标准 都 只 考虑 了 拼音 文字 ， 所 以 都 采用 了 单字 节 编 码 。 与 此 相 平行 ， 一 些 采 用 非 拼 痛 文字 
的 国家 和 地 区 也 已 开始 为 适合 其 语言 文字 的 编码 制订 国家 标准 或 行业 标准 。 其 中 最 早 的 是 日 本 , 在 1978 
年 初 发 布 了 JIS C 6626 标准 ， 这 个 标准 中 的 汉字 部 分 后 来 成 为 台湾 地 区 制订 “大 五 ”编码 的 借鉴 。 中 
国 在 这 方面 的 工作 也 开展 得 很 时 ，1980 年 就 发 布 了 国标 GB2312。 当 然 ， 这 些 标 谁 都 采用 了 多 字 节 纺 
码 ， 大 多 是 双 学 节 编 码 。 

1502022 是 第 一 个 支持 多 字 节 编码 ， 即 非 拼 兰 文 字 的 国际 标准 ， 发 布 于 90 年 代 前 期 。 事实]-， 这 
义 只 不 过 是 对 有 关 国 家 利 地 区 人 在 这 方面 的 实践 的 事后 追认 秘 蔷 容 并 包 而 已 。 所 以 ，ISO2022-CN 与 中 国 
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的 GB2312 很 接近 ，ISO2022-JP 与 日 本 的 JIS C 6626 很 接近 ， 而 ISO2022-KR 则 与 韩国 的 标准 很 接近 。 
1502022 保留 对 英文 字母 的 单字 节 ASCII Ad, MAE CIK《〈 中 / 口 / 韩 ) 文字 时 就 转 入 双 字 节 编 码 ， 两 
个 字 节 都 采用 7 位 ， 取 值 范围 为 0x21 一 0x7E， 即 “可 打印 字符 ”的 范围 。 为 了 保证 在 不 同学 符 集 之 间 
正确 切换 ，ISO2022 定义 了 $ “Escape 序列 ”， 称 为 “标示 序列 ” Cdesignator sequence) 。 与 键盘 
上 的 ESC 键 相对 应 的 代码 为 0xlb， 这 并 不 属于 可 打印 学 符 的 范围 ， 在 传输 中 平时 不 会 用 到 ， 所 以 在 计 
算 机 技术 中 与 终端 或 传输 线 打交道 时 常常 用 ESC 的 代码 作为 控制 手段 ， 与 其 他 学 符 组 合成 Esccape FF 
列 。 此外， 还 要 保证 在 单字 入 模式 与 双 字 节 模 式 之 间 正 确切 换 ，ISO2022 为 此 定义 了 两 个 控制 字符 。 

一 个 是 0x0e， 称 为 “SO” (Shift Out) ,表示 转 出 〈 常 项 的 ) 单字 节 模 式 ， 另 一 个 是 0x0f， 称 为 “SI” 
(Shift In)， 表 示 转 入 单字 节 模 式 。 这 样 ， 当 行文 至 需要 使 用 非 拼 首义 字 时 ， 就 先 通过 SO 进入 竣 字 节 模 
式 ,再 通过 Escape 序列 选择 具体 的 字符 集 ,例如 当日 慰 为 GB2312 时 , 其 序列 为 "0xlb, 0x24, 0x29, 0x41” 
或 “<ESC>$)A”。 然 后 ， 当 旨 转 回 单字 节 模 式 时 ， 就 在 字符 串 中 上 一 个 英文 字母 之 前 揪 入 一 个 SI 代 
码 即 可 。 

这 种 技术 的 好 处 是 效 率 比较 高 ， 从 传输 的 季度 看 浪费 很 少 ， 但 是 从 信息 处 理 的 角度 看 却 有 缺点 ， 
因为 它 是 面向 过 程 的 ， 要 知道 对 某 一 个 具体 的 字 节 应 作 何 种 解释 取决 于 这 个 字 节 在 传输 时 处 十 何 种 模 
式 ， 所 以 对 于 字符 串 《〈 甚 至 整个 文件 ) 中 的 内 容 只 能 顺序 访问 而 不 能 随机 访问 ， 因 为 对 每 个 字 节 的 解 
读 都 是 与 上 下 文 有 关 的 。 

另 一 方面 ， 在 柴 些 特殊 的 应 用 中 ,特别 是 电子 邮件 的 传递 中 ， 这 套 技术 还 是 有 问题 。 前 面 提 到 过 ， 
电子 邮件 的 传递 只 保证 64 个 可 打印 宁 符 的 透明 传输 ， 而 0x0e、0x0f 和 0xlb 显然 不 属于 这 个 范围 。 对 
此 ， 有 . -个 中 国 留 美学 者 提出 了 采用 另 一 种 序列 来 实现 ASCII it GB2312 但 之 间 的 切换 ， 称 为 HZ 
编码 (RFC 1834》。 当 要 从 单字 节 的 ASCH 码 切 换 到 双 字 节 的 GB2312 码 时 ， 就 插入 “一 {”， 夺 回 到 
ASCLL 码 时 则 插入 “一 }”。 这 些 字符 郝 属 士 串 打印 字符 。 而 “一 }” 也 不 对 应 于 任何 汉学 的 编 色 ， 亚 
然 ， 这 里 的 关键 是 赋予 字符 “一 ”以 特殊 的 解释 ， 所 以 当 存 单字 季 异 式 下 真 要 使 用 这 个 字符 时 ， 就 要 
在 它 前 面 再 添 一 个 “一 ”学 符 。 读 者 肯 完 会 想到 ， 这 与 C 诸 言 中 “\” 字 符 的 使 用 在 精神 上 是 - 致 的 。 

HA, Linux 的 内 核 吓 否 支持 ISO2022 (从 而 GB2312) E? 前 面 讲 过 ， 这 要 分 两 种 情况 来 考虑 。 
第 一 种 情况 是 如 果 采 几 带 有 智能 的 终端 设备 , 即 支持 GB2312 的 汉字 终端 , 此 时 只 要 内 核 不 排斥 GB2312 
的 编码 就 行 了 。 第 :种 情况 是 当 内 核 需 要 介入 汉字 的 输入 和 显示 ， 那 又 是 只 个 问题 了 。 

先 看 第 一 种 情况 ，Linux 的 内 核 是 否 排斥 1802022 We? 这 是 个 字符 串 处 理 的 问题 ， 主 要 关系 到 字 
符 趾 的 界定 、 比 对 ， 人 以太 一些 特 隶 字 符 的 使 用 。 内 核 中 字符 申 都 是 以 “\0” 结 尾 的 ， 所 以 如 果 人 在 双 宁 
节 编码 中 有 某 个 汉字 的 代 公 包含 了 一 个 0 字 节 ， 那 就 会 被 内 核 误 认 为 吓 字 符 串 的 结尾 。 可 是 ,ISO2022 
中 两 个 字 节 取 值 的 范围 都 是 0x21~0x7e， 央 而 不 会 出 现 这 样 的 情况 。 同 理 ， 丰 汉字 编码 中 也 不 会 出 现 
BC. OD 7Z 以 及 “ 退 格 ” 这 些 控 制 字符 ， 也 不 会 有 Off (EOF 定义 为 一 1) 。 再 看 字符 串 的 比 
对 。 内 核 中 划 用 伸 字 符 串 比 对 主要 是 在 文件 系统 的 路 径 名 搂 索 。 在 包含 汉字 的 路 径 名 中 ， 需 要 把 换 但 
字符 SUSO 作为 每 个 节点 名 字符 中 的 一 部 分 ， 对 于 像 Linux 这 样 对 文件 名 长 度 并 无 过 分 限制 的 操作 系 
统 来 说 ， 问 题 似乎 也 不 大 。 可 是 ， 对 另 一 个 特 蛛 字符 的 解释 就 成 问题 了 ， 这 个 字符 是 “/”。 例 如 ， 假 
定 有 这 样 一 个 路 径 名 : “asrystudents/classes/ 化 下 98”， 这 就 造成 问题 了 。 这 是 因为 汉字 “化 ”的 编码 
中 含有 0x2f， 也 就 是 “/”。 读 者 在 文件 系统 : 章 中 疯 读 过 path walk ) 的 代码 ， 在 那里 这 个 字符 一 定 会 
被 当 作 节 点 名 的 分 隔 符 而 表示 另 一 个 层次 。 这 样 的 汉字 当然 有 很 多 。 所 以 ， 结 论 是 : 只 要 不 使 用 汉学 
作为 文件 名 或 目录 名 ，Linux 内 核 便 不 排斥 汉字 的 使 用 。 回 样 的 结论 也 适用 村 Unix。 对 于 80 年 代 准 备 
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要 党 上 几 十 个 汉字 终端 的 Unix 系统 来 说 ， 这 个 结论 已 经 足 足 够 令 人 满意 的 了 。 

个 管 是 多 么 权威 的 标准 ， 只 要 是 束缚 了 人 们 的 手脚 ， 一 旦 客观 的 、 物 理 的 限制 因素 〈 如 硬件 的 可 
靠 性 等 ) 消除 以 后 就 一 定 会 被 冲 破 。 但 是 ， 冲 破 已 经 被 广泛 接受 的 标准 往往 要 付出 不 小 的 代价 ， 这 就 
是 新 产品 的 部 分 市 场 或 适用 范围 。 可 要 是 这 市 场 本 来 就 不 存在 呢 ? 那 自然 又 作 别 论 。80 年 代 正 是 Unix 
气势 如 虹 ， 从 传统 的 小 型 机 、 中 型 机 乃至 大 型 机 的 手中 攻 城 掠 地 的 时 候 。 当 时 ， 硬 件 (RS232 接口 ) 
方面 对 采用 7 位 遂 信 方式 的 限制 已 经 不 存在 ， 侧 Unix 机 通信 的 对 象 一 般 也 都 起 Unix 机 ， 不 存在 已 经 
有 大 量 旧 软件 在 运行 而 必须 保持 兼容 的 问题 。 在 这 样 的 情况 下 ， 标 准 就 拓 去 了 权威 。 为 了 将 Unix 推行 
到 采 几 非 拼 襄 文 字 的 国家 和 地 区 ,采用 了 一 种 称 为 EUC (扩充 Unix 编码 ) 的 8 位 多 样 编码 方法 。 BUC 
也 像 ISO2022 一 样 混合 使 用 单字 节 和 多 字 节 ( : 般 是 双 字 节 ) 编码 。 单 字 节 编码 也 是 7 位 的 ASCI[ 碍 
也 就 是 说 每 个 字 节 的 最 高 位 永远 吓 0; 但 是 多 字 节 编码 则 采用 8 位 , 把 其 中 某 几 个 字 季 的 最 高 位 设置 成 
1, 因而 不 使 用 换 码 控制 字符 就 可 以 达到 在 单字 节 和 儿 字 节 两 种 模式 之 间 的 切换 。( 但 是 也 有 例外 , EUC 
实际 上 允许 在 4 种 编码 〈 即 文字 ) 之 间 进 行 切换 ， 其 中 ASCI 为 编码 0。 从 ASCH 切换 到 编码 1 可 以 
通过 将 最 高 位 设 成 1 来 实现 ， 而 若 要 切换 到 编码 2 则 要 插入 一 个 控制 字符 OxSe: 切换 到 编码 3 则 要 插 
入 一 个 0x8f。 不 过 在 GB2312 和 GBK 中 都 不 考虑 编 公 2 和 编码 3。) 

因 晶 标语 言 或 地 区 的 不 同 ，EUC 编码 又 分 成 EUC-CN (中 国 ) 、EUC-JP (AA) 和 EUC-KR ($ 
国 ) 、EUC-TW (中国 台湾 ) 4 种 。 我 们 在 这 里 只 关心 EUC-CN， 它 的 其 侧 仍旧 是 GB2312， 所 以 又 党 
常 称 为 “8 位 国标 ”或 干脆 就 称 为 “国标 ”。 它 采用 单字 节 和 双 字 他 混合 编码 。 单 字 节 编 公 与 ASCH 
相同 ， 字 节 的 最 高 位 永远 为 0; 出 表示 汉 宁 的 双 字 节 编 码 则 两 个 字 节 的 最 高 位 均 为 1。 具体 地 说 ， 两 个 
学 节 的 取 值 范围 都 是 Oxal--Oxfe (不 包括 Oxff) . HBA, Unix 的 内 核 会 不 会 排斥 这 些 编码 昵 ” 显 然 不 
会 ， 央 为 代表 着 汉字 编码 的 等 个 字 节 的 最 高 位 都 是 1。 而 且 这 意味 着 甚至 中 以 用 汉字 作为 文件 名 或 目录 
名 了 。 以 前 面 讲 过 的 “化 ” 字 为 例 ， 它 的 第 二 个 字 节 在 7 位 编码 中 为 0x2f， 所 以 与 “/” 冲 突 ， 而 岗 在 
则 改 成 0xaf T o 

中 国 后 米 又 公布 了 对 国标 的 扩充 GBK， 也 是 采用 8 位 编码 ， 代 是 把 第 一 个 字 节 的 取 值 范围 扩充 成 
Ox81--0xfe; 把 第 二 个 学 节 的 取 值 范围 扩充 成 0x40~0x7e 和 0x80 一 0xfe。 显 然 这 是 为 了 容纳 更 多 的 汉 
Fo BGBK 编码 中 的 第 - :个 字 节 有 可 能 最 高 位 为 0， 但 不 会 造成 什么 问题 ， 因 为 在 Ox40-- Ox Te 这 
个 区 间 并 没有 什么 “敏感 字符 ”。 

EUC-CN Jl GBK 比 ISO-2022 显然 有 改进 ， 但 还 是 有 人 缺点。 首先， 汉字 编 但 的 两 个 字 节 最 高 位 均 
为 1《 或 均 有 可 能 为 1) ， 使 得 企 传 输 时 容易 因 误 码 而 使 相 邻 字 节 的 结合 发 生 错位 的 情况 。 在 这 两 种 编 
码 中 ， 对 每 个 具体 字 六 的 解释 仍 不 是 与 上 下 文 无 关 的 〈 不 过 比 ISO2022 采用 换 码 控制 字符 的 编码 要 好 
多 了 ) ， 所 以 还 是 不 能 支持 对 字符 串 内 容 的 随机 访问 。 其 次 ，EUC 的 容量 毕竟 还 是 有 限 ， 没 很 如 果 在 
同一 个 文件 中 栈 要 使 用 英文 ， 又 要 使 用 中 文 、 蒙 上 古文、 韩文， 还 要 使 用 希 伯 来 文 ， 那 又 该 怎么 办 呢 ? 

土 面 提 到 的 这 些 标 准 都 没有 考虑 〈 更 谈 不 上 解决 ) 世界 文字 编码 一 体 化 的 问题 。 这 些 编码 中 没有 
一 种 是 能 够 覆盖 企 此 界 所 有 常用 文字 的 。 轴 在 受到 覆盖 的 各 国文 字 中 ， 则 又 常常 重复 使 用 相同 的 代码 ， 
例如 代码 0x5B 在 ASCI 中 表示 “[”， 而 在 丹麦 文字 中 却 表 示 “ 契 ”， 此 谓 “ 一 码 多 字 ”。 另 .方面 ， 
有 些 文 字 却 义 以 不 同 的 代码 重复 地 出 现 于 不 同 的 编 但 中 ， 特 别 是 中 文 、 晶 文 、 韩 文中 都 使 用 汉学 , 但 
古 间 一 个 汉字 在 这 三 种 文字 编码 中 的 代码 直 又 往往 不 同 ， 从 而 造成 “一 字 多 码 ”。 还 有 ， 单 字 节 与 多 
字 节 之 间 的 切换 ， 无 论 用 或 不 用 换 僻 控 制 字符 ， 都 在 一 定 程度 上 使 对 字符 串 中 具体 字 节 的 解释 依赖 于 
上 下 文 ， 从 而 使 得 对 字符 串 内 容 的 随机 访问 变 得 困难 或 甚至 不 可 能 ， 这 同时 也 使 得 字符 串 在 传输 过 程 
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字 的 编码 实际 上 是 把 英语 时 于 一 种 中 心地 位 ， 因 而 有 失 公平 。 

有 这 么 多 的 缺点 存在 ， 人 们 寻求 世界 文字 编码 一 体 化 的 努力 就 毫 不 人 厨 翌 了 ， 而 Unicode 正 是 这 样 
一 种 一 体 化 的 编码 方案 , 这 是 由 一 个 行业 协会 性 质 的 组 织 “Unicode Consortium” 发 展 起 来 的 行业 标准 。 
提 到 Unicode 就 不 能 不 提出 另 一 个 国际 标准 1SO-10646, 因为 这 二 者 的 形成 和 发 展 是 紧密 结合 在 一 起 的 。 
最 初 ， 在 80 年 代 前 期 ，JSO 组 成 了 -个 工作 弓 WGZ 从 事 一 体 化 编码 方案 的 制订 ， 并 提出 了 一 个 框架 
性 的 方案 。 通 常 ， 国 际 标准 从 制订 到 批准 、 采 纳 是 需要 相当 长 的 时 间 的 。 另 方面， 作为 国际 标准 ， 
其 视野 自然 更 为 宽阔 ， 其 结构 也 常常 更 为 严谨 ， 很 多 问题 都 不 是 一 下 了 就 能 定 得 下 来 的 。 可 是 ， 当 时 
UJ UNLRADUEGUESGE A, 不 能 再 等 ， 丁 是 就 组 成 Unicode Consortium, 在 ISO 工作 组 框架 的 基础 上 
以 一 种 比较 实用 的 态度 制订 行业 标准 Unicode。 后 来 ，ISO 的 框架 性 方案 经 过 多 年 的 发 展 成 为 国际 标准 
ISO 10646-1， 即 ISO 10646 的 第 一 版 。 目 前 有 ISO 10646-1:1993 和 ISO10646-1:2000 两 个 文本 ， 分 别 发 
XT 1993 年 和 2000 年 。 与 此 相 平行 Unicode Consortium 在 1990 华 便 发 表 了 Unicode 1.0 版 ， 以 后 又 
分 别 在 1996 年 和 1999 年 发 表 了 2.0 版 和 3.0 版 。 不 过 ，ISO 和 Unicode Consortium 在 这 方面 的 工作 既 
互相 平行 ， 义 密切 结合 ， 并 且 互 相 靠 拢 互相 融合 。1990 年 Unicode Consortium 发 表 了 Unicode 1.0 版 以 
后 ，1991 年 双方 就 进行 了 -次 融合 ， 从 而 产生 了 1993 年 的 ISO10646-1 XÆ. ifj Unicode Consortium 
又 在 此 基础 上 发 表 了 Unicode 的 1.1 版 , 然后 又 进一步 向 ISO 10646 靠拢 而 在 1996 FRET 2.0 版 。 所 
以 ， 这 二 者 之 间 的 关系 是 一 种 五 相 靠 拢 、 互 相 补 充 、 芯 相 融 合 的 良性 互动 关系 。 

WA, Unicode 到 底 是 什么 样 的 呢 ? 这 .者 到 底 有 些 什么 异同 呢 ? 我 们 在 这 时 只 是 结合 阅读 Linux 
内 核 代码 的 需要 作 -简略 的 介绍 ， 欲 知 详情 的 读者 可 以 参考 有 关 专 著 和 文本 。 在 这 方面 ， 有 两 本 书 是 
值得 推荐 的 : -本 是 Ken Lunde 的 CJKV Information Processing; 男 一 本 是 Tony Graham 的 Unicode:A 
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HA, 18010646 和 Unicode 都 意 人 在 将 全 世界 所 有 的 文字 部 包罗 在 同一 个 编码 方案 中 ， 只 是 ISO 在 
这 方面 更 加 追求 完美 ， 人 而 Unicode 则 采取 相对 而 言 比较 实用 的 态度 。 其 次 ， 二 者 部 采用 固定 长 度 的 字 
符 编码 。 这 样 就 返 脱 了 在 单字 节 代 码 和 多 字 节 代码 之 间 来 回转 换 的 问题 ， 从 而 使 得 对 字符 中 内 容 的 随 
机 访问 成 为 可 能 。 但 是 ， 因 为 ISO 的 “胃口 ”更 大 ， 所 以 1SO10646 标准 选择 采用 4 字 节 编码 UCS-4: 
而 Unicode 标准 则 采用 更 为 紧凑 的 2 字 节 编码 UCS-2。 以 字母 “a” 为 例 , 在 ASCH 编码 中 其 代码 为 0x61， 
而 在 Unicode 中 为 0x0061， 在 18010646 中 则 为 0x00000061。 显 然 ， 固 定 长 度 编码 在 许多 情况 下 增加 
了 对 存储 量 以 及 传输 带宽 的 要 求 〈 或 者 说 “浪费 ”了 一 些 存储 空间 利 带 宽 ) ， 不 像 以 前 可 变 长 度 编码 
烤 么 紧 凌 。 但 是 ， 在 计算 机 系统 的 存储 空间 日 益 加 大 ， 成 林口 益 下 降 ， 通 售 能 力 上 日 益 |. 玫 的 背景 卜 ， 
这 一 点 已 经 是 无 关 紧 要 的 了 。 与 取得 的 好 处 相 比 ， 这 个 代价 是 储 得 化 的 。 如 果 说 以 前 的 单字 节 与 多 字 
节 混 合 编 码 的 方案 与 ISO10646 的 编码 方案 是 两 个 极端 的 话 ， 涛 么 Unicode 就 是 二 者 间 的 折衷 。 男 一 方 
i, BYR Unicode 的 2 字 节 编码 容量 还 是 太 小 〈 例 如， 还 个 能 把 古 埃及 的 文字 包罗 进去 ， 更 不 能 把 中 
国 的 甲骨 文字 包罗 进去 ) ， 但 毕竟 已 经 可 以 攻 盖 全 世界 正在 积极 使 用 中 的 所 有 文字 和 符号 。 所 以 ISO 
和 Unicode Consortium 才 在 1991 年 对 两 个 标准 进行 了 融合 。 一 方面 ISO 接受 2 字 节 编码 的 UCS-2 为 
ISO10646 的 一 个 子 集 ， 称 为 “上 基本 多 语言 平 身 ”BMP (Basic Multilingual Plane) ， 并 采纳 了 Unicode 
中 的 具体 代码 。 男 方面 ，Unicode Consortium 也 认识 到 2 宁 节 编码 的 容量 确实 还 不 够 ， 鸯 而 在 2 等 节 
编码 空间 中 割 下 块 (0xD800~-0xDFFF) 称 为 “ AHE” (surrogate), 742 字 节 编码 不 够 用 时 束 趾 以 
采用 两 个 “代用 码 ”， 即 以 4 个 字 节 来 表示 0x10000-—0x10ffff 区 间 的 代码 。 那 么 ，“ 代 用 码 ” 的 采用 
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会 不 会 又 破坏 了 对 字符 串 内 容 的 随机 访问 昵 ? 不 会 ， 因 为 当 采 用 “代用 码 ” 时 位 于 高 位 的 两 个 字 节 一 
ETE OxD800~OxDFFF 范围 内 ， 而 低位 的 两 个 字 节 一 定 在 0xDC00~0xDFFF 范围 内 ， 这 两 块 代码 在 
正常 的 UCS-2 编码 中 是 保留 不 用 的 。 由 两 个 2 字 节 代用 码 所 表达 的 代码 数值 按 以 下 公式 计算 : 
N = 0x10000 + (H —0xd800) X 0x400 + (L—Oxdc00) 
这 里 的 H 为 高 位 代用 码 , 其 取 值 范围 为 0xd800 一 0xdbff; L 为 低位 代用 码 , 其 取 值 范围 为 0xdc00~ 
Oxdfff. 
这 么 一 来 ,与 原先 设想 的 UCS-2 编码 就 有 所 不 同 了 ,所 以 ISO 进一步 将 这 种 编码 方案 称 为 UTF-16， 
意 为 过 渡 性 的 16 位 编码 格式 。 而 前 述 的 BMP， 也 就 是 Unicode， 实 际 上 对 应 于 UTF-16， 而 不 是 原先 
的 UCS-2。 
最 后 ， 盛 论 是 ISO10646 或 Unicode， 都 排除 了 “一 字 多 码 ” 的 情况 ， 从 而 实现 了 字符 〈 符 号 ) 与 
代码 间 的 一 一 对 应 。 目 前 ，Unicode 包罗 了 49194 个 字符 和 符号 的 代 公 ， 其 中 汉字 为 27786 个 ， 这 些 汉 
字 是 将 中 文 、 日 文 和 韩文 中 使 用 的 汉字 加 以 整合 而 成 的 。 通 过 “代用 码 ” 的 使 用 ， 还 可 以 将 这 个 容量 
扩大 16 售 。 
可 想 而 知 ， 从 以 单字 节 为 主 ， 以 ASCI 码 为 基础 的 字符 串 处 理 到 一 律 采用 双 字 节 的 Unicode 字符 
趾 处 理 ， 这 是 一 个 重大 的 转变 ， 而 如 果 还 此 考虑 兼容 性 的 话 ， 那 就 更 是 个 挑战 。 不 说 别 的 ， 就 拿 字符 
“a” [f] Unicode 代码 0x0061 来 说 吧 ， 这 时 面 就 有 一 个 字 节 是 0， 而 传统 的 字符 串 就 是 以 0 结尾 的 。 
其 他 如 0x03(^C)、0x04(^D)、0x1b(ESC)、0x2f(*/) 等 等 字 节 也 是 随时 都 有 可 能 碰 到 ， 简 直 是 “ 防 不 竹 
防 ”。( 如 果 可 以 抛 开 原来 的 单字 节 字 符 串 处 理 不 管 , 而 在 gee 中 将 数据 类 型 char 改 成 与 unsigned short 
等 价 ， 那 么 许多 现 有 的 软件 只 要 重新 编 释 … 下 就 可 以 支持 Unicode T CANIN, SEE SB LAE EL 0x0000 
而 不 是 0x00 结尾 的 了 〉。 事 实 上 ，java 语言 止 是 这 样 做 的 ， 在 java 语言 中 char 是 16 位 的 而 不 是 8 位 
的 。 可 是 那样 一 米 许多 软件 (包括 Linux 内 核 ) 中 些 数据 结构 的 大 小 就 变 掉 了 ， 所 以 问题 并 不 简单 。) 
所 以 ， 指 望 在 一 个 短 时 期 内 完成 这 种 转 访 显然 是 不 现实 的 。 有 鉴 十 此 ，Unicode Consortium 和 ISO 
从 一 开始 就 提供 了 过 渡 性 的 方案 。 第 一 个 过 渡 性 方案 称 为 UTF-8， 是 从 8 位 到 16 位 ( 即 双 字 节 ) 的 过 渡 
方案 第 二 个 称 为 UTF-16， 实 际 上 就 是 Unicode, AM 16 位 到 32 位 ( 即 4 字 节 ) 的 过 渡 方 案 。 
当然 ， 我 们 在 这 里 关心 的 只 是 UFT-8， 这 是 一 种 什么 样 的 编码 方案 呢 ? fim SZ, WR 
与 多 字 节 相 结 合 。 读 者 也 许 马 上 就 会 问 : 怎么 绕 了 半天 义 回 到 单字 节 与 多 字 节 相 结 合 了 ?我 们 坝 在 的 
1802022, GB2312, GBK 等 等 不 正 是 单字 节 与 多 字 节 相 结合 吧 ? 是 的 ， 虽 然 从 原理 上 讲 都 是 单字 节 与 
多 字 节 相 结 合 ， 但 是 具体 的 编码 方法 不 同 。UTEF-8 的 编码 规则 为 ; 
€ 7 位 ASCII 码 保持 原状 不 变 , 也 就 是 数值 在 0x00 — 0x 7F 范围 内 的 Unicode 代码 在 UTF-8 中 为 
单字 WW, FFARR 0 

@ 不 能 用 7 位 表示 , 但 起 可 以 用 11 位 表示 ， 也 就 是 数值 在 0x80~0x7FF 光 用 内 的 Unicode 代码 
在 UTF-8 中 为 双 字 节 。 第 个 宁 节 的 最 高 三 位 为 110， 然 后 是 这 11 位 中 的 高 5 位 ， 第 二 个 字 
节 的 最 高 两 位 为 10， 然后 是 11 位 中 的 低 6 位 。 

e 不 能 用 11 位 表示 ， 但 可 以 用 16 位 表示 的 数值 ， 即 数值 在 0x800~0xFFFF 范围 内 的 Unicode 
代码 在 UTF-8 中 为 三 字 节 。 第 一 个 学 节 的 最 高 四 位 为 1110， 然 后 是 16 位 中 的 最 高 4 位 ; 第 
一 个 字 节 的 最 高 二 位 为 10， 然 后 是 16 位 中 的 中 间 6 位 ; 第 三 个 字 节 的 最 高 两 位 也 是 10， 然 
后 是 16 位 中 的 最 小 6 位 。 

e ”对 于 超出 16 位 , 但 是 可 以 用 21 位 表示 的 数值 , 即 数值 在 0x 10000— 0x 1 FFFFF 范围 内 的 代码 ， 
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在 Unicode 中 要 用 两 个 “代用 码 ” (surrogate) 来 表示 ， 而 在 UTF-8 中 则 为 四 字 节 编码 。 第 
一 个 字 节 的 最 高 $ 位 为 11110， 然 后 是 这 21 位 中 的 最 高 三 位 ; A. =H. MWA 
位 都 是 10， 然 后 各 载 有 21 位 中 的 6 位 。 

所 以 ， 一 个 字 节 的 最 高 位 为 0 表示 这 是 单字 节 的 ASCH i, RAMA 1 表示 这 是 多 字 节 代码 中 的 
一 个 字 节 ， 而 该 代码 中 的 第 一 个 字 节 的 最 高 岗位 均 为 1， 并 且 连 续 有 几 位 为 1 就 表示 该 代码 中 有 几 个 
字 节 。 代 人 码 中 其 余 字 节 的 最 高 两 位 均 为 10。 

这 样 的 编码 方法 有 什么 好 处 昵 ” 让 我 们 来 看 看 UTF-8 编码 的 性 质 ; 

(D ”与 ASCII 码 兼容 , 但 是 在 这 方面 UTF-8 并 没有 什么 特别 的 优势 ， 因为 其 他 各 种 编码 也 都 是 与 

ASCII 兼容 的 。 

(2) “不 使 用 换 码 控制 字符 ， 多 字 节 代码 中 每 个 字 节 的 最 高 位 都 是 1， 并 上 用 每 个 多 字 节 代码 中 的 第 
一 个 字 节 很 容易 与 其 余 的 字 节 相 区 别 ， 因 而 不 存在 “配对 ”是 否 正 确 的 问题 。UTE-8 编码 的 
这 个 性 质 使 对 字符 串 内 容 的 随机 访问 成 为 可 能 。 当 从 一 个 字符 串 中 随机 选取 一 个 字 时 ， 如 果 
该 字 节 的 最 高 位 为 0， 则 为 单字 节 的 ASCII 码 ; 如 果 最 高 两 位 均 为 1 则 为 多 字 节 代码 中 的 第 
一 个 字 节 ， 否 则 往 回 扫描 最 多 三 个 字 节 必 可 发 现代 码 中 的 第 一 个 字 节 。 

Q) ” 抗 干 扰 能 力 强 ， 假 定 传输 过 程 中 某 个 字 节 的 最 高 位 从 0 变 成 了 1 或 从 1 变 成 了 0， 则 受到 损 
坏 的 最 多 只 是 这 个 字 节 本 身 所 在 的 代码 加 上 与 它 相 邻 的 代码 。 而 不 会 像 在 其 他 编码 方案 中 那 
样 引 起 成 片 的 损 雨 “例如 ， 因 换 码 字符 损坏 以 及 因 “ 配 对 ”错位 所 造成 的 损坏 》。 

(4) ” 仍 与 Unicode 一 样 ， 是 一 体 化 的 编码 。 

(5 ALA BERESS 8 位 码 的 软件 就 不 会 排 厅 UTF-8 编码 , 因为 在 它 的 多 字 节 代码 中 不 念 任何 特殊 字 
^j CUN 0x00. 0x03. Oxlb. Ox2f 等 等 ) 。 或 者 说 ， 所 有 能 接受 8 位 编码 的 软件 都 是 对 UTF-8 
透明 的 。 

HA, Linux 内 核对 Unicode Fl UTF-8 的 接受 程度 如 何 呢 ? 我 们 不 妨 带 着 问题 来 重 温 一 下 
path, walk( ) 的 代码 。 显 然 ，path_walk( ) 的 代码 对 UTF-8 代 妈 是 透明 的 ， 因 为 多 字 节 的 UTF-8 HAS 
有 如 0x00、0x2f 等 等 这 些 特殊 字符 。 所 以 ， 凡 是 UTF-8 编码 的 文字 ， 包 括 汉 字 ， 都 可 以 用 在 文件 名 和 
目录 名 中 ， 更 可 以 用 在 文件 内 容 的 任何 字符 中 中 。 可 是 ，path_walk( ) 对 Unicode 偿 是 不 透明 的 ， 所 以 
Unicode 不 能 用 在 文件 名 和 目录 名 中 。 在 这 方面 ， 对 Linux 内 核 还 有 工作 要 做 ， 这 也 是 今后 Linux 内 核 
继续 改进 的 方向 之 一 。 那 么 ， 退 而 求 其 次 ， 以 Unicode 作为 文件 内 容 ， 就 像 从 前 的 Unix 系统 带 上 汉字 
终端 那样 ， 是 否 可 以 妮 ? 读 者 企 阅 读 了 有 关 的 内 核 代码 以 后 就 会 看 到 ， 这 是 可 以 的 。 


了 解 了 上 面 这 么 些 背景 材料 以 后 ， 我 们 可 以 回 到 终端 设备 的 驱动 了 。 

如 前 所 述 ， 在 PC 机 上 一 般 总 是 以 显示 器 和 键盘 〈 可 能 还 有 限 标 器 ) 的 组 合作 为 控制 台 的 ， 这 一 者 
的 结合 就 相当 于 一 个 终端 。 但 是 ， 有 些 情况 下 个 系统 的 控制 台 不 止 个 ， 所 以 Linux HA EHE 
的 显示 器 和 键盘 复 用 于 若干 “虚拟 控制 台 ”(virtual consde)， 计 用 户 通 过 “Alt” 键 与 功能 键 “F1” 至 
“F12” 的 组 合 来 选择 将 某 个 虚拟 控制 台 作 为 系统 的 当前 控制 台 。 由 于 一 般 键盘 上 有 12 个 功能 键 ， 所 
以 可 以 有 12 个 虚拟 控制 台 (或 者 虚拟 终端 ) ， 分 别 对 应 着 设备 文件 /dewittyl 至 /dewtty12。 系 统 在 初始 
化 以 后 以 /dev/ttyl 为 当前 控制 台 。 此 外 ，/devitty0 永远 代表 着 系统 的 当前 控制 台 ， 所 以 如 果 用 户 按 了 
Alt+F2 键 ， 则 /dev/tty0 就 等 价 于 /dev/tty2。 在 /dev 目录 中 还 有 一 个 节点 /dewconsole， 一 般 都 是 连接 到 
ldevitty0， 所 以 也 代表 着 系统 的 当前 控制 台 。 
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这 样 做 有 什么 好 处 呢 ? OR FRSA PY EAN IRIS eg Le (不 过 Linux 只 在 前 而 6 个 
虚拟 终端 上 创建 login 进程 》 并 局 动 不 同 的 作业 ， 然 后 遂 过 Alt 键 和 功能 键 的 组 合 在 这 些 虚 拟 控制 台 之 
间 切 换 ， 根 据 需要 使 得 在 某 个 虚拟 终端 上 启动 运行 的 作业 成 为 当前 的 “前 台 作 业 ”。 另 … 方 面 ， 系 统 
在 引导 、 初 始 化 以 及 运行 中 要 显示 很 多 信息 ， 如 果 让 这 些 信息 显示 在 同一 个 虚拟 终端 上 ， 则 许多 信息 
混在 “起 不 容易 看 清 ， 并 旦 很 快 就 被 后 米 的 信 总 所 覆盖 。 如 果 将 这 些 信息 分 门 别 类 地 显示 在 不 间 的 虚 
拟 终端 |, 则 用 户 可 以 有 选择 地 阅读 , 这 样 就 方便 多 了 。 作为 字符 设备 的 这 些 虚 拟 终端 的 主 设备 号 为 4， 
次 设备 号 旭 与 “终端 号 ”相对 应 ， 如 /dev/tty0 的 次 设备 号 为 0，/devitty1 的 次 设备 号 为 1， 等 等 ， 

这 些 设备 文件 实际 上 都 代表 着 一 个 输出 缓冲 区 ， 写 入 这 些 设备 的 内 容 剖 写 在 缓冲 区 中 ， 直 到 选择 
某 个 特定 虚拟 终端 时 才 将 其 缓冲 区 的 内 容 显示 到 显示 器 屏幕 上 。 从 这 些 设备 读 就 不 一 样 了 ， 从 虚拟 终 
端 读 实 际 上 是 从 键盘 读 ， 但 是 键盘 只 属于 当前 控制 台 ， 所 以 从 虚拟 终端 的 〈 同 步 ) 读 操 作 ERIA 
择 了 该 虑 拟 终 端 作为 当前 控制 台 放 从 键盘 输入 后 才 会 返回 。 

主 设备 号 为 4 的 字符 设备 并 此 全 是 虚拟 终端 ， 还 包括 了 些 通过 常规 UART 趾 行 口 连接 的 实际 的 
终端 设备 。 其 体 讲 ， 除 次 设备 号 为 0 的 /dev/tty0 代表 着 当前 控制 台 ， 即 当前 虚拟 终端 外 ， 次 设备 与 1~ 
63 分 别 为 /dev/ttyl 全 dev/tty63, 代 表 着 63 个 虚拟 终端 〈 虽 然 在 PC 机 键盘 上 只 有 12 个 功能 键 ， 内 而 只 
能 在 前 12 个 起 拟 终端 中 作出 选择 ) ; 次 设备 号 64 E 255 则 分 别 为 /dev/ttyS0 至 /dev/ttyS191， 它 们 代表 
着 192 个 可 能 的 UART 串 行 口 ， 即 一 般 的 串 行 终端 设备 。 

此 外 ， 与 /dev/tty0 fü/dev/ttyl &/dev/tty63 相对 应 ， 在 /dev 日 孙 下 还 有 一 些 主 设备 号 为 >、 代表 虚拟 
终端 缓冲 区 的 “字符 设备 ”文件 /dewvcs Fl/dev/ves] 至 /dev/vcs63。 这 些 设 备 文件 与 代表 虚拟 终端 的 设 
备 文件 相对 应 ， 但 是 有 所 不 同 。 从 某 个 虚拟 终端 缓冲 区 《例如 /dewvcs2) 读 就 是 从 相应 虚拟 终端 的 输 
出 缓冲 区 读 ， 而 不 是 像 虚拟 终 站 本 身 那样 是 从 键盘 恋 。 二 者 的 写 操作 也 有 所 不 同 ， 对 虚拟 终端 缓冲 区 
的 写 操作 只 是 简单 的 对 线性 缓冲 区 的 操作 ， 而 并 不 像 虚拟 终端 翔 样 以 缓冲 区 米 模拟 显示 器 的 详 幕 。 这 
两 种 设备 的 file operations 数据 结构 也 不 同 ，， 为 vcs_fops， 一 为 tty_fops。 

不 仅 如 此 ， 在 /dev 目 水 下 还 有 另外 64 个 二 设备 号 也 是 7 的 字符 设备 /dev/vcsa 和 /dev/vcsal 至 
/devvesa63， 它 们 的 次 设备 号 为 128 至 191。 这 些 字符 设备 也 对 应 着 63 个 虚拟 终端 的 缓冲 区 ， 所 不 同 
的 是 这 些 缓冲 区 是 带 有 字符 “属性 ”的 缓冲 区 , 文件 名 中 的 字母 “a” 就 是 “attribute” 的 意思 。 对 VGA, 
EGA 等 图 形 卡 和 BIOS 有 所 了 解 的 读者 也 许 知道 ， 当 这 些 图 形 卡 工作 十 字符 模式 时 可 以 让 人 每 个 字符 带 
LE -个 表示 属性 的 字 季 ， 以 控制 该 字符 显示 时 的 鼎 色 、 况 度 等 属性 。 

读者 也 许 已 经 觉得 这 些 终端 设备 不 简单 了 。 人 然而 还 不 止 于 此 ， 在 /dev H3& PIA iie S7 SH 
字符 设备 。 这 些 设备 统称 为 “替换 ” (alternate) 终端 设备 。 其 中 次 设备 号 64 一 225 分 别 为 /dew/cua0 至 
/dev/cual91, tt 192 个 使 用 串 行 口 的 终端 设备 , 称 为 “callout? 终 端 设备 ,与 前 述 的 /dewttyS0 /dev/ttyS191 
相对 应 。 PAIK SB MAHAL HIME? 这 头 要 从 终端 设备 与 主机 的 连接 方式 说 起 。 终 端 设备 与 主机 CH 
切 地 说 是 主机 的 串 行 口 ) 的 连接 方式 大 体 上 有 两 种 ， “种 是 “本 地 ”连接 方式 ， 这 就 是 ，“ 般 “计算 中 
心 ”里 把 儿 十 个 乃至 上 百 个 终端 设备 直接 ( - 般 都 是 通过 RS232C 电缆) 连接 到 主机 LAT ETON 
方式 。 在 这 种 连接 方式 里 ， 终 端 设备 与 主机 的 连接 是 静态 的 ， 把 哪 一 个 终端 的 电缆 (个 管 有 多 长 ) 插 
入 哪 一 个 串 行 口 ， 这 个 终端 在 物理 | 就 静态 地 连接 到 了 这 个 品行 口 。 终 端的 电源 可 以 关闭 ， 但 是 二 者 
物理 上 的 连接 却 并 不 改变 。 归 “种 是 “远程 ”连接 方式 ， 人 在 这 种 方式 里 ， 终 端 设备 与 主机 并 不 直接 相 
连 ， 而 是 各 由 通过 一 个 modem 经 电话 线 网 络 对 接 ， 所 以 终端 设备 与 主机 的 连接 是 动态 的 ， 不 同 的 终端 
设备 在 不 同 的 时 间 里 可 以 通过 电话 线 网 络 连 接 到 主机 的 同 个 串 行 门 上 。 然 和 出， 这 里 就 有 一 个 问题 ， 
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就 是 由 谁 来 启动 这 种 动态 连接 呢 ? -种 办 法 是 让 主机 一 方 启动 ， 称 为 “callout”， 此 时 的 品行 口 工作 于 
"iEn" (callout) 模式 , 相应 的 终端 设备 称 为 * 呼 出 型 ”(callout) 终端 设备 , 即 /dev/cua0 至 /dev/icual91。 
另 一 种 办 法 是 让 终端 一 方 通过 其 modem 拨号 启动 ， 称 为 “dial in” , NRO TET “HRS” IR 
和 
是 略 有 不 同 的 。 

除 这 些 设备 文件 以 外 ， 还 为 一 些 主要 的 串 行 接口 卡 厂 沿 分 配 了 专 州 的 主语 备 写 。 例 如 ， 对 于 
Cyclades K PITE, MORT 19 和 20 AS THRE ERAS. HH 19 用 于 dial in， 设 备 义 件 名 为 
/devittyC0 B/devittyC31; 而 20 则 用 于 “call out”， 设 备 文件 名 为 /dev/cub0 侍 /dev/cub31。 像 这 样 的 例 
子 还 有 很 多 ， 在 Linux/Documentation Ht X fF devices.txt， 列 出 了 所 有 已 经 分 出 的 设备 号 ， 

读者 可 以 参考 。 

上 面 讲 到 的 这 些 终端 设备 都 是 物理 上 存在 的 ， 即 使 是 “虚拟 终端 ”， 最 终 也 要 对 应 到 一 个 物理 的 
终端 上 上。 就 拿 显示 器 和 键盘 的 组 合 来 说 ， 虽 然 与 传统 的 终端 设备 有 所 不 同 ， 但 毕 竞 其 备 了 构成 个 终 
端的 物理 旨 素 。 然 而 ， 随 着 计算 机 技术 的 发 展 ， 出 现 了 对 一 种 特殊 “终端 设备 ”的 需求 ， 这 种 设备 在 
逻辑 上 是 终端 设备 ， 可 是 实际 上 却 不 是 ， 所 以 称 为 “ 伪 终 端 ”《pseudo tty) 。 伪 终端 总 是 成 对 了 地 使 用 
的 ， 就 好 像 是 一 个 管道 的 两 端 。 一 端的 设备 称 为 “ 主 设备 ” (master) ,其 让 设备 号 为 2， 设 备 名 为 
/devptyAX， 这 里 的 A 表示 16 个 字母 “pqrstuvwxyzPQRST” 中 的 -个 , X 则 为 16 个 16 进 制 数字 (0~ 
f) 之 一 ， 这 样 -一共 可 以 有 256 个 伪 终 端 主 设备 。 另 一 端的 设备 称 为 “从 设备 ” Glave), HERES 
为 3， 设 备 名 则 为 /dev/ttyAX， 辣 样 也 是 256 个 。 每 一 对 伪 终 端 设 备 ， 例 如 /dev/ptyp0 和 /dewttyp0， 就 好 
像 是 道 过 :个 管道 连 在 -起 ， 其 “从 设备 ”一 站 与 普通 的 终端 设备 没有 什么 区 别 ， 而 “ 主 设备 ”一 端 
Wy £38 SCAR AA 

厚 么 ， 为 什么 要 有 这 样 的 伪 终 端 设 备 ， 又 为 什么 要 有 主 设 备 和 从 设备 配对 呢 ? 让 我 们 考虑 当 个 
Linux (BK Unix) 系统 有 来 用 X Window 一 类 的 岁 形 用 户 界 而 (GUI) 时 的 情况 。 在 这 样 的 系统 里 ， 整 个 
显示 屏 以 及 键盘 都 在 一 个 视窗 管理 进程 的 控制 之 下 ， 显 示 上 冬 上 有 若干 个 几 来 模拟 普通 终端 的 窗 让 ， 每 
个 这 样 的 窗口 都 与 一 个 应 用 进程 例如 shell 相 联系 。 但 是 每 个 shell 进程 都 以 为 它 的 标准 输入 利 标准 输出 
(以 及 标准 出 错 信 息 ) 通道 郁 遂 向 个 终端 设备 ， 妓 不 知道 也 万 能 力 控 制 显示 屏 上 的 窗口 。 念 么 办 呢 ? 
这 就 要 使 用 伪 终 端 没 备 了 ， 图 8.7 ESSA. 
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图 8.7 伪 终 端 净 辑 示意 图 
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每 一 对 伪 终 端 设备 连接 着 显示 屏 上 的 一 个 窗口 和 … 个 应 用 进程 。 当 视窗 管理 进程 从 键盘 接收 到 一 
个 字符 时 ， 它 先 要 检查 当前 的 “光标 ”位 置 ， 找 出 当前 “活跃 ”的 窗口 和 与 之 对 应 的 伪 终 端 “ 主 设备 ” 
(作为 个 已 打开 文件 》 ， 然 后 就 把 从 键盘 读 入 的 字符 号 入 到 伪 终 端的 “ 主 设备 ”一 端 。 也 就 是 说 ， 
对 于 键盘 输入 ， 视 窗 管 理 进 程 起 着 中 转 、 搬 运 的 作用 ， 与 入 伪 终 端 “ 主 设备 ”一 端的 字符 马上 就 到 达 
了 其 “从 设备 ”一 端 。 在 浊 里 ， 对 于 与 “从 设备 ” 相 联系 的 进程 来 说 ， 就 跟从 普通 终端 设备 读 入 字符 
一 模 一 样 了 。 反 过 来 ， 当 “从 设备 ”一 过 的 进程 有 输出 时 ， 它 的 输出 通过 伪 终 端的 “从 设备 ”到 达 “ 主 
设备 ”一 端 ， 然 后 由 视窗 管理 进程 读 取 。 视 窗 管 理 进程 从 某 个 伪 终 端的 “ 主 设备 ”中 接收 到 字符 以 后 ， 
就 要 根据 具体 的 打开 文件 号 找到 显示 屏 上 相应 的 窗口 ， 换 算 成 显示 屏 上 的 位 置 ， 再 把 接收 到 的 宁 符 在 
这 个 位 置 上 显示 出 来 。 与 伪 终 端 “ 从 设备 ” 相 联 系 的 进程 ， 根 本 就 不 知道 它 的 终端 设备 到 底 是 个 物 
理 终 端 ， 还 是 实际 .上 只 不过 是 另 一 个 进程 。 另 一 方面 ， 伪 终端 “证 设备 ”一 侧 的 进程 也 不 一 定 非得 把 
从 伪 终 端 “证 设 备 ” 接 收 到 的 内 容 在 显示 屏 上 的 某 个 窗口 蝶 显 示 出 来 。 例如， 在 网 络 环境 下 “从 设备 ” 
一 端的 进程 可 能 仍 是 shell， 测 “ 主 设备 ”一 端的 进程 则 可 能 是 telnetd， 它 把 从 伪 终 端 “ 主 设备 ”接收 
到 的 内 容 “ 搬 运 ” 旬 一 个 网 络 插口 中 ， 反 之 外 然 ， 这 个 插口 也 许 通过 互联 网 连接 到 一 于 公里 以 外 的 另 
一 台 机 器 上 。 
显然 ， 伪 终端 设备 不 同 二 常规 的 终端 设备 ， 它 们 的 驱动 程序 也 理应 有 所 不 同 ， 但 是 实际 上 却 共享 
同一 个 file operations 数据 结构 ， 即 uy_fops. PXE, ERBS WH 2. 3. 4. 5 CER 7 以 外 ) 的 字符 设 
备 ， 以 及 与 分 配给 各 家 串 行 口 厂 沿 的 主 设备 号 相对 应 的 字符 设备 ， 全 部 使 用 同一 个 file operations 数据 
结构 。 这 当然 并 不 意味 着 所 有 这 些 设备 部 使 用 相同 的 驱动 程序 ， 而 是 说 明 : 
(1) 终端 设备 的 驱动 程序 至 少 可 以 分 成 两 个 或 更 多 个 上层 ， 其 中 最 上 上 层 是 公共 的 ， 所 以 有 相同 的 
入 口 。 
(2) “不 同类 终端 设备 的 读 / 写 操作 不 同 , 例如 前 述 由 显示 器 和 键盘 构成 的 控制 台 终 端 跟 外 接 的 笨 终 
端 显 然 不 同 ， 所 以 … 定 还 有 一 个 类 似 于 file operations 烤 样 的 函数 跳 转 结构 。 
(3) ”终端 设备 驱动 程序 也 中 信息 传 输 的 方式 有 关 , 例 如 通过 RS232 电 绕 相连 的 终端 跟 通过 Modem 
相连 的 终端 肯定 不 一 样 。 所 以 ， 一 定 还 存在 着 为 一 个 与 传输 方式 有 关 的 也 数 跳 转 结构 。 
事实 正 是 这 样 ， 除 file_operations 结构 以 人 外， 每 个 终端 设备 还 跟 男 两 个 数据 结构 相 联 系 ， 一 个 是 
tty. driver 数据 结构 ， 定 义 十 include/linux/tty driver.h: 


120 struct tty driver { 


121 int magic; /* magic number for this structure */ 
122 const char *driver_namc; 

123 const char *name, 

124 int name base; /* offset of printed name */ 

125 short major; /* major device number */ 

126 short minor start; /* start of minor device number*/ 
127 short num; /* number of devices */ 

128 short type; /* type of tty driver */ 

129 short subtype; /* subtype of tty driver */ 

130 struct termios init termios; /* Initial termios */ 

131 int flags; /* ity driver flags */ 

132 int *refcount; /* for loadable tty drivers x*/ 
133 struct proc dir entry *proc entry; /* /proc fs entry */ 
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134 struct tty driver *other; /* only used for the PTY driver */ 
135 

136 /* 

137 * Pointer to the tty data structures 

138 */ 

139 struct tty_struct **table; 

140 struct termios **termios; 

141 struct termios **termios locked; 

142 void *driver state; /* only used for the PTY driver */ 
143 

144 /* 

145 * Interface routines from the upper tty layer to the tty 
146 * driver. 

147 */ 

148 int (*open) (struct tty struct * tty, struct file * filp); 
149 void (*close)(struct tty struct * tty, struct file * filp); 
150 int (write) (struct tty struct * tty, int from user, 

151 const unsigned char *buf, int count); 

152 void (*put char) (struct tty struct *tty, unsigned char ch); 
153 void (*flush chars) (struct tty struct *tty); 

154 int (*write room) (struct tty struct *tty); 

155 int (*chars in buffer) (struct tty struct *tty) ; 

156 int (*ioctl) (struct tty struct *tty, struct file * file, 
157 unsigned int cmd, unsigned long arg); 

158 void (*set termios) (struct tty struct *tty, struct termios * old); 
159 void (*throttle) (struct tty struct * tty); 

160 void (*unthrottle) (struct tty struct * tty); 

161 void (*stop) (struct tty struct *tty); 

162 void (*start) (struct tty struct *tty); 

163 void (*hangup) (struct tty struct *tty); 

164 void (*break ctl) (struct tty struct *tty, int state); 

165 void (*flush buffer) (struct tty struct *tty); 

166 void (xset ldisc) (struct tty struct *tty); 

167 void (*wait until sent) (struct tty struct *tty, int timeout); 
168 void (*send_xchar) (struct tty struct *tty, char ch); 

169 int (tread proc) (char *page, char **start, off t off, 

170 int count, int *eof, void *data); 

171 int (write proc) (struct file *file, const char *buffer, 
172 unsigned long count, void *data); 

173 

174 /* 

175 * linked list pointers 

176 */ 

177 struct tty driver *next; 

178 struct tty driver *prev; 

M9 ] 


可 见 ， 结 构 中 给 定 了 该 种 终端 设备 的 主 设备 号 以 及 次 设备 号 的 范围 ， 并 提供 了 许多 函数 指针 。 这 
. 341. 


Linux 内 核 源 代码 情景 分 析 (下 册 》 
样 ， 对 于 不 同 种 类 的 终端 设备 就 有 不 同 的 tty_driver 数据 结构 ， 例 如 控制 台 终 端的 tty. driver 数据 结构 


就 是 console. driver. 
另 一 个 是 tty_ldisc 数据 结构 ， 定 义 于 include/linux/tty. ldisc.h P: 


103 struct tty ldisc { 


104 int magic; 

105 char *name; 

106 int num; 

107 int flags; 

108 /* 

109 * The following routines are called from above. 

110 */ 

111 int (*open) (struct tty struct *); 

112 void (kclose) (struct tty struct *); 

113 void (*flush_buffer) (struct tty struct *tty); 

114 ssize t (*chars in buffer) (struct tty struct *tty); 

115 ssize t (*read)(struct tty struct * tty, struct file * file, 
116 unsigned char * buf, size t nr); 

117 ssize t (write) (struct tty struct * tty, struct file * file, 
118 const unsigned char * buf, size t nr); 

119 int (*ioctl) (struct tty struct * tty, struct file * file, 

120 unsigned int cmd, unsigned long arg); 

121 void (*set termios) (struct tty struct *tty, struct termios * old); 
122 unsigned int (*poll) (struct tty struct *, struct file *, 

123 struct poll table struct *); 

124 

125 /* 

126 * The following routines are called from below. 

127 */ 

128 void (*receive buf)(struct tty struct *, const unsigned char *cp, 
129 char *fp, int count); 

130 int (*receive room) (struct tty struct *); 

131 void (Awrite_wakeup) (struct tty struct *); 

132 15 


结构 名 中 的 “ldisc” 应 为 “Line Discipline” 的 缩写 ， 表 示 “ 链 路 规则 ”的 意思 。 与 file operations 
不 同 的 是 ， 这 个 结构 中 不 但 有 供 上 层 调用 的 函数 指针 如 open, read, write 等 等 ， 述 有 供 下 层 往 上 调用 
的 函数 指针 receive. buf, receive, room 以 及 write_wakeup。 此外, 结构 中 还 有 几 个 并 非 函数 指针 的 字段 。 
内 核 中 有 个 ty_idisc 结构 数组 ， 用 于 各 种 不 局 的 链 路 规则 ， 包 括 实际 上 并 不 使 用 链 路 的 “ 链 路 规则 ”， 
定义 于 drivers/char/tty_io.c: 


119 struct tty ldisc ldiscs[NR LDISCS]; /* line disc dispatch table */ 


其 大 小 为 NR_LDISCS， 实 际 上 定义 为 16， 系 统 在 初始 化 或 安装 某 种 驱动 模块 时 通过 函数 
tty_register_Idisc( ) 将 有 关 的 tty_Idisc 结构 “登记 ”到 这 个 数组 中 。 
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如 果 把 具体 终端 设备 的 驱动 称 为 “终端 设备 层 ” 的 话 ， 那 么 tty driver 结构 是 它 与 其 上 层 ， 妈 常规 
的 设备 驱动 层 之 间 的 界面 ， 调 wy Idisc 结构 则 是 它 与 其 下 层 ， 即 物理 设备 层 之 间 的 界面 。 所 谓 “ 链 路 
规则 ”， 实 际 上 就 是 怎样 驱动 具体 的 物理 接口 。 
下 面 ， 我 们 通过 打开 文件 操作 来 看 根据 终端 的 种 类 转 接 到 具体 tty, 1disc 结构 的 过 程 。 





如 上 所 述 ， 数 据 结构 tty_fops 是 几乎 所 有 终端 设备 驱动 程序 的 总 枢纽 ， 有 着 特殊 的 重要 性 。 这 个 
数据 结构 是 在 drivers/char/tty_io.c 中 定义 的 : 


407 static struct file operations tty fops = { 


408 llseek: tty_lseek, 
409 read: tty_read, 
410 write: tty write, 
411 poll: tty_poll, 
412 ioctl: tty ioctl, 
413 open: tty open, 
414 release: tty release, 
415 fasync: tty fasync, 
46  J); 


用 于 打开 文件 操作 的 函数 是 tty_open( )， 因 为 比较 长 ， 我 们 分 段 阅读 (drivers/char/tty_io.c)。 


1285 static int tty open(struct inode * inode, struct file * filp) 
1286 { 


1287 struct tty struct *tty; 

1288 int noctty, retval; 

1289 kdev t device; 

1290 unsigned short saved flags; 

1291 char buf [64]; 

1292 

1293 saved flags = filp->f flags; 

1294 retry open: 

1295 noctty = filp->f flags & O NOCTTY; 
1296 device = inode-^i rdev; 

1297 if (device == TTY DEV) { 

1298 if (Icurrent-^tty) 

1299 return -ENXIO; 

1300 device = current->tty—>device; 
1301 filp-^f flags |= O_NONBLOCK; /* Don't let /dev/tty block */ 
1302 /* noctty = 1; */ 

1303 } 

1304 Hifdef CONFIG VT 

1305 if (device == CONSOLE DEV) { 

1306 extern int fg console; 

1307 device - MKDEV(TTY MAJOR, fg console * 1); 
1308 noctty = 1; 

1309 } 
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Hendif 
if (device == SYSCONS DEV) | 
struct console *c - console drivers; 
while(c && !c-»device) 
c = cnext; 
if (!c) 
return -ENODEY ; 
device = c->device(c) ; 
filp-^f flags |= 0 NONBLOCK; /* Don't let /dev/console block */ 
noctty = l; 


} 


if (device == PTMX DEV) { 
#ifdef CONFIG UNIX98 PTYS 


/* find a free pty. */ 
int major, minor; 
struct tty driver *driver; 


/* find a device that is not in use. */ 
retval = -1; 
for ( major = 0 ; major < UNIX98 NR MAJORS ; major** ) { 
driver = &ptm driver[major]; 
for (minor = driver-P?minor start ; 
minor € driver-^5minor start + driver->num ; 
minor) ( 
device = MKDEV(driver-^major, minor); 
if (tinit dev(device, &tty)) goto ptmx found; /* ok! */ 
} 
} 


return -E10; /* no free ptys */ 


ptmx found: 
set bit(TTY PTY LOCK, &tty—>flags); /* LOCK THE SLAVE */ 
minor -= driver->minor start; 


devpts pty new(driver-^other-»name base + minor, 
MKDEV (driver-^other-^major, minor + driver->other->minor start)); 
tty register devfs(&pts driver[major], DEVFS FL NO PERSISTENCE, 
pts driver[major].minor start * minor); 
noctty = 1; 
goto init dev done; 


else — /* CONFIG UNIX 98 PTYS */ 
return —ENODEV; 


Hendif /* CONFIG UNIX 98 PTYS */ 
} 
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1357 retval = init dev(device, &tty); 
1358 if (retval) 

1359 return retval; 

1360 


找到 代表 着 日 标 设备 的 文件 节点 以 后 ， 其 inode 结构 中 的 i rdev 字段 就 是 目标 设备 的 设备 号 。 首 
先 要 看 这 是 不 是 当前 进程 的 控制 终端 ， 常 数 TTY DEV 定义 于 drivers/char/tty_io.c: 


108 #define TTY DEV MKDEV (TTYAUX MAJOR, 0) 


就 是 说 ， 主 设备 号 为 5， 次 设备 号 为 0， 这 就 是 /dev/tty， 表 示 当 前 进程 的 “控制 终端 ”， 而 并 不 指 
向 任何 物理 意义 上 的 终端 。 一 个 进程 通常 都 有 个 “控制 终端 "。 如 果 没 有 ， 那 么 打开 的 第 一 个 终端 设 
备 - - 般 就 成 为 其 控制 终端 ， 但 是 那 得 要 使 用 表示 具体 终端 的 设备 文件 名 才 行 。 有 时 候 虽 然 一 个 进程 沿 
无 控制 终端 ， 并 且 又 要 打开 一 个 终端 设备 ， 可 是 却 并 不 要 将 它 作 为 控制 终端 ， 在 这 种 情况 下 就 可 以 在 
系统 调用 open ) 的 参数 flags 中 将 一 个 标志 O_NOCTTY 设 成 1, 这 里 的 1295 行将 这 个 标志 位 的 值 保 存 
在 一 个 局 部 量 noctty 中 备用 。 另 一 方面 ， 每 个 进程 的 task. structure 数据 结构 中 有 个 指针 tty， 指 向 代表 
着 其 当前 控制 终端 的 y struct 数据 结构 。 如 果 这 个 指针 为 0， 那 就 说 明 这 个 进程 还 没有 控制 终端 ， 所 
以 返回 出 错 代码 -ENXIO， 表 示 没 有 这 人 么 个 设备 。 如 果 上 要 打开 的 确实 是 当前 进程 的 “控制 终端 ”， 那 就 
已 经 不 是 第 一 次 打开 了 ， 这 里 把 通过 /dew/tty 建立 的 连接 强制 设 成 OQ_NONBLOCK。 

编译 选择 项 CONFIG_VT 表示 系统 中 是 否 配备 了 前 述 由 显示 器 和 键盘 构成 的 虚拟 终端 。 常 数 
CONSOLE, DEV 和 SYSCON_DEYV 的 定义 为 ( 见 drivers/char/n_tty.c): 


48 #define CONSOLE DEV MKDEV (TTY MAJOR, 0) 
49 define SYSCONS DEV MKDEY (TTYAUX. MAJOR, 1) 


就 是 说 ， 如 果 主 设备 号 为 4 而 次 设备 号 为 0， 即 /devtty0〈 表 示 当 前 虚拟 控制 台 ) . WH Sem 
具体 的 设备 号 。 在 支持 虚拟 控制 台 的 内 核 中 有 个 全 局 量 tg_console， 表 示 当 前 的 “前 台 控 制 台 ”。 这 个 
变量 的 数值 是 从 0 开始 的 ， 而 各 个 具体 虚拟 控制 台 的 次 设备 号 却 从 1 开始 , 所 以 二 者 在 数值 上 差 1。 这 
样 ，1307 行 就 根据 fg. console 的 数值 还 原 了 当前 虚拟 控制 台 的 设备 号 。 另 一 方面 ， 由 村 这 个 虚拟 控制 
台 原 来 就 书 打 开 , 所 以 把 noctty 设 成 1, 保持 其 原状 不 变 。 主 设备 号 为 5 而 次 设备 号 为 1 Bll/dev/console, 
用 于 外 接 的 控制 台 。 我 们 在 前 面 曾经 提 到 过 ，/dev/console 一 般 是 连接 到 /devitty0 的 。 但 是 ， 在 不 同 的 
版 本 里 情况 有 所 不 同 。 如 果 /dev/console 不 是 连接 到 /devwtty0， 而 是 主 设备 号 为 5$， 次 设备 号 为 1， 那么 
内 核 在 初始 化 过 程 中 安装 模块 时 会 通过 一 个 咀 数 register_console( ) 登 记 用 作 控 制 台 的 终端 设备 , 把 一 个 
console 数据 结构 挂 到 内 核 中 的 console drivers 队列 中 ， 此 后 内 核 便 会 将 需要 显示 的 出 错 信息 〈 通 过 
printk( ) 显 示 的 信息 ) 输出 到 所 登记 的 设备 上 。 我 们 在 后 面 要 讲 到 console 数据 结构 ， 但 是 在 这 里 只 要 
知道 这 个 数据 结构 里 有 个 字段 device， 就 是 具体 终端 设备 的 设备 号 就 行 了 。 所 以 ， 如 果 要 打开 的 终端 
设备 是 这 样 的 /dev/console， 就 要 在 console drivers 队列 中 找到 第 一 个 设备 号 不 会 0 的 console £f, "c 
所 提供 的 设备 号 就 是 当前 系统 控制 台 的 设备 号 。 

最 后 ， 常 数 PTMX_DEYV 的 定义 见 drivers/char/tty_io.c: 
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110 define PTMX DEV MKDEV (TTYAUX MAJOR, 2) 


fr Documents/device.txt 文件 中 可 以 查 到 ， 主 设备 号 为 5 而 次 设备 号 为 2 的 字符 设备 文件 是 
/dev/ptmx， 是 用 于 的 终端 主 设备 的 。 我 们 在 前 面 已 经 介绍 过 伪 终 端 设 备 ， 其 主 设备 和 从 设备 的 主 设备 
号 分 别 为 2 和 3， 并且 因此 而 可 以 有 256 对 伪 终 端 设备 〈 次 设备 号 为 8 位 ) 。 这 实际 上 是 BSD 版 本 的 
做 法 ， 现 在 也 一 直 在 沿用 ， 但 是 system V 采用 了 一 种 不 同 的 方法 。 在 systemV 中 设置 了 一 个 总 的 
伪 终 端 主 设备 文件 /dev/ptmx, 但 是 它 的 作用 与 上 述 /dev/console 相似 ， 只 是 提供 了 一 个 总 的 入 
只 ， 而 实际 的 设备 号 要 在 打开 文件 时 临时 分 配 ， 这 样 就 可 以 有 更 多 的 设备 号 用 于 伪 终 端 设备 。 在 早期 
的 应 用 中 ， 有 上 百 对 的 伪 终 端 设 备 已 经 够 用 了 ， 所 以 system V 这 种 方法 的 优点 并 不 明显 ， 但 是 ， 随 着 
网 络 技术 和 应 用 的 发 展 ， 后 者 的 优越 性 却 显 得 突出 起 来 。 用 Unix/Linux 系统 作为 网 络 服务 器 时 ， 可 能 
会 要 求 数 百 个 甚至 上 千 个 连接 ， 这 时 候 256 个 伪 终 端 主 设备 号 就 不 够 用 了 ， 而 采用 system V 的 方法 就 
不 受 这 个 限制 。 当 然 ， 采 用 BSD 的 方法 也 可 以 通过 增加 用 于 伪 终 端 设备 的 主 设备 号 个 数 来 扩充 它 的 容 
量 , 但 是 那样 在 应 用 程序 中 就 要 考虑 对 大 量 伪 终 端 设 备 文件 的 调度 和 管理 .例如 , 你 怎么 知道 /devptyr32 
己 经 在 使 用 中 ， 而 /dev/ptyx87 CEA BIE? 而 systom V 的 方法 则 实际 上 把 这 部 分 工作 移 到 了 内 核 中 ， 
效率 当然 费 高 一 些 , 并 且 应 用 程序 也 可 以 简化 。 所 以 , 在 新 的 Unix 版 本 , BI Unix98 中 采用 了 System V 
的 方案 并 加 以 配套 完善 ， 并 且 又 将 主 设备 号 125 一 135 分 配 用 于 伪 终 端 主 设备 ，136 一 143 用 于 次 设备 ， 
这 样 理论 上 的 容量 就 可 以 达到 8X256， 即 2048 对 伪 终 端 设 备 。 对 于 Linux 内 核 ， 这 是 作为 一 个 可 选项 
提供 的 ， 相 应 的 条 件 编译 选择 项 就 是 CONFIG_UNIX98_PTYS， 不 过 这 需要 2.1 版 或 以 上 的 c 程序 库 
glibc ME (glib: 为 用 户 程序 提供 若干 库 函 数 ， 例 如 ptsname( ) 返 回 与 一 个 已 经 打开 的 伪 终 端 主 设备 相 
对 应 的 次 设备 文件 名 ) 。 如 果 选 择 了 这 个 可 选项 ， 那 么 内 核 在 初始 化 时 根据 实际 用 寺 伪 终端 主 设备 号 
的 个 数 《 由 常数 UNIX98_NR_MAJORS 决定 ) 初始 化 两 个 tty driver 结构 ( 见 下) 数组 ptm_driver[ ] 和 
pts_driver[ ]， 分 别 用 于 主 设备 和 从 设备 ， 然 后 在 用 户 进程 通过 /devwptmx 打开 一 个 伪 终 端 主 设备 时 再 动 
态 加 以 分 配 。 代 码 中 第 1331 行 开始 的 for 循环 扫描 ptm driver ] 中 的 每 个 元 素 ， 即 每 个 主 设备 号 , 并 且 
对 于 每 个 主 设备 号 依次 尝试 各 个 次 设备 号 ， 如 果 以 某 个 主 设备 号 和 次 设备 号 的 组 合 调用 init dev ) 成 
功 ， 则 一 个 新 的 伪 终 端 主 设备 就 打开 成 功 了 。 但 是 ， 接 着 还 要 转 到 ptmx_found 处 为 进 - 步 打开 次 设备 
作 好 准备 。 数 组 ptm driver[ ] 和 pts driver[ ] 中 的 每 个 元 素 都 是 个 tty driver 数据 结构 ， 结 构 中 有 个 指 
针 other 用 来 指向 与 之 配对 的 另 … 方 ， 所 以 1344 行 的 driver 指向 ptm driver[. ] 中 的 某 个 元 素 ， 而 
driver-»other 则 指向 pts driver[ ] 中 与 之 配对 的 元 素 。 此 外 ， 函 数 devpts_pty_new( ) 为 相应 的 次 设备 在 内 
存 中 创建 一 个 inode 数据 结构 ，tty_register_devfs 则 为 之 创建 一 个 devfs 设备 节点 ， 例 如 /dev/pts/0， 
/dev/pts/134， 等 等 。 注 意 ， 终 端的 号 码 是 连续 编号 的 。 由 于 篇 幅 所 限 ， 我 们 在 这 里 就 不 深入 到 这 两 个 
函数 中 去 了 ， 有 需要 或 有 兴趣 的 读者 可 以 自行 阅读 。 

除 对 /dev/ptmx 作 特 殊 处 理 外 ， 对 其 他 终端 设备 〈 包 括 伪 终端 设备 ) 的 打开 文件 操作 在 取得 了 最 终 
的 设备 号 以 后 都 在 1357 行 调用 init dev( )， 为 需要 打开 的 终端 设备 建立 一 个 (或 找到 其 ) tty. struct 数据 
结构 。 

每 个 已 打开 的 终端 设备 都 由 一 个 tty_struct 数据 结构 代表 , 这 种 数据 结构 定义 于 include/linux/tty.h: 


245 /* 
246 * Where all of the state associated with a tty is kept while the tty 
247 * is open. Since the termios state should be kept even if the tty 
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* has been closed 一 - for things like the baud rate, etc —- it is 

* not stored here, but rather a pointer to the real state is stored 
* here. Possible the winsize structure should have the same 

* treatment, but (1) the default 80x24 is usually right and (2) it's 
* most often used by a windowing system, which will set the correct 
* size each time the window is created or resized anyway. 

* IMPORTANT: since this structure is dynamically allocated, it must 
* be no larger than 4096 bytes. Changing TTY FLIPBUF SIZE will change 
* the size of this structure, and it needs to be done with care. 

* - TYT, 9/14/92 

*/ 

struct tty struct | 


int magic; 

struct tty driver driver; 

struct tty ldisc ldisc; 

struct termios *termios, *termios locked; 
int pgrp; 

int session; 

kdev t device; 

unsigned long flags; 

int count; 

struct winsize winsize; 

unsigned char stopped:l, hw stopped:l, flow stopped:l, packet:1; 
unsigned char low latency:l, warned:1; 
unsigned char ctrl status; 


struct tty struct *link; 
struct fasync struct *fasync; 
struct tty flip buffer flip; 
int max flip ont; 

int alt speed; /* For magic substitution of 38400 bps */ 
wait queue head t write wait; 
wait queue head t read wait; 
struct tq struct tq hangup; 
void *disc data: 

void *driver data; 

struct list head tty files; 


#define N TTY BUF SIZE 4096 


/* 

* The following is data for the N_TTY line discipline. For 
* historical reasons, this is included in the tty structure. 
*/ 

unsigned int column; 

unsigned char lnext:l, erasing:l, raw:l, real raw:l, icanon:l; 
unsigned char closing:l; 

unsigned short minimum to wake; 
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296 unsigned overrun time; 

297 int num overrun; 

298 unsigned long process char map[256/(8*sizeof (unsigned long))]; 
299 char *read buf; 

300 int read head; : 

301 int read tail; 

302 int read cnt; 

303 unsigned long read flags[N TTY BUF SIZE/(8*sizeof(unsigned long))]; 
304 int canon data; 

305 unsigned long canon head; 

306 unsigned int canon column; 

307 struct semaphore atomic read; 

308 struct semaphore atomic write; 

309 spinlock t read lock; 

310 35 


这 里 先 介绍 一 下 其 中 几 个 特别 重要 的 成 分 ， 结 构 中 其 他 字段 的 作用 随 着 代码 的 阅读 自 会 变 得 清楚 
起 来 。 首 先是 一 个 uy driver 数据 结构 (261 行 )。 如 前 所 述 ， 每 种 终端 设备 都 有 自己 的 tty, driver 结构 ， 
结构 中 主要 是 一 些 函 数 指针 ， 确 定 了 对 有 具体 终端 类 型 的 一 整套 操作 。 内 核 中 有 个 链表 tty, drivers, 
系统 在 初始 化 时 ， 或 安装 某 种 终端 设备 的 驱动 模块 时 ， 通 过 函数 tty register driver( ) 将 各 
种 终端 设备 的 tty_driver 结构 登记 到 这 个 链表 中 。 每 当 新 打开 一 个 终端 设备 时 ， 就 要 根据 其 设备 号 通过 
函数 get_tty_driver( ) 在 这 个 链表 中 找到 相应 的 tty. driver 结构 ， 并 把 它 复制 到 具体 的 tty. struct 结构 中 。 
第 二 个 重要 成 分 就 是 tty_ldisc 数据 结构 (262 行 ) 。 如 前 所 述 ， 内 核 中 有 个 tty_ldisc 结构 数组 ldiscs[]， 
当 新 创建 一 个 tty. struct 结构 时 ， 就 从 该 数组 中 把 相应 的 tty_ldisc 结构 复制 到 tty. struct 结构 中 的 这 个 成 
分 中 。 第 三 个 重要 成 分 是 指针 termios， 指 向 一 个 termios 结构 。 每 个 逻辑 意义 上 的 终端 设备 接口 ， 如 串 
行 口 、 图 形 卡 和 键盘 的 组 合 乃 至 伪 终 端 设备 的 两 端 ， 都 有 一 个 termios 数据 结构 。 这 个 数据 结构 在 某 种 
程度 上 可 以 看 作 是 对 tty_ldisc 结构 的 补充 ， 它 规定 了 对 接口 上 输入 和 输出 的 每 个 字符 所 作 的 处 理 
以 及 传输 的 速度 ， 即 “ 波 特 率 ”。 数 据 结构 的 定义 在 include/asm-386/termbits.h 中 : 


10 Hdefine NCCS 19 


ll struct termios { 

12 tcflag t c iflag; /* input mode flags */ 
13 tcflag t c oflag; /* output mode flags */ 
14 tcflag t c cflag; /* control mode flags */ 
15 tcflag t c lflag; /* local mode flags */ 
16 cc t c line; /* line discipline */ 

17 cc t c cc[NCCS]; /* control characters */ 
18 h}; 


同一 文件 中 定义 了 用 于 这 个 结构 中 各 个 字段 的 许多 常数 〈 大 多 是 标志 位 》， 例 如 用 于 c_lflag 字段 
的 标志 位 ISG 为 0000001, ICANON 为 0000002, ECHO 为 0000010。 如 果 将 c_Iflag 字符 中 的 这 些 标 志 
位 清 成 0, 则 相应 终端 设备 就 工作 于 所 谓 “ 原 始 模式 ”(raw mode), HMR LET Pris“ Mn LRT” (cooked 
mode)。 有 关 详 情 在 阅读 有 关 代码 时 还 会 讲 到 。 限 于 篇 幅 ， 就 不 在 这 里 列 出 这 些 常数 的 定义 了 。 在 
tty. struct 结构 中 还 有 个 重要 的 成 分 fip， 是 个 tty. flip. buffer 数据 结构 。 它 是 终端 设备 的 输入 缓冲 区 ， 
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底层 的 中 断 服 务 程序 将 接收 到 的 字符 存储 于 这 个 缓冲 区 中 ， 供 其 上 层 读 取 。 这 就 是 我 们 以 前 提 到 过 的 
上 层 的 同步 读 操 作 与 底层 的 异步 读 操 作 之 间 的 交汇 点 ， 其 定义 在 include/linux/tty.h F: 


132 /* 

133 * This is the flip buffer used for the tty driver. The buffer is 
134 * located in the tty structure, and is used as a high speed interface 
135 * between the tty driver and the tty line discipline. 

136 */ 

137 #define TTY FLIPBUF, S1ZE 512 

138 

139 struct tty flip buffer { 

i40 — struct tq struct tqueue; 

141 struct semaphore pty sem; 

142 char *char buf ptr; 

143 unsigned char *flag buf ptr; 

144 int count; 

145 int buf num; 

146 unsigned char char buf[2*TTY FLIPBUF STZE]; 

147 char flag buf[2X*TTY FLIPBUF SIZE]; 

148 unsigned char  slop[4]; /* N.B. bug overwrites buffer by 1 */ 
149 Jj; 


与 flip 相应 的 另 一 个 成 分 是 字符 位 图 process. char. map. 这 个 位 图 中 的 得 一 位 都 对 应 着 个 8 位 字 
符 ， 所 以 位 图 的 大 小 为 32 字 节 。 如 果 某 个 字符 在 这 个 位 图 中 的 对 应 位 为 1， 就 表示 可 能 要 对 这 个 字符 
作出 一 些 特殊 的 处 理 或 反应 《往往 只 是 在 “加 工 模式 ”下 才 起 作用 ) 。 

随 着 代码 的 阅读 ， 数 据 结构 中 其 他 字段 的 作用 会 慢 慢 变 得 清楚 起 来 。 函 数 init dev( ) 的 代码 在 
drivers/char/tty_io.c 中 ， 这 也 是 个 比较 长 的 函数 ， 也 得 要 分 段 阅读 。 


[tty_open( ) > init dev( )] 


806 static int init dev(kdev t device, struct tty struct ***ret tty) 
807 { 


808 struct tty_struct *tty, *o tty; 

809 struct termios *tp, **tp_loc, *o tp, **o tp loc; 
810 struct termios *ltp, **ltp_loc, *o ltp, ***o ltp loc; 
811 struct tty driver *driver; 

812 int retval-0; 

813 int idx; 

814 

815 driver = get tty driver(device);. 

816 if (!driver) 

817 return -ENODEV; 

818 

819 idx = MINOR (device) - driver-^minor start; 

820 

821 /* 
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822 * Check whether we need to acquire the tty semaphore to avoid 
823 * race conditions. For now, play it safe. 

824 */ 

825 down tty sem(idx); 

826 

827 /* check whether we're reopening an existing tty */ 

828 tty = driver—^table[idx]; 

829 if (tty) goto fast track; 

830 

831 /* 

832 * First time open is complex, especially for PTY devices 
833 * This code guarantees that either everything succeeds and the 
834 * TTY is ready for operation, or else the table slots are vacated 
835 * and the allocated memory released. (Except that the termios 
836 * and locked termios may be retained.) 

837 */ 

838 

839 o tty = NULL; 

840 tp = o tp = NULL; 

841 ltp = o_ltp = NULL; 

842 

843 tty = alloc tty struct( ); 

844 if (!tty) 

845 goto fail_no_mem; 

846 initialize tty struct (tty); 

847 tty-^device = device; 

848 tty->driver = *driver; 

849 

850 tp loc = &driver-^termios[idx]; 

851 if (!*tp_loc) { 

852 tp = (struct termios *) kmalloc (sizeof (struct termios), 
853 GFP KERNEL) ; 

854 if (tp) 

855 goto free mem out; 

856 *tp = driver-^init termios; 

857 ] 

858 

859 ltp loc = &driver-^termios locked[idx]; 

860 if (**Itp loc) { 

861 ltp = (struct termios *) kmalloc(sizeof(struct termios), 
862 GFP KERNEL) ; 

863 if (!ltp) 

864 goto free mem out; 

865 memset(ltp, 0, sizeof(struct termios)); 

866 } 

867 


WHBRMAAT. TERAS, HFA m & ABIL lal --7> file operations 结构 ， 从 而 
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IE] —7 HK tty_open( ), 这 里 需要 进一步 根据 设备 号 来 区 分 有 具体 的 设备 和 操作 。 另 一 个 参数 是 双重 指针 ， 
指向 一 个 tty. struct 指针 ， 目 的 是 用 来 返 问 一 个 tty_struct 数据 结构 。 

简 言 之 ，init_dev( ) 的 任务 就 是 根据 设备 号 找到 或 创建 目标 终端 设备 的 tty_struct 数据 结构 ， 并且 
执行 在 打开 该 设备 时 所 需 的 附加 操作 。 首 先是 通过 get_tty_driver( ) 根 据 设 备 号 从 
tty drivers. 链表 中 找到 相应 的 tty. driver 数据 结构 (815 行 )， 这 个 结构 中 有 个 指针 table， 指 向 一 个 
tty. struct 结构 指针 数组 。 数 组 中 包含 了 所 有 该 种 终端 设备 的 tty_struct 结构 指针 。 举 例 来 说 ， 主 设备 号 
为 5 的 “辅助 TTY 设备 ”实际 上 包括 了 好 几 种 不 同 的 终端 设备 ， 其 中 次 设备 号 64—255 代表 着 
192 个 “呼出 型 * 串 行 口 终端 设备 , 设备 文件 为 /dev/cua0 至 /dev/cual191。 所 以 , 在 链表 tty. drivers 
中 就 有 -一 个 代表 着 呼出 型 终端 设备 的 tty_driver 数据 结构 ， 而 这 个 结构 中 的 指针 就 指向 一 个 大 小 为 192 
的 tty. struct 结构 指针 数组 。 由 于 这 种 终端 设备 的 次 设备 号 不 是 从 0 开始 的 ， 所 以 要 有 一 个 minor. start 
字段 ， 用 以 说 明 其 起 始 次 设备 号 ， 而 具体 的 次 设备 号 与 起 始 次 设备 的 差 就 用 作 访 问 该 数组 的 下 标 《〈 见 
819 行 ) 。 如 果 一 个 终端 设备 已 经 打开 ， 即 其 wy, struct 结构 已 经 存在 ， 那 么 数组 中 相应 的 指针 就 不 为 
0， 那 就 不 需要 创建 了 (六 828 和 829 行 )， 否 则 就 要 通过 alloc tty. struct( ) 分 配 空间 ， 然 后 就 是 对 这 个 数 
据 结构 的 初始 化 。 注 意 848 行 是 数据 结构 的 赋值 ， 是 把 整个 uy driver 数据 结构 复制 到 目标 设备 的 
tty_struct 结构 的 内 部 。 这 样 一 米 ， 前 述 两 个 函数 跳 转 结构 之 一 就 与 目标 设备 挂 上 了 钩 。 函 数 
initialize tty. struct( ) 的 代码 也 在 tty_io.c F: 


[tty_open( ) > init_dev( ) > initialize_tty_struct( )] 


1958 static void initialize tty struct (struct tty struct *tty) 


1959 { 

1960 memset (tty, 0, sizeof(struct tty struct)); 
1961 tty->magic = TTY MAGIC; 

1962 tty-^ldisc = ldiscs[N TTY]; 

1963 tty->pgrp = -1; 

1964 tty-»flip.char buf ptr = tty-^flip.char buf; 
1965 tty->flip. flag buf ptr = tty-»flip.flag buf; 
1966 tty-— flip. tqueue. routine = flush to ldisc; 
1967 tty-^flip. tqueue. data = tty; 

1968 init MUTEX(&tty—^flip.pty sem); 

1969 init waitqueue head(&tty-^write wait); 

1970 init waitqueue head(&tty-^read wait); 

1971 tty-^tq hangup.routine = do tty hangup; 

1972 tty-^tq hangup.data = tty; 

1973 sema init(&tty-^»atomic, read, 1); 

1974 sema init(&tty-^atomic write, 1); 

1975 spin lock init(&tty-^read lock); 

1976 INIT LIST HEAD(&tty-^tty files): 

1977  ] 


这 里 1962 行 又 是 数据 结构 的 赋值 ， 这 一 次 是 把 整个 tty_ldisc 数据 结构 复制 到 了 目标 设备 的 
tty struct. 结构 的 内 部 。 这 样 ， 前 述 的 两 个 函数 跳 转 结构 就 都 与 目标 设备 挂 上 了 钩 。 不 管 是 什么 种 类 的 
终端 设备 ， 其 默认 的 tty_ldisc 数据 结构 都 是 ldiscs[N_TTY]， 这 里 N_TTY 定义 为 0。 这 就 是 虚拟 终端 ， 
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则 可 以 在 以 后 通过 系统 调用 ioctl( ) 设 置 采 用 特殊 的 链 路 规则 。 


回 到 init dev( ) 的 代码 中 。 如 前 所 述 ， 在 uy. driver 结构 中 有 个 指针 termios 指向 一 个 termios 指针 
数组 ， 这 个 数组 也 是 以 终端 号 〈 次 设备 号 减 去 该 类 终端 设备 的 起 始 次 设备 号 ) 为 下 标的 。 与 此 相 平 行 ， 
还 有 个 指针 termios locked 指向 男 一 个 termios 结构 指针 数组 。 如 果 这 两 个 数组 中 对 应 于 正 欲 打开 的 终 
端 设备 的 termios 结构 指针 为 0， 就 表示 尚未 为 之 创设 termios 数据 结构 ， 所 以 要 为 之 分 配 空间 ( 见 852 
行 和 861 行 ) 并 初始 化 。 其 中 属于 termios[ ] 的 数据 结构 从 driver 结构 中 的 一 个 “样板 ”termios 结构 
init termios 复制 〈《 见 856 47) ， 而 属于 termios_locked[ ] 的 数据 结构 则 初始 化 成 全 0 CX 865 行 ) 。 


再 往 下 看 (tty_io.c) : 


[tty_open( ) > init dev( )] 


868 
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if (driver->type == TTY DRIVER TYPE PTY) { 


o tty = alloc tty struct( ); 
if (!o tty) 
goto free mem out; 
initialize tty struct(o tty); 
o tty-?device = (kdev t) MKDEV(driver-^other-^ma jor, 
driver other-^minor start + idx); 
o_tty->driver = *driver-?other; 


o tp loc = &driver—>other—>termios[idx]; 
if (!*o tp loc) { 
o tp = (struct termios *) 
kmalloc(sizeof(struct termios), GFP KERNEL); 
if (!o tp) 
goto free mem out; 
*o tp = driver->other—>init_termios; 


} 


o ltp loc = &driver—>other->termios locked[idx]; 
if (!*o ltp loc) { 
o ltp = (struct termios *) 
kmalloc(sizeof(struct termios), GFP KERNEL); 
if (!o 1tp) 
goto free mem out; 
memset(o ltp, 0, sizeof(struct termios)); 


) 
/* 


* Everything allocated ... set up the o tty structure. 


*/ 
driver-^?other-^table[idx] = o tty; 
if (to tp loc) 
*o tp loc = o tp; 
if (I*o ltp loc) 
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902 *o ltp loc = o_ltp; 

903 o tty-^termios = *o tp loc; 

904 o tty-^termios locked = *o ltp loc; 

905 (#driver—>other—>refcount) ++; 

906 if (driver->subtype == PTY TYPE MASTER) 
907 o tty-^count**; 

908 

909 /* Establish the links in both directions */ 
910 tty link = o tty; 

911 o tty->link = tty; 

912 ) 

913 


对 于 打开 文件 操作 ， 擅 终端 是 有 其 特殊 性 的 ， 所 以 如 果 要 打开 的 是 伪 终 端 设 备 〈 不 论 是 主 设备 或 
次 设备 ) 就 要 进行 一 些 特殊 的 处 理 。 打 开 伪 终端 设备 时 ，tty_struct 结构 是 成 对 地 分 配 、 创 建 的 ， 这 样 
才能 使 两 个 数据 结构 预先 “背靠背 ”地 互相 挂 上 钩 。 以 打开 一 个 伪 终 端 主 设备 为 例 ， 在 创建 了 主 设备 
一 侧 的 tty. struct 结构 tty( 见 前 面 的 843 行 ) 以 后 ， 还 要 创建 从 设备 … 侧 的 o_tty CM 869 行 )。 这 里 o_tty 
显然 是 表示 “the other tty”( 另 一 个 tty) 的 意思 。 伪 终端 主 设备 和 从 设备 的 tty_driver 数据 结构 都 通过 指 
t other 指向 对 方 , 所 以 如 果 875 行 中 的 driver 指向 主 设备 的 tty_driver 结构 ， 则 driver->other 指向 与 其 
配对 的 从 设备 的 tty_driver 结构 。 与 此 相似 ， 在 tty, struct 结构 中 也 有 个 指针 link， 可 以 用 来 互相 指向 对 
方 建立 起 伪 终 端 主 /从 设备 间 的 连接 ( 见 010—911 行 )。 这 样 ， 在 打开 主 设备 的 同时 就 分 配 好 了 从 设备 的 
tty. struct 结构 ， 下 一 次 要 打开 从 设备 的 时 候 就 会 在 前 面 的 828 行 发 现 所 需 的 tty. struct 结构 已 经 存在 ， 
从 而 跳 过 创建 tty. struct 结构 等 操作 ， 转 到 fast track 处 (在 956 17). 

我 们 继续 往 下 看 (tty_io.c): 


[tty_open( ) > init dev( )] 


914 /* 

915 * All structures have been allocated, so now we install them. 
916 * Failures after this point use release mem to clean up, so 
917 * there's no need to null out the local pointers. 

918 */ 

919 driver—>table{idx] = tty; 

920 

921 if (!*tp_loc) 

922 *tp loc = tp; 

923 if (I*ltp loc) 

924 *]tp loe = ltp; 

925 tty->termios = *tp loc; 

926 tty-^termios locked = *ltp loc; 

927 (Gkdriver-^?refcount)-*; 

928 tty-^counttt; 

929 

930 /* 

931 * Structures all installed ... call the ldisc open routines. 
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932 * If we fail here just call release mem to clean up. No need 
933 * to decrement the use counts, as release mem doesn’ t care 
934 */ 

935 if (tty->ldisc. open) { 

936 retval = (tty->ldisce. open) (tty) ; 

937 if (retval) 

938 goto release mem out; 

939 ) 

940 if (o tty && o_tty->Idisc. open) { 

941 retval = (o tty-^ldisc. open) (o tty) ; 

942 if (retval) { 

943 if (tty->ldisc. close) 

944 (tty-^ldisc. close) (tty); 

945 goto release mem out: 

946 } 

947 } 

948 goto success: 

949 

950 /* 

951 * This fast open can be used if the tty is already open. 
952 * No memory is allocated, and the only failures are from 
953 * attempting to open a closing tty or attempting multiple 
954 * opens on a pty master. 

955 */ 

956 fast track: 

957 if (test bit (TTY CLOSING, &tty—flags)) { 

958 retval = -EIO; 

959 goto end_init; 

960 } 

961 if (driver type == TTY DRIVER TYPE PTY && 

962 driver->subtype == PTY TYPE MASTER) | 

963 /* 

964 * special case for PTY masters: only one open permitted, 
965 * and the slave side open count is incremented as well 
966 */ 

967 if (tty->count) { 

968 retval = -ETO; 

969 goto end init; 

970 } 

971 tty->link->count++; 

972 } 

973 tty->countt+; 

974 tty->driver = *driver; /* N.B. why do this every time?? */ 
975 

976 success: 

977 *ret tty = tty; 

978 

979 /* All paths come through here to release the semaphore */ 
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et 


980 end init: 


981 up tty sem(idx); 

982 return retval; 

983 

984 /* Release locally allocated memory ... nothing placed in slots */ 
985 free mem out: 

986 if (o tp) 

987 kfree(o tp); 

988 if (o tty) 

989 free tty struct(o tty); 

990 if (ltp) 

991 kfree (ltp) ; 

992 if (tp) 

993 kfree (tp) ; 

994 free tty_struct (tty) ; 

995 

996 fail no mem: 

997 retval = -ENOMEM; 

998 goto end init; 

999 

1000 /* call the tty release mem routine to clean out this slot */ 
1001 release mem out: 

1002 printk('init dev: ldisc open failed, clearing slot %d\n”, idx); 
1003 release_mem(tty, idx); 

1004 goto end_init; 

1005 } 


这 里 将 新 创建 的 tty. struct 结构 “安装 ”在 其 所 属 tty. driver 结构 的 table[ ] 数 组 中 相应 的 位 置 上 (919 
行 )， 将 新 创建 的 termios 结构 安装 在 相应 的 数组 中 以 及 tty struct 结构 中 921 行 和 925 行 ) 。 最 终 完 
成 对 tty. struct 结构 的 初始 化 以 后 ， 可 能 还 要 执行 下 层 的 打开 文件 操作 。 如 果 tty_ldisc 数据 结构 中 的 函 
数 指针 open 非 0， 就 要 通过 这 个 函数 进行 链 路 的 初始 化 。 如 前 所 述 ， 不 管 是 哪 .种 终端 设备 ， 开 始 时 
总 是 采用 与 下 标 N_TTY 对 应 的 tty_ldisc 结构 。 实际 上 , 这 个 结构 是 tty_ldisc_N_TTY, 其 中 的 指针 open 
指向 n_tty_open( )， 这 个 函数 的 代码 在 drivers/char/n, tty.c "P: 


[tty_open( ) > init, dev( ) > n. tty open( )] 


860 static int n tty open(struct tty struct *tty) 


861 f 

862 if (tty) 

863 return -EINVAL; 

864 

865 if (Itty-read buf) { 

866 tty) read buf = alloc buf( ); 
867 if (!tty— read buf) 

868 return -ENOMEM; 

869 ) 
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870 memset (tty->read_buf, 0, N TTY BUF SIZE); 
871 reset buffer flags (tty); 

872 tty-?column = 0; 

873 n_tty_set_termios(tty, 0); 

874 tty-^minimum to wake = 1; 

875 tty->closing = 0; 

876 return 0; 

877 } 


读者 在 前 耐看 到 ，tty_driver 结构 中 有 个 成 分 fip， 是 个 tty_flip_buffer 数据 结构 ， 它 就 是 终端 设备 
的 输入 缓冲 区 。 终 端 设备 的 输入 有 两 种 方式 ， “种 叫 “ 版 始 模式 ”， 另 一 种 叫 “ 加 下 模式 ”， 在 实际 
应 用 中 大 多 工作 十 加 工 模式 。Unix 的 作者 给 “加 工 模 式 ” 取 了 个 很 形象 的 名 字 ， 叫 “cooked” 即 “经 
过 京 调 的 ”。 它 把 从 终端 设备 键盘 接收 到 的 字符 流 比喻 作 ” 生 米 *"， 而 把 经 过 处 理 以 后 的 字符 流 比 喻 成 
“ 熟 饭 ”。 如 果 把 ty driver 结构 中 的 tty. flip buffer 比喻 作 煮 饭 的 锅 ， 那 么 还 得 有 个 盘子 来 存放 者 熟 
了 的 饭 。 为 了 这 个 日 的 ， 在 tty_driver 结构 中 设置 了 一 个 指针 read_buf， 让 它 指向 一 个 缓冲 区 ， 这 就 是 
盛 饮 的 盘子 。 在 打开 终端 设备 时 ， 刀 果 发 现 这 个 缓冲 区 尚未 分 配 就 要 为 之 分 配 一 个 (866 行 )， 缓 冲 区 的 
大 小 为 一 个 页 面 。 与 这 个 缓冲 页 面相 对 应 ， 在 tty struct 结构 中 还 有 个 位 图 read_flags[ ]， 位 图 中 的 每 … 
位 对 应 着 上 述 缓冲 区 中 的 等 个 字符 ， 在 “规范 模式 ”下 用 米 分 隔 不 同 的 缓冲 行 。 此 外 ， 还 有 一 些 配合 
缓冲 区 使 用 的 字段 ， 例 如 read_head 和 canon_read， 都 是 缓冲 区 中 当前 读 出 位 置 的 下 标 ， 等 等 。 所 有 这 
些 字 段 都 要 加 以 初始 化 ， 这 是 由 reset buffer flags( ) 完 成 的 (网 n. tty.c): 


[tty open( ) > init dev( ) > n tty open( ) > reset, buffer flags( )] 


118 /* 

119 * Reset the read buffer counters, clear the flags, 

120 * and make sure the driver is unthrottled. Called 

121 * from n tty open( ) and n tty flush buffer( ). 

122 */ 

123 static void reset buffer flags(struct tty struct *tty) 
124 { 

125 unsigned long flags; 

126 

127 spin lock irqsave(&tty-^read lock, flags); 

128 tty->read head = tty—^road tail = tty-^read cnt = 0; 
129 spin unlock irqrestore(&tty-^read lock, flags); 

130 tty-^canon head = ttiy-^canon data = tty-^erasing = 0; 
131 memset (&tty->read_flags, 0, sizeof tty—rcad flags); 
132 check unthrottle(tty); 

133 ] 


所 涉及 字段 的 作用 在 阅读 tty. read( ) 的 代码 时 就 会 清楚 ， 现 在 只 是 初始 化 。 

在 n_tty_open( ) 中 还 有 个 盟 数 此 执行 ， 那 就 是 n_tty_set_termios( )。 它 的 作用 主要 是 根据 终端 设备 
的 termios 数据 结构 设置 其 tty_struct 结构 中 的 字符 位 向 process. char. map 和 其 他 几 个 标志 位 (向 不 是 “ 设 
H termios Zi MJ" ). AZE process char map 的 大 小 是 32 字 节 ， 共 256 位 ， 其 中 的 每 一 位 都 对 应 着 一 个 
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字符 。 如 果 位 图 中 的 某 一 位 为 1， 便 说 明 与 其 对 应 的 字符 在 “ 毫 调 ” 中 需要 加 以 特殊 的 处 理 。 这 个 级 数 
的 代码 也 在 drivers/char/n tty.c 中 : 





[tty_open( ) > init_dev( ) > n_tty_open( ) > n. tty set. termios( )] 


786 static void n tty set termios(struct tty struct *tty, struct termios * old) 
787. | 


788 if (!tty) 

789 return; 

790 

791 tty—>icanon = (L ICANON(tty) != 0); 

792 if (test bit(TTY HW COOK IN, &tty-^flags)) | 

193 tty->raw = l; 

794 tty-^real raw = l; 

795 return; 

796 } 

797 if (I ISTRIP(tty) || I IUCLC(tty) i| I IGNCR(tty) || 
798 I TCRNL(tty) || I_INLCR(tty) || L_ICANON(tty) | | 
799 I IXON(tty) || L_ISIG(tty) || L ECHO(tty) || 

800 I PARMRK(tty)) { 

801 cli( ); 

802 memset(tty-^process char map, 0, 256/8); 

803 

804 if (I IGNCR(tty) || I_ICRNL(tty)) 

805 set bit( \r’, &tty— process char map); 

806 if (I INLCR(tty)) 

807 set bit( \n’, &tty-^process char map); 

808 

809 if (L_ICANON(tty)) { 

810 set bit(ERASE CHAR(tty), &tty->process_char map): 
811 set bit(KILL CHAR(tty), &tty-^process char map); 
812 set bit(EOF CHAR(tty), &tty-^process char map); 
813 set bit( W', &tty-^process char map); 

814 set bit(EOL CHAR(tty), &tty-»process char map); 
815 if (L IEXTEN(tty)) { 

816 set bit (WERASE CHAR(tty), 

817 &tty-^process char map); 

818 set bit (LNEXT CHAR(tty), 

819 &tty—^process char map); 

820 set bit(EOL2 CHAR(tty), 

821 &tty-^process char map); 

822 if (L ECHO(tty)) 

823 set bit(REPRINT CHAR(tty), 

824 &tty-— process char map): 

825 } 

826 } 

827 if (J_IXON(tty)) 1 
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828 
829 
830 
831 
832 
833 
834 
835 
836 
837 
838 
839 
840 
841 
842 
843 
844 
845 
846 
847 
848 
849 
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set bit(START CHAR(tty), &tty-^process char map); 
set bit(STOP CHAR(tty), &tty->process char map); 
} 
if (L ISIG(tty)) { 
set bit(INTR CHAR(tty), &tty—>process_char_map) ; 
set bit(QUIT CHAR(tty), &tty-^process char map); 
set bit(SUSP CHAR(tty), &tty->process char map); 
] 
clear bit( DISABLED CHAR, &tty-^process char map); 


sti( ); 
tty-^raw = 0; 
tty-?real raw = 0; 
) else { 
tty-^?raw = 1; 
if ((I IGNBRK(tty) || (LI BRKINT(tty) && !I PARMRK(tty))) && 
(I IGNPAR(tty) || !I_TNPCK(tty)) && 


) 


(tty-^»driver. flags & TTY DRIVER REAL RAW)) 
tty-?real raw = 1; 

else 
tty-^real raw = 0; 


这 个 函数 的 代码 中 使 用 了 许多 宏 定 义 ， 这 些 宏 定义 以 后 也 常 要 用 到 。 这 些 定义 都 在 
include/linux/tty.h 和 include/asm-i386/termbits.h 中 ， 虽 然 数 量 不 少 ， 却 很 有 规则 ， 先 看 几 个 基本 操作 : 


183 
184 
185 
186 


#define 
#define 
#define 
#define 


I FLAG (tty, © ((tty)->termios—>c_iflag & (f)) 
O FLAG(tty,f) ((tty)—>termios~>c oflag & (f)) 
_C FLAG(tty, f) ((tty)->termios->c_cflag & (f)) 
_L FLAG(tty, f) ((tty)->termios->c_lflag & (f)) 


这 些 宏 操 作 分 别 检验 termios II c_iflag(#1A). c oflag( $88 H1). c. cflag( fat) LA c_lflag (本 地 ) 
字段 中 的 某 一 位 。 在 这 个 基础 上 ， 例 如 ，L_ICANON(tty) 的 定义 为 ; 


230 


#define 


L ICANON(tty) _L_FLAG( (tty), ICANON) 


PEA, MAL 表示 要 检查 的 标志 位 在 c_lflag 中 ， 而 标志 位 为 ICANON。 由 此 类 推 ，L_IGNCR 
表示 c_iflag 中 的 IGNCR 标志 位 ，L_ECHO 表示 c_lflag 中 的 ECHO 标志 位 ， 等 等 。 这 些 标志 位 的 意义 


和 作用 人 


致 如 下 : 


L ICANON 表示 “canonical mode” 或 “规范 模式 ”， 这 就 是 “加 工 模式 ”， 对 输入 的 字符 要 加 以 “高 
A” i 

表示 强制 将 输入 字符 的 最 高 位 设 成 0， 使 它 变 成 7 位 编码 。 

表示 将 接收 到 的 大 字 字 母 转 换 成 小 写 。 

表示 将 接收 到 的 “ 回 车 ”字符 “\” 丢 齐 。 


I_ISTRIP 
LIUCLC 
I IGNCR 
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LICRNL ”表示 将 接收 到 的 “\r” 字 符 转 换 成 “n”〔 如 果 IIGNCR 为 0 的 话 ) 
I INLCR ”表示 将 接收 人 环 的 “nm” 字符 转换 成 “Yr”。 
I IXON 表示 如 果 接 收 到 CTRL_S 字符 就 暂停 输出 ， 直 到 接收 到 CTRL_Q 时 上 髓 恢复 输出 。 
L_ISIG 表示 如 果 接 收 到 CTRL_C 等 控制 字符 就 向 在 该 终端 设备 上 运行 的 进程 发 出 信号。 
L ECHO 表示 “本 地 回 送 ”， 就 是 在 从 终端 设备 接收 到 一 个 字符 时 就 立即 将 该 字符 同 送 到 该 
设备 上 。 

此 外 ， 在 不 同 的 系统 中 或 者 不 同 的 键 玲 上 使 用 的 控制 字符 有 可 能 不 同 。 例 如 ， 企 屏幕 上 显示 大 量 
信息 时 ， BETTE Ctrl-S 暂停 屏幕 上 显示 的 信息 向 上 滚动 ， 然 后 可 以 按 Ctrl-Q 继续 输出 。 可 是 ， 在 
有 些 键盘 上 也 许 不 是 CtrLS 和 CeLQ， 而 是 别 的 什么 。 所 以 在 termios 结构 中 还 有 个 数组 cee] AR 
定义 各 种 控制 字符 的 代码 。 让 面 是 取 自 include/linux/ttyh 和 include/asm-i386/termbits.h 的 两 个 片段 ， 
可 以 用 来 说 明 这 个 数组 的 用 途 。 


173  #define START CHAR(tty) ((tty)—>termios->c_cc[VSTART]) 
174 Sdefine STOP CHAR(tty) ((tty)->termios—>c_cc [VSTOP]) 


29 &define VSTART 8 
30 üdefine VSTOP 9 


这 表示 在 日 标 终端 设备 上 用 于 这 两 种 旦 的 的 控制 字符 分 别 是 相应 termios 结构 中 的 c_cc[8] RI 
c_cc[9]。 不 过 ， 这 个 数组 不 完全 是 用 于 控制 字符 ， 其 中 也 有 几 个 元 素 用 十 其 他 控制 目的 。 读 者 在 下 - 
节 中 将 会 看 到 这 些 标志 位 和 控制 学 符 企 “烹调” 中 的 作用 。 

最 后 ，init_dev( ) 通 过 参数 ret ty 返回 指向 tty_struct 结构 的 指针 。 我 们 回 到 tty_open( ) 的 代码 中 继 
续 往 下 看 (tty_io.c): 


[tty open )] 
1361 &ifdef CONFIG UNTX98 PTYS 


1362 init dev done: 
1363 Hendif 


1364 filp->private_data = tty; 

1365 file move(filp, &tty— tty files); 

1366 check tty count(tty, ^tty open^); 

1367 if (ity >driver. type == TTY DRIVER TYPE PTY && 
1368 tly- >driver. subtype == PTY_TYPE_MASTER) 
1369 noctiy = 1; 

1370 #ifdef TTY DEBUG HANGUP 

1371 printk ("opening 9s... ^", tty name(tty, buf)); 
1372 BSendif 

1373 if (tty-^ driver. open) 

1374 retval = tty >driver. open(tty, filp); 
1375 else 

1376 retval = -ENODEV; 

1377 filp->f flags - saved flags; 

1378 
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1379 if (!retval && test bit(TTY EXCLUSIVE, &tty->flags) && !suser( )) 
1380 retval = -EBUSY; 

1381 

1382 if (retval) { 

1383 #ifdef TTY DEBUG HANGUP 

1384 printk(’error %d in opening %s...”, retval, 
1385 tty_name(tty, buf)); 

1386 #endif 

1387 

1388 release_dev(filp); 

1389 if (retval != -ERESTARTSYS) 

1390 return retval; 

1391 if (signal pending (current) ) 

1392 return retval; 

1393 schedule( ); 

1394 /* 

1395 * Need to reset f op in case a hangup happened 
1396 */ 

1397 filp-^f op = &tty fops; 

1398 goto retry open; 

1399 } 

1400 if (!noctty && 

1401 current~>leader && 

1402 !Icurrent-^tty && 

1403 tty-^session == 0) | 

1404 task lock(current); 

1405 current-Piiy = tty; 

1406 task_unlock (current) ; 

1407 currenl—>tty_old_pgrp = 0; 

1408 Lty->session = current—>session; 

1409 tty->pgrp = current-?pgrp; 

1410 } 

1411 if ((tty->driver. type == TTY DRIVER TYPE SERIAL) && 
1412 (tty-^driver.subtype == SERIAL TYPE CALLOUT) && 
1413 (tty->count == 1)) { 

1414 static int nr_warns; 

1415 if (nr_warns < 5) { 

1416 printk(KERN WARNING “tty_io.c: ^ 

1417 "process %d (%s) used obsolete /dev/%s — " 
1418 "update software to use /dev/ttyS%d\n’, 
1419 current-^pid, current comm, 

1420 tty name(tty, buf), TTY NUMBER(tty)); 
1421 nr warnst*; 

1422 } 

1423 } 

1424 return 0; 

1425 } 
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每 个 已 打开 文件 都 有 个 file 结构 作为 代表 ，file 结构 中 有 个 void 指针 private_data， 对 于 常规 的 文 
件 这 个 指针 很 少 用 到 ， 现 在 就 用 来 指向 日 标 设备 的 tty. struct 数据 结构 。 这 样 ， 从 当前 进程 到 月 标 终端 
设备 的 连接 就 建立 起 来 了 。 同 时 ，tty_struct 结构 中 有 个 队列 头 tty_files， 这 里 通过 file move( ) 将 指向 
该 终端 设备 的 file 结构 挂 入 这 个 队列 ， 以 便 在 需要 时 能 找到 所 有 与 此 相连 的 file 结构 。 

前 面 已 经 通过 相应 tty_ldisc 结构 所 提供 的 函数 指针 调用 了 与 链 路 规则 有 关 的 open 操作 ， 可 是 具体 
的 终端 类 型 也 可 能 有 需要 在 打开 文件 时 加 以 调用 的 函数 (1373 行 )。 对 于 用 作 控制 台 的 虚拟 终端 ， 其 
tty. driver 数据 结构 为 console_driver， 其 open 函数 则 为 con_open( )， 其 代码 在 drivers/char/console.c 中 : 


[tty_open( ) > con, open( )] 


2304 — /* 
2305 * Allocate the console screen memory. 
2306 */ 


2307 static int con open(struct tty struct *tty, struct file * filp) 
2308 { 


2309 unsigned int currcons; 

2310 int 1; 

2311 

2312 currcons = MINOR(tty-^device) - tty-^driver.minor start; 
2313 

2314 i = vc allocate(currcons) ; 

2315 if (i) 

2316 return i; 

2317 

2318 vt cons[currcons]-^vc num = currcons; 

2319 tty-^driver data = vt cons[currcons]; 

2320 

2321 if (Itty-^winsize.ws row && !tty-»winsize.ws col) | 
2322 tty-^winsize.ws row = video num lines; 

2323 tty—>winsize. ws_col = video num columns; 

2324 } 

2325 if (tty->count == 1) 

2326 ves make devfs (currcons, 0); 

2327 return 0; 

2328 } 


xx Av e CIC E FII ESAT EA A RR, kids i eU Em ET 
文 ， 有 兴趣 的 读者 可 自行 阅读 ve alcate( ) HJ 48 4 (drivers/char/console.c). 。 此 外 ， 还 上 要 通 过 
vcs, make, devfs( ) 在 /dev 目录 中 创建 一 个 ves 设备 文件 (节点 )， 使 应 用 软件 在 需要 时 可 以 绕 过 常规 的 终 
端 设备 界面 ， 道 过 ves 设备 文件 直接 访问 这 个 缓冲 区 。 

FIZI tty. open ) 的 代码 中 ， 余 下 的 一 些 代码 就 留 给 读者 了 。 

对 十 运行 于 “字符 模式 ”的 VGA 卡 ， 应 用 软件 既 可 以 通过 常规 的 终端 设备 界面 访问 控制 台 ， 也 可 
以 通过 ves 设备 文件 访问 控制 台 。 与 此 相似 ， 如 果 VGA 卡 (SVGA 卡 ) 运 行 于 图 像 模 式 ， 则 应 用 软件 也 
可 以 把 控制 台 作 为 图 像 设 备 打 开 ， 绕 过 常规 的 终端 设备 界面 而 直接 访问 图 像 缓 冲 区 ， 称 为 “frame 
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buffer”。 这 种 安排 有 着 特殊 的 意义 ， 与 前 述 的 伪 终 端 设备 的 使 用 相 结合 ， 就 可 以 让 视窗 管理 进 称 处 理 
非 拼音 文字 的 显示 。 这 样 ， 就 有 了 酚 种 显示 汉字 的 方法 ， 一 种 是 在 内 核 中 的 虚拟 终端 (控制 台 ) 虚 动 程序 
中 支持 汉字 的 显示 ， 另 一 种 就 是 在 应 用 软件 中 ， 即 在 视窗 管理 进程 中 文 持 汉字 的 显示 。 
由 寸 篇 幅 的 限制 ， 我 们 不 能 在 本 书 中 讲 到 对 作为 图 像 设备 的 控制 台 ， 即 图 像 缓冲 区 的 驱动 了 7， 有 
兴趣 或 需要 的 读者 可 以 自己 阅读 有 关 的 代码 ， 这 些 代码 都 在 drivers/video 目录 下 。 


8.8 控制 台 的 驱动 


在 本 节 中 ， 我 们 通过 PC 机 控制 台 的 读 操 作 来 看 虚拟 终端 ， 包 括 键盘 和 VGA 显示 卡 的 驱动 。 具 体 
地 说 ， 就 是 从 在 键盘 上 输入 个 别 的 字符 开始 ， 到 应 用 进程 从 其 标准 输入 通道 读 取 缓冲 行为 止 的 过 程 。 
虽然 这 只 是 个 输入 过 程 ， 但 是 实际 上 也 包含 了 对 屏幕 的 操作 ， 内 为 终端 设备 的 输入 操作 通常 都 包括 了 
对 输入 字符 的 “ 回 打 ”(echo)。 也 许可 以 说 ， 在 字符 设备 中 《 除 … 些 网 络 设备 外 ) 控制 台 的 驱动 是 最 复 
杂 的 。 我 们 之 所 以 花 比较 大 的 篇 幅 来 介绍 控制 台 的 驱动 ， 一 来 正 是 因为 它 比 较 复 杂 ， 读 者 容易 遇 到 问 
题 ， 二 来 是 因为 控制 台 的 驱动 ， 从 而 对 有 关 代码 的 理解 ， 对 于 Linux 的 汉化 工作 是 关键 性 的 。 

应 用 进程 通常 以 其 “控制 终端 ” 为 “标准 输入 ”通道 ， 所 以 对 “标准 输入 ”通道 的 读 操 作 就 转化 
上 成 对 某 个 虚拟 终端 的 读 操 作 ， 最 后 落实 成 对 控制 台 的 读 操 作 。 经 过 读 省 已 经 熟知 的 过 程 ，CPU 通过 日 
标 设备 的 file_operations 数据 结构 进入 控制 台 的 读 操作 函数 ， 这 就 是 tty_read( )， 定 义 于 


drivers/char/tty_io.c: 


645 static ssize t tty read(struct file * file, char * buf, size t count, 
646 loff t *ppos) 


647 | 

648 int i; 

649 struct tty struct * tty; 

650 struct inode *inode; 

651 

652 /* Can’ t seek (pread) on ttys. */ 

653 if (ppos !- &file—f pos) 

654 return -ESPIPE; 

655 

656 tty = (struct tty struct *)file->private data; 

657 inode = file-^f dentry- ^d inode; 

658 if (tty paranoia check(tty, inode-^i rdev, "tty read^)) 

659 return -EIO; 

660 if (!tty || (test bit(TTY IO ERROR, &tty->flags))) 

661 return -EIO; 

662 

663 /* This check not only needs to be done before reading, but also 
664 whenever read chan( ) gets woken up after sleeping, so I've 
665 moved it to there. This should only be done for the N TTY 
666 line discipline, anyway. Same goes for write chan( ). -- jle. */ 
667 #if 0 
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0 


678 Hendif 

679 lock kernel( ) ; 

680 if (tty->ldisc. read) 

681 i = (tty—Idisc. read) (tty, file, buf, count) ; 
682 else 

683 i = -EIO; 

684 unlock_kernel ( ) ; 

685 if (i > 0) 

686 inode->i_atime = CURRENT TIME; 
687 return i; 

688  ] 


如 前 节 中 所 述 ， 在 打开 (设备 ) 文 件 的 过 程 中 已 经 设置 好 了 日 标 设 备 的 tty struct 数据 结构 ， 并 且 使 
file 结构 中 的 指针 private data 指向 这 个 数据 结构 ， 所 以 这 里 656 行 毫 不 费力 就 找到 了 日 标 设备 的 
tty. struct 结构 。 

代表 着 终端 设备 的 “ 链 路 规程 ”的 是 tty_ldise 数据 结构 ， 对 十 控制 台 ， 这 就 是 序号 为 N_TTY 的 
tty. disc 结构 tty_ldisc_N_TTY， 这 是 在 初始 化 时 通过 tty_register_ldisc( ) 向 系统 登记 的 。681 行 通过 它 
所 提供 的 函数 指针 read 进入 了 驱动 程序 的 下 一 个 子 层 。 这 个 数据 结构 定义 于 drivers/char/n_tty.c F: 


1213 struct tty ldisc tty ldisc N TTY = { 


1214 TTY LDISC MAGIC, /* magic */ 

1215 ^n tty”, /* name */ 

1216 0, /* num */ 

1217 0, /* flags */ 

1218 n tty open, /* open */ 

1219 n tty close, /* close */ 

1220 n tty flush buffer, /* flush buffer */ 
1221 n tty chars in buffer, /* chars in buffer */ 
1222 read chan, /* read */ 

1223 write chan, /* write */ 

1224 n tty ioctl, /* ioctl */ 

1225 n tty set termios, /* set termios */ 
1226 normal poll, /* poll */ 

1227 n tty receive buf, /* receive buf */ 
1228 n tty receive room, /* receive room */ 
1229 0 /* write wakeup */ 
1280 }; 


ny RL, H read 函数 为 read_chan( )， 其 代码 在 drivers/char/n_tty.c P: 


[tty_read( ) > read. chan( )] 


925 static ssize t read chan(struct tty struct *tty, struct file *file, 


926 unsigned char *buf, size t nr) 
927 { 
928 unsigned char *b = buf; 
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929 DECLARE WAITQUEUE(wait, current); 

930 int c; 

931 int minimum, time; 

932 Ssize t retval = 0: 

933 ssize t size; 

934 long timeout; 

935 unsigned long flags; 

936 

937 do it again: 

938 

939 if (!tty->read_buf) ( 

940 printk(^n tty read chan: called with read buf == NULL? !?Xn^) ; 
941 return -EIO; 

942 ] 

943 

944 /* Job control check — must be done at start and after 
945 every sleep (POSTX.1 7.1.1. 4). */ 

946 /* NOTE: not yet done after every sleep pending a thorough 
947 check of the logic of this change. — jle */ 

948 /* don't stop on /dev/console */ 

949 if (file->f£_dentry—>d_inode->i_rdev !- CONSOLE DEV && 
950 file->f_dentry->d_inode->i_rdev != SYSCONS DEV && 
951 current—>tty == tty) { 

952 if (tty->pgerp <= 0) 

953 printk("read_chan: tty->pgrp <= 0!\n”); 

954 else if (current->pgrp !- tty->perp) { 

955 if (is ignored(SIGTTIN) |i 

956 is orphaned pgrp(current-^pgrp)) 

957 return -ETO; 

958 kill pg(current-^?pgrp, SIGTTIN, 1); 

959 return -ERESTARTSYS; 

960 ) 

961 } 

962 


读者 对 上 面 这 - 段 代码 应 该 不 会 有 困难 了 , 我 们 把 它 留 给 读者 结合 前 几 章 中 的 有 关内 容 白 己 阅 读 。 


[tty. read( ) > read. chan( )] 


963 minimum - time - 0; 

964 timeout = MAX SCHEDULE TIMEOUT: 

965 if (!tty->icanon) { 

966 time = (HZ / 10) * TIME CHAR(tty); 

967 minimum = MIN CHAR(tty) ; 

968 if (minimum) { 

969 if (time) 

970 tty-^minimum to wake = 1; 

971 else if (!waitqueue active (&tty—read_ wait) || 
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972 (Lty-»?minimum to wake > minimum) ) 
973 tty->minimum_to_wake = minimum; 
974 } else { 

975 timeout = 0; 

976 if (time) { 

977 timeout = time; 

978 time = 0; 

979 j 

980 tty-»minimum to wake = minimum = 1; 
981 ) 

982 } 

983 

984 if (file->f flags & 0 NONBLOCK) ( 

985 if (down trylock(&tty-^atomic read)) 
986 return -EAGAIN; 

987 } 

988 else 1 

989 if (down interruptible(&tty-^atomic read)) 
990 return -ERESTARTSYS; 

991 } 

992 

993 add wait queue (&tty—>read wait, &wait); 

994 set bit(TTY DONT FLIP, &tty-^flags); 


在 “原始 ”模式 和 非 “ 规 范 ” 模 式 中 ， 当 输入 缓冲 区 中 有 了 最 低 限 度 的 数据 量 minimum to wake 
时 ， 就 更 唤醒 正在 等 待 着 从 该 设备 读 出 的 进程 。 这 里 的 965—982 行为 其 确定 个 合适 的 数值 ， 这 个 数 
E - 般 都 是 l 

对 从 同一 终端 设备 的 读 出 应 该 是 芷 斥 的 ， 所 以 要 放 在 临界 区 中 。 此 外 ， 还 要 在 当前 进程 的 系统 堆 
栈 中 准备 下 一 个 wait queue. t 数据 结构 wait， 并 把 它 挂 入 日 标 终端 的 等 待 队列 read. wait 中 ， 使 终端 设 
备 的 驱动 程序 在 有 数据 可 读 时 串 以 唤醒 这 个 进程 。 当 然 ， 也许 终端 设备 的 输入 绥 冲 区 中 现在 就 有 数据 ， 
因而 根本 就 不 需要 进入 睡眠 ， 但 是 那 也 没有 关系 ， 读 到 了 数据 之 后 青 把 它 从 队列 里 摘除 就 可 以 了 。 这 
里 还 把 tty->flags 中 的 一 个 标志 位 TTY_DONT_FLIP 设 成 1， 读 者 在 后 面 将 会 看 到 这 个 标志 位 的 意义 和 
作用 。 

然后 就 是 个 while 循 坏 (drivers/char/n_tty.c)。 


[tty_read( ) > read. chan( )] 


995 while (nr) ( 

996 /* First test for status change. */ 

997 if (tty-»packet && tty-»link-^ctrl status) | 
998 unsigned char cs; 

999 if (b != buf) 

1000 break; 

1001 cs = tty-»link-?ctrl status; 

1002 tty-»link ?ctrl status = 0; 
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1003 put_user(cs, bt+): 

1004 nr--; 

1005 break; 

1006 } 

1007 /* This statement must be first before checking for input 
1008 so that any interrupt will set the state back to 
1009 TASK RUNNING. */ 

1010 set current state(TASK TNTERRUPT BLE) ; 

1011 

1012 if (((minimum - (b - buf)) < tty-^»minimum to wake) && 
1013 ((minimum - (b - buf)) >= D) 

1014 tty->minimum to wake = (minimum ~ (b - buf)); 
1015 

1016 if (!input available p(tty, 0)) { 

1017 if (test bit(TTY OTHER CLOSED, &tty->flags)) { 
1018 retval = -EIO; 

1019 break; 

1020 } 

1021 if (tty hung up p(file)) 

1022 break: 

1023 if (!timeout) 

1024 break; 

1025 if (file f flags & O NONBLOCK) { 

1026 retval = -EAGAIN; 

1027 break; 

1028 } 

1029 if (signal pending(current)) | 

1030 retval = ~ERESTARTSYS; 

1031 break; 

1032 ) 

1033 clear bit(TTY DONT FLIP, &tty-^flags): 

1034 timeout = schedule timeout (timeout); 

1035 set bit(TTY DONT FLIP, &tty-^flags): 

1036 continue; 

1037 } 


对 才 伪 终端 设备 ， 可 以 通过 系统 调用 ioctl( REM Pan IES FI A “packet” (EWER, 
因为 这 两 端 御 往 在 通过 网 络 连 接 的 不 同 计算 机 中 。 这 这 种 情况 下 tty->packet 为 1, MË 
tty->link->ctrl_status JE 0 就 表示 有 反映 道 信 和 链 路 状态 变化 的 控制 信息 需要 递交 ,所 以 要 优先 读 出 这 些 控 
制 信息 (一 些 标志 位 )。 不 过 这 与 我 们 这 个 情景 无 关 。 

指针 b 开始 时 (928 行 ) 指 向 用 户 空 间 的 缓冲 区 buf， 随 着 字符 的 读 出 而 向 前 推进 ， 所 以 (b-buf) 就 是 
已 经 读 出 的 字符 数 . 如 果 tty->minimum_to_wake 开始 时 不 是 1, 那么 在 读 出 的 过 程 中 会 向 1 逼近 (1012~ 
1014 17). 

接着 通过 input. available p( ) 检 查 输 入 缓冲 区 中 有 备 数 据 ( 字 符 ) 可 供 读 出 。 在 “规范 模式 ”下 ， 检 
但 的 足 经 过 加 工 以 后 的 数量 ， 认 在 原始 模式 下 则 是 检查 原始 字符 的 数量 。 这 个 函数 的 代码 在 
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drivers/char/n_tty.c P: 
[tty read( ) > read chan( ) > input, available p()] 


879 static inline int input available p(struct tty struct *tty, int amt) 
880 { 


881 if (tty—>icanon) | 

882 if (tty-^canon data) 

883 return 1; 

884 ) else if (tty-^»read cnt >= (amt ? amt : 1)) 
885 return 1; 

886 

887 return 0; 

888  ] 


如 果 缓 冲 区 中 还 没有 字符 可 供 读 出 ， 则 当前 进程 “ 般 要 睡眠 等 待 。 到 缓冲 区 中 有 了 可 供 读 出 的 学 
符 时 才 会 被 唤醒 。 在 我 们 这 个 情景 中 ， 假 定 此 时 缓冲 区 中 没有 数据 ， 所 以 当前 进程 进入 了 睡眠。 

为 了 更 好 地 把 注意 力 集中 在 发 生 键 盘 中 断 以 后 的 过 程 ， 我 们 暂 卫 假定 中 断 已 经 发 生 而 缓冲 区 中 己 
经 有 了 数据 ， 先 来 看 当前 进程 被 唤醒 并 被 调度 运行 以 后 的 操作 (drivers/char/n_tty.c)。 这 样 ， 等 一 下 我 们 
就 可 以 集中 看 从 键 迭 中 断 开始 到 唤醒 睡眠 中 的 进程 为 止 的 过 程 了 。 相 比 之 下 ， 奢 个 过 程 更 为 重要 ， 也 


[tty read( ) > read chan( )] 


1038 current—>state = TASK RUNNING; 

1039 

1040 /* Deal with packet mode. */ 

1041 if (tty-^packet && b == buf) { 

1042 put user(TIOCPKT DATA, bt+); 

1043 ne 

1044 } 

1045 

1046 if (tty->icanon) { 

1047 /* N.B. avoid overrun if nr == 0 */ 

1048 while (nr && tty—>read_cnt) | 

1049 int eol; 

1050 

1051 eol = test and clear bit(tty-^read tail, 
1052 &ity >read flags); 

1053 c = tty-?read buf[tty->read tail); 

1054 spin lock irqsave(&tty-^read lock, flags); 
1055 tty-?read tail = ((tty->read_tail+l) & 
1056 (N TTY BUF SIZE-1)) ; 

1057 tty-»read cnt- ; 

1058 spin unlock irgrestore(&tty-^read lock, flags); 
1059 
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1060 if (leol |! (c !- __DISABLED CHAR)) { 

1061 pul user(c, bt); 

1062 nrc; 

1063 } 

1064 if (eol) { 

1065 /* this test should be redundant: 

1066 * we shouldn't be reading data if 

1067 * canon data is 0 

1068 */ 

1069 if (--tty-^canon data < 0) 

1070 tiy-^canon data = 0; 

1071 break; 

1072 } 

1073 } 

1074 ) else 1 

1075 int uncopied; 

1076 uncopied - copy from read buf(tty, &b, &nr); 

1077 uncopied += copy from read buf (tty, &b, &nr); 

1078 if (uncopied) { 

1079 retval = -EFAULT; 

1080 break; 

1081 } 

1082 } 

1083 

1084 /* Tf there is enough space in the read buffer now, let the 
1085 * low-level driver know. We use n tty chars in buffer( ) to 
1086 * check the buffer, as it now knows about canonical mode. 
1087 * Otherwise, if the driver is throttled and the line is 
1088 * longer than TTY THRESHOLD UNTHROTTLE in canonical mode 
1089 * we won t get any more characters 

1090 */ 

1091 if (n_tty_chars_in_buffer(tty) <- TTY THRESHOLD UNTHROTTLE) 
1092 check unthrottle (tty); 

1093 

1094 if (b - buf >= minimum) 

1095 break; 

1096 if (Lime) 

1097 timeout = Lime; 

1098 } 


SHEE ROR MEIN, ARCHES HELA T BUR. RITZEKO packet 模式 的 操作 ， 所 以 
WERE 1041—1044 行 。 先 看 规范 模式 (1046 一 1074 41). 在 虐 范 模式 下 , 缓冲 区 中 的 字符 起 经 过 了 加 工 的 ， 
时 到 崇 积 起 一 个 “ 缓 神 行 ”， 即 磁 到 “ ”字符 叶 才 会 唤醒 等 待 读 出 的 进程 ， 此 时 tty->read_cnt 表示 组 
剖 行 中 的 字符 个 数 。 另 一 方面 , 缓冲 区 ty->read_buff ] 是 按 坏 珍 缓冲 区 使 用 的 ( 见 1055 行 ), tty->read_tail 
指向 当前 可 供 读 出 的 第 一 个 字符 。 前 一 节 中 曾经 讲 和 到 ，tty_struct 结构 中 的 read. flags 是 个 位 图 ， 如果 这 
个 位 图 中 对 应 于 tty->read_tail 这 一 位 为 1, 则 表示 这 个 位 置 上 已 经 是 缓 六 行 的 终点 ， 以 后 的 数据 已 经 属 
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于 田 一 缓冲 行 。 所 以 ， 只 这 还 没有 到 达 终 点 ， 就 逐个 字符 地 调用 put user ) 将 其 复制 到 用 户 空 间 去 。 这 
个 过 程 要 循 丈 到 已 经 满足 了 些 求 或 者 缓冲 区 中 已 经 没有 字符 可 读 时 才 结 束 。 这 里 的 
. DISABLED CHAR 就 是 “0” 缓冲 行 中 的 最 后 -个 字符 如 有 果 是 _DISABLED_CHAR 就 不 复制 到 用 
户 空 间 。 这 个 字符 定义 于 include/linux/tty.h: 


125 /* 

126 * This character is the same as POSIX VDISABLE: it cannot be used as 
127 * ac cc[ ] character, but indicates that a particular special character 
128 * isn t in use (eg VINTR has no character etc) 

129 */ 


130 #define DISABLED CHAR ’ \Q’ 


PRATAP SUE E1074 ~ 1082 行 )。 缓 冲 区 同样 也 是 tty->read_buf[ ]， 也 按 坏 形 缓 冲 区 使 用 ， 这 些 都 
一 样 ,， 但 是 缓冲 区 中 的 字符 是 未 经 加 工 的 ， 也 无 所 谓 “ 缓 神 行 ”为 一 方面 ， 对 十 原始 模式 并 没 有 不 让 
把 “0” 复 制 到 用 户 空间 的 规定 ， 所 以 这 里 通过 copy_from_read_buf( ) 进 行 成 片 的 复制 ， 以 加 快速 度 ， 
这 个 函数 的 代码 在 drivers/char/n_tty.c F: 


[tty read( ) > read chan( ) > copy_from_read_buf( )] 





890  /* 

891 * Helper function to speed up read chan. : it is only called when 

892 * [CANON is off; it copies characters straight from the tty queue to 
893 * user space directly. It can be profitably called twice; once to 
894 * drain the space from the tail pointer to the (physical) end of the 
895 * huffer, and once to drain the space from the (physical) beginning of 
896 * the buffer to head pointer 

897 */ 

898 static inline int copy_from_read_buf (struct ity struct *tty, 

899 unsigned char **b, 

900 size t *nr) 

901 

902 { 

903 int retval; 

904 ssize t n; 

905 unsigned long flags; 

906 

907 retval = 0; 

908 spin lock irqsave(&tty-^read lock, flags); 

909 n = MIN(&nr, MIN(Lty-^read ent, N TTY RUF SIZE - tty-^read tail)); 
910 spin unlock irqrestore(&tty-^read lock, flags); 

911 if (m ( 

912 mb ); 

913 retval ~ copy to user(*b, &tty-^read buf[tty->read tail], n); 
914 n — retval; 

915 spin lock irqsave(&tty-^read lock, flags); 

916 tty-^read tail - (tty->read_tail + n) & (N TTY BUF SIZE-1); 
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917 tty->read_cnt —= n; 

918 spin unlock irqrestore (&tty~>read_lock, flags); 
919 *b += n; 

920 *nr -= n; 

921 } 

922 return retval; 

923 } 


由 于 缓冲 区 是 环形 的 ， 缓 冲 着 的 字符 有 可 能 分 成 两 段 ， 所 以 要 调用 copy from read buf R. 

缓冲 区 的 大 小 总 是 有 限 的 ， 如 果 从 键盘 打 入 字符 的 速度 很 快 ， 而 应 用 进程 又 来 不 及 从 缓冲 区 读 出 ， 
则 底层 的 驱动 程序 (主要 是 中 断 服务 程序 ) 可 能 已 经 因为 缓冲 区 已 满 而 暂时 把 “阀门 ”关闭 了 。 现 在 ,如 
果 缓 冲 区 中 剩余 的 字符 数量 降 到 了 “ 低 水 位 ”TTY_THRESHOLD_UNTHROTTLE 以 下 ， 则 上 要 通过 
check_unthrottle( ) 再 打开 阀门 ， 这 个 冰 数 的 代码 也 在 drivers/char/n_tty.c 中 


[tty read( ) > read chan( ) > check unthrottle( )] 


105 /* 

106 * Check whether to call the driver.unthrottle function 
107 * We test the TTY THROTTLED bit first so that it always 
108 * indicates the current statc. 

109 */ 

110 static void check unthrottle (struct tty struct * tty) 
111 { 

112 if (tty>count && 

113 test and clear bit(TTY THROTTLED, &tty->flags) && 
114 tty~>driver. unthrottle) 

115 tLy-^driver. unthrottle(tty):; 

116  ] 


除了 清除 代表 着 阀门 的 标志 位 TTY THROTTLED Uh, REWA — "P eee, RAEGRTÉÁ 
端的 ty driver 数据 结构 。 对 十 控制 台 终端 的 ty driver 数据 结构 console_driver， 这 个 函数 是 
con_unthrottle( )， 其 代码 在 drivers/char/console.c 中 : 


[tty read( ) > read chan( ) > check unthrottle( ) > con, unthrottle( )] 


2256 static void con unthrottle(struct tty struct *tty) 


2257 { 

2258 struct vi struct *vt = (struct vt struct *) tty-?driver data; 
2259 

2260 wake_up_interruptible(&vt—>paste_wait) ; 

2261 } 


可 见 ， 目 的 只 是 唤醒 可 能 在 等 待 着 时 把 数据 写 入 缓冲 区 的 进程 。 
fa] $1] read. chan( KARAB P ZEE. PR (drivers/char/n, tty.c): 


[tty. read( ) > read chan( )] 
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1099 clear bit(TTY DONT_FLIP，&tty->flags) ; 

1100 up (&tty-^atomic read); 

1101 remove wait queue(&tty-^read wait, &wait); 
1102 

1103 if (!Iwaitqueue active (&tty—>read_wait)) 

1104 tty-^minimum to wake = minimum; 

1105 

1106 current->state = TASK RUNNING; 

1107 size = b - buf; 

1108 if (size) { 

1109 retval = size; 

1110 if (nr) 

111i clear bit(TTY PUSH, &tty->flags) ; 
1112 } else if (test and clear bit(TTY PUSH, &tty-^flags)) 
1113 goto do it again; 

1114 

1115 return retval; 

1116 ) 


A6 BE EREBE CLE ET ATER ATA, mud Je DEC PET BR TERUEL I. ERJA buf 48 
向 用 户 空间 的 缓冲 区 ， 而 b RHR P A RAAT, BPEL b-buf 就 是 已 经 读 入 该 缓冲 区 
中 的 字符 数量 。 参 数 nr 只 是 表明 用 户 宁 间 缓 冲 区 的 大 小 ， 即 读 出 字符 数量 的 上 限 ， 在 规范 模式 下 实 除 
读 出 的 字符 数 取 决 十 具体 的 缓冲 行 。 

标志 位 TTY PUSH 是 由 低层 驱动 程序 在 读 a 到 一 个 EOF 字符 并 将 其 放 入 缓冲 区 时 设置 成 1 的 ， 表 
示 要 让 用 户 尽快 把 缓冲 区 的 内 容 读 和 走 。 如 果 此 后 从 缓冲 区 读 出 了 绥 冲 区 中 的 所 有 字符 ， 就 把 这 个 标志 
位 清 0 并 结束 整个 读 出 操作 ; 和 否则， 就 说 明 还 要 继续 从 绥 冲 区 读 。 所 以 如 果 本 次 读 操作 实际 并 本 读 出 ， 
则 不 让 性 结束 ， 通 过 1113 行 的 goto 语句 转 到 前 而 (937 行 ) 的 do_it_again 处 。 如 果 本 次 读 换 作 多 少 已 经 
读 出 了 若 十 字符 则 容许 下 次 再 读 。 

一 般 而 并 ， 一 个 典型 的 读 终端 过 程 串 以 分 成 下 询 革 部 分 ， VR UN MM 





(当前 进程 企图 从 终端 的 缓冲 区 读 出 ， 但 是 因为 缓冲 区 中 尚 无 足够 字符 供 读 出 而 党 阻 ， 进 入 唾 
IR: 

Q) a SRR SR CRAFT, WERDET AEB FSA RIEA, Suit 
中 的 进程 唤醒 ; 

(3) ”睡眠 中 的 进程 被 唤醒 以 后 ， 继续 完成 读 出 。 

我 们 在 十 面 阅读 的 是 这 个 过 程 中 的 第 `、 三 两 部 分 的 代码 ， 阅 读 时 具 是 假定 第 二 部 分 已 经 发 生 。 


实际 |.， 第 -部 分 才 赴 ,设备 驱动 程序 的 主体 ， 对 于 终端 设备 更 是 如 此 ， 下 面 我 们 就 来 看 这 一 部 分 的 代 
码 ， 


使 用 者 在 键盘 上 按 一 个 键 ， 就 产生 了 一 个 中 断 请 求 ，CPU 在 啊 应 中 断 时 便 进 入 键盘 的 中 断 服 务 程 

序 keyboard_interrupt( )。 人 们 往往 以 为 键盘 症 很 简单 的 设备 ， 但 是 实际 上 PC 键盘 的 结构 利 操作 都 个 简 

单 。 我 们 以 字符 “A” 为 例 来 说 明 键盘 的 操作 。 当 在 键 盘 上 按 下 一 个 键 时 ， 键 伪 立 即 就 向 母 极 发 出 一 个 

字 节 的 代 公 ， 称 为 “键盘 扫描 码 ”。 具 体 的 位 取决 十 键 的 位 置 ，“A” 键 的 键 各 扫 描 码 为 0x1c。 母 板 
. 371. 
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上 的 键盘 接口 在 接收 到 这 个 学 节 以 后 就 把 它 转 换 成 一 种 “系统 扫描 码 ”， 并 将 其 存 入 控制 器 的 内 部 组 
PX, aE) CPU 发 出 一 个 中 断 请 求 。 对 于 “A” 键 ， 其 系统 #| 描 码 为 0xle。 当 CPU 从 键盘 接口 
的 数据 寄存 器 读 时 ， 读 出 的 就 是 系统 扫描 码 。 然 后 ， 当 放 开 “A” 键 时 ， 键 盘 又 要 向 母 板 发 出 键盘 扫描 
码 ， 而 这 “次 的 键盘 拉 描 码 是 两 个 字 节 ， 第 一 个 总 是 0xf0， 表 示 是 放 开 一 个 键 ， 然后 是 0xlc， 表 示 是 
哪 一 个 键 。 同 样 ， 坪 板 上 的 键 玲 接口 也 要 把 它 转 换 成 系统 扫描 码 、 也 要 向 CPU 发 出 中 断 请 求 ， 但 是 系 
统 扫 描 码 仍 是 一 个 字 节 ， 只 是 在 0xle 的 基础 上 把 最 高 位 设 成 1， 变 成 了 0x9e。 这 样 ， 人 在 CPU 从 键盘 
接口 读 出 的 单字 节 系 统 扫 描 但 中 ， 其 最 高 位 表示 按 下 或 放 开 ， 询 低 7 位 则 与 具体 的 键 相对 应 。 不 光 对 
人 普通 的 宁 符 键 是 如 此 ， 对 功能 键 和 控制 键 也 起 样 。 例如， 左右 两 个 Shift 键 的 系统 扫描 码 分 草 为 0x2a 
利 0x36。 这 样 ， 以 输入 一 个 小 写 的 “a” 为 例 ，CPU 实际 上 可 能 要 发 生 4 次 中 断 、 要 依次 从 键 般 接 咒 
读 出 4 个 字 节 的 系统 扫描 码 ， 例 如 :0x36，0xle，0x9e，0xb6。 全 于 把 这 个 序列 解释 成 什么 ， 那 就 是 
软件 的 事 了 ; 如 果 解 释 成 ASCII 码 ， 而 键 插 又 没有 锁定 在 大 写 状 态 ， 那 就 是 “a”. UETA, HRR 
口 向 CPU 发 出 的 中 断 请 求 并 不 意味 着 从 键盘 接收 到 了 一 个 字符 , 是 只 是 意味 着 键盘 |` 发 生 了 某 种 事件 。 
此 外 ， 上 而 只 是 一 般 映 言 ， 实 际 上 还 有 不 少 例外 。 其 中 最 重要 的 是 所 谓 “扩充 键 ”。 早 期 的 PC 键盘 上 
RA 83 ME, 后 米 扩充 到 了 101 BEER 104 键 ， 例 如 右边 的 Ctrl 键 就 是 一 个 扩充 键 。 当 按 下 或 放 开 扩充 
键 时 , 键盘 扫描 码 和 系统 扣 措 码 都 以 ~ -个 0xe0 字 节 开头 ,所 以 按 下 右边 Ctrl 键 时 的 键 改 扫描 码 是 [0xe0， 
Oxl4]: 放 开 时 为 [0xe0，0xf0，0x14]; 相应 的 系统 扫描 码 则 为 [Ooxe0，0x1d] 以 及 [0xe0，0x9d]。 

把 这 些 事 件 和 产生 的 代码 列 成 表 可 以 看 得 更 清楚 一 些 ; 


事件 键盘 扫描 码 系统 扫描 码 
按 下 “A” 键 Oxlc Oxle 
HOT "A" 8& Oxf0, Oxic Ox9e 
按 下 右 Shift 键 0x59 0x36 
放 开 右 Shift 键 Oxf0. 0x59 Oxb6 
ik F4 Ctrl gë OxeO, 0x14 Oxe0, Oxld 
ITA: Ctrl gË OxeO, Oxf0, 0x14 Oxe0, Ox9d 


其 他 偿 有 一 些 例外 ， 主 要 与 控制 键 和 锁定 键 有 关 ， 我 们 在 这 时 就 不 详细 介绍 了 。 

之 所 以 把 键盘 扫描 伺 转 换 成 系统 扫描 码 ， 是 为 了 建立 起 一 个 统一 的 扫描 码 界面 。 这 种 转换 是 几 键 
一 接口 完成 的 ， 所 以 不 占用 CPU 的 时 间 。 不 过 ， 有 沉 要 时 也 可 以 通过 键 锅 控制 器 关闭 这 种 转换 。 吕 然 ， 
对 于 软件 而 言 键 玲 扫描 码 是 不 可 见 的 ， 所 以 我 们 在 下 商 讲 到 “ 打 描 码 ” 时 都 是 指 系统 扫描 码 。 此 外 ， 
按 下 “个 键 时 产生 的 打 描 码 常常 称 为 “make code”， 而 放 开 “个 键 时 产生 的 打 描 码 则 常常 称 为 “break 
code" 

PK. keyboard. interrupt( ) 的 代码 在 drivers/char/pc keyb.c 中 : 





479 static void keyboard interrupt(int irq, void *dev id, struct pt regs ¥*regs) 
480 [ 

481 &ifdef CONFIG VT 

482 kbd pt regs - regs; 

483 #endif 
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484 

485 spin lock irq(&kbd controller lock); 
486 handle kbd event( ); 

487 spin unlock irq(&kbd controller lock); 
488 — ] 


为 防止 不 同 的 CPU 同时 对 键盘 操作 (多 处 理 峰 系统 中 )， 内 核 中 为 键盘 操作 设立 了 一 把 锁 ， 即 
kbd. controller lock, DACRE REAHRVERI HERE. BUS handle_kbd_event( ) 的 代 但 在 同一 文件 中 : 


[keyboard_interrupt( ) > handle kbd event( )] 


446 static unsigned char handle kbd event (void) 


447 { 

448 unsigned char status = kbd read_status( ); 

449 unsigned int work = 10000; 

450 

451 while ((--work > 0) && (status & KBD STAT OBF)) { 
452 unsigned char scancode; 

453 

454 scancode = kbd read input( ); 

455 

456 /* Error bytes must be ignored to make the 
457 Synaptics touchpads compaq use work */ 

458 #if 1 

459 /* Ignore error bytes */ 

460 if (!(status & (KBD STAT GTO | KBD STAT PERR))) 
461 fendif 

462 { 

463 if (status & KBD_STAT_MOUSE_OBF) 

464 handle mouse event (scancode) ; 

465 else 

466 handle keyboard event (scancode); 

461 ) 

468 

469 status = kbd read status( ); 

470 } 

471 

472 if (!work) 

473 printk (KERN ERR "pc keyb: controller jammed (0x%02X).\n”, status); 
474 

475 return status; 

46  ] 


就 像 其 他 设备 一 样 ， 键 盘 接口 上 也 有 “控制 /状态 寄存 器 ”和 “数据 寄存 器 ”。 首 先 要 读 出 状态 客 
存 器 , 看 看 发 生 了 什么 事 。 状 态 寄存 器 中 有 个 标志 位 KBD_STAT_OBFCOBF 表示 “Output Buffer Full”), 
当 这 个 标志 位 为 1 时 就 表示 键盘 的 内 部 缓冲 区 中 有 数据 ， 可 以 道 过 数据 寄存 器 读 出 。 这 里 的 
kbd_read_status( ) 和 kbd_read_input( ) 部 是 定义 于 include/asm-i386/keyboard.h 中 的 宏 操 作 : 
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48 define kbd read input( ) inb(KBD DATA REG) 
49 define kbd read status( ) inb(KBD STATUS REG) 


前 面 讲 过 ， 从 PC 键盘 读 入 的 是 着 | 描 码 ， (RASTA AS EE REE LIAB RRS, ToS BE 
文字 的 编码 无 关 ， 因 此 要 根据 “ 定 的 规则 将 扫描 码 转 换 成 相应 的 代 公 。 司 时 ， 缓 冲 区 中 可 能 有 不 止 一 
个 的 字 节 ， 册 而 要 通过 一 个 while 循环 从 缓冲 区 逐个 学 节 地 读 出 。 鼠 标 器 通常 与 键 航 共用 同 - .个 接口 ， 
所 以 还 要 根据 状态 寄存 器 的 内 容 侈 定数 据 的 来 源 ， 我 们 在 这 里 假定 确实 来 自 键盘 。 从 键盘 的 数据 寄存 
器 读 出 了 全 部 字符 以 后 ， 状 态 寄存 器 中 的 标志 位 KBD STAT OBF 就 变 成 0。 如 果 读 了 10000 次 以 后 
这 个 标志 位 还 是 1， 那 当然 是 有 问题 了 。 对 从 键盘 读 入 的 每 个 字符 都 通过 handle keyboard, event( ) 进 一 
步 处 理 ， 其 代码 也 在 drivers/char/pc_keyb.c 中 : 


[keyboard interrupt( ) > handle kbd event( ) > handle keyboard, event( )] 


429 static inline void handle keyboard event (unsigned char scancode) 


430 { 

431 #ifdef CONFIG VT 

432 kbd exists = 1: 

433 if (do acknowledge (scancode) ) 

434 handle scancode(scancode, !(scancode & Ox80)); 
435 Hendif 

436 tasklet schedule(&keyboard tasklet); 

437 ] 

438 


键盘 并 不 是 一 种 “只 读 ” 的 设备 ， 对 键盘 也 有 输出 操作 。 键 盘 在 收 到 数据 后 都 要 送 回 一 个 
KBD_REPLY_ACK 《定义 为 0xfa》 了 予以 确认 ,或 送 问 一 个 KBD_REPLY_RESEND (定义 为 0xfe) HR 
HA, 而 CPU 必须 将 其 与 正常 的 输入 区 分 开 来 , 为 了 这 个 目的 , 内 核 中 设 了 一 个 全 局 量 reply. expected, 
每 当 发 送 一 个 字 节 给 键盘 时 就 将 reply expected 设 成 1， 而 在 handle keyboard event( ) E 5i 
reply expected. 为 1 就 要 把 输入 丢弃 。 这 就 是 这 里 调用 do acknowledge( ) 的 目的 ， 其 代码 在 
drivers/char/pc keyb.c #: 


[keyboard interrupt( ) > handle kbd event( ) > handle keyboard. event( ) > do, acknowledge( )] 


265 static int do acknowledge (unsigned char scancode) 

266 { 

267 if (reply expected) { 

268 /* Unfortunately, we must recognise these codes only if we know they 
269 * are known to be valid (i.e., after sending a command), because there 
270 * are some brain-damaged keyboards (yes, FOCUS 9000 again) which have 
271 * keys with such codes : ( 

272 */ 

273 if (scancode == KBD REPLY ACK) | 

214 acknowledge = 1; 

275 reply_expected = 0; 

276 return 0; 
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277 } else if (scancode == KBD REPLY RESEND) { 
218 resend = 1; 

279 reply_expected = 0; 

280 return 0; 

281 } 

282 /* Should not happen... */ 

283 tif 0 

284 printk(KERN DEBUG "keyboard reply expected - got *02xWn^, 
285 scancode) ; 

286 Hendif 

287 ] 

288 return 1; 

289 } 


HHD c Bs 438 5 HH] handle scancode( ) 完 成 的 ， 其 代码 在 drivers/char/keyboard.c FP, 3X4 HR 
数 比 较 长 ， 我 们 分 段 阅读 : 


[keyboard interrupt( ) > handle_kbd_event( ) > handle keyboard event( ) > handle, scancode( )] 


201 void handle scancode (unsigned char scancode, int down) 


202 d 

203 unsigned char keycode; 

204 char up flag = down ? 0 : 0200; 

205 char raw mode; 

206 

207 pm access(pm kbd); 

208 

209 do_poke_blanked_console = 1; 

210 tasklet schedule (&console_tasklet) ; 

211 add keyboard randomness (scancode | up flag); 

212 

213 tty = ttytab? ttytab[fg console]: NULL; . 

214 if (tty && (Itty- driver data)) { 

215 /* 

216 * We touch the tty structure via the the ttytab array 
217 * without knowing whether or not tty is open, which 
218 * is inherently dangerous. We currently rely on that 
219 * fact that console open sets tty~>driver data when 
220 * it opens it, and clears it when it closes it. 

221 */ 

222 tty = NULL; 

223 } 

224 kbd = kbd table + fg console; 

225 if ((raw mode = (kbd->kbdmode 一 VC RAW))) { 

226 put queue(scancode | up flag); 

221 /* we do not return yet, because we want to maintain 
228 the key down array, so that we have the correct 
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229 values when finishing RAW mode or when changing VT s */ 
230 ] 

231 

232 /* 

233 * Convert scancode to keycode 

234 */ 

235 if (!kbd translate(scancode, &keycode, raw mode)) 

236 return; 

237 


参数 down A 1 去 示 扫描 码 的 最 高 位 为 0， 表示 键 处 于 按 下 状态 。 局 部 量 up flag 实际 | 相当 于 把 
扫描 码 的 最 高 位 抽 了 出 来 。 

这 里 的 pm_access( ) 是 为 电源 管理 留 下 的 … 个 口子 , 其 意图 是 在 人 机 界面 上 长 时 间 没 有 活动 以 后 就 
使 显示 器 进入 省 电 模 式 ， 然 后 一 旦 有 键盘 输入 时 就 恢复 到 正常 运行 。 不 过 ， 在 日 前 的 代码 中 这 是 一 个 
"RAS 

我 们 在 第 3 章 中 讲 过 ， 中 断 服 务 程序 不 宜 大 长 ， 有 些 可 能 比较 费时 的 操作 应 该 放 在 比较 宽松 的 bh 
PE Zi ek tasklet 中 完成 。 对 虚拟 控制 台 的 切换 就 是 这 样 … 种 操作 ， 所 以 控制 台 操作 有 一 个 tasklet， 那 就 
是 console tasklet( )。 这 个 tasklet 是 音 备 在 执行 完 键盘 中 断 服务 程序 以 后 ， 在 从 中断 响应 返回 之 前 执行 
的 ， 这 里 要 通过 tasklet schedule( )， 将 其 挂 入 相应 的 队列 中 。 这 里 还 调用 了 一 个 函数 
add keyboard randomness( )， 这 起 借 键 盘 输 入 的 随机 性 加 大 系统 路 伪 随机 数 的 随机 性 ， 读 者 在 前 几 童 
中 也 看 到 过 类 似 的 运用 。 

PC 机 的 控制 台 终端 由 显示 器 (图 形 卡 ) 和 键盘 两 部 分 构成 ， 所 以 除 tty. struct. 数据 结构 外 还 有 个 
kbd struct 数据 结构 。 同 时 ， 物 理 的 显示 器 和 键盘 又 可 用 于 多 个 虚拟 终 站 ， 通 过 Alt 键 与 功能 键 的 组 全 
来 切换 。 显 然 ， 每 个 虚拟 终端 都 应 该 有 自己 的 tty. struct 结构 和 kbd_struct 结构 。 为 此 ， 内 核 中 设立 了 
ttytab| | 和 kbd_table[ ] 两 个 结构 数组 ,而 全 局 景 fg_console 则 记录 着 当 RU “前 台 ” 虚拟 终端 号, 同时， 
为 便于 后 面 的 处 理 ， 又 设立 了 tty 和 kbd 两 个 全 局 量 ， 使 它们 分 曾 指 向“ 前 台 ” 虚拟 终端 的 tty. struct 
结构 和 kbd_struct 结构 。 

如 果 拥 台 终端 的 键 条 工作 十 “原始 ”模式 VC. RAW ( 串 以 通过 系统 调用 ioctl( ) 设 置 )， 那 就 直接 把 
扫描 伺 放 到 键盘 的 接收 队列 中 ， 和 再 则 就 此 将 扫描 码 转 换 成 “ 键 码 ”后 才 放 到 队列 中 。 所 谓 “ 版 始 ” (raw) 
模式 对 于 不 同 的 层次 有 不 同 的 意义 ， 键 盘 的 原始 模式 有 两 种 ， 其 中 最 原始 的 就 是 VC_RAW， 表 示 育 接 
把 扫描 得 送 给 应 川 层 。 

我 们 先 看 转换 扫 撕 码 的 过 程 kbd translate( )， 这 个 函数 企 include/asm-i386/keyboard.h 中 定义 成 
pckbd translate( ): 

















34 #define kbd translate pckbd translate 
这 就 是 PC 键盘 的 键 码 转换 函数 ， 其 代码 在 drivers/char/pe. keyb.c P: 


fkeyboard_interrupt( ) > handle kbd event( ) > handlc_keyboard_event( ) > handle scancode( ) > 
pckbd translate( )] 


291 int pckbd translate (unsigned char scancode, unsigned char *keycode, 
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char raw mode) 
static int prev scancode; 


/* special prefix scancodes.. */ 

if (scancode == 0xe0 i| scancode == Oxel) { 
prev_scancode = scancode; 
return 0; 


} 


/* OxFF is sent by a few keyboards, ignore it. 0x00 is error */ 
if (scancode == 0x00 | scancode — Oxff) { 

prev scancode - 0; 

return 0; 


scancode &- OxTf; 


if (prev scancode) { 
/* 
* usually it will be Oxe0, but a Pause key generates 
* el id 45 el 9d c5 when pressed, and nothing when released 


*/ 

if (prev scancode {= Oxe0) { 
if (prev scancode -- Oxel && scancode == Oxld) { 
prev scancode ~ 0x100; 
return 0; 


} else if (prev scancode == 0x100 && scancode == 0x45) { 
*keycode = El PAUSE; 
prev scancode = 0; 
| else { 
#ifdef KBD REPORT_UNKN 
if (!raw mode) 
prinLk(KERN INFO "keyboard: unknown el escape sequenceW ^); 
Rendif 
prev scancode - 0; 
return 0; 
} 
} else { 
prev scancode = 0; 
/* 
* The keyboard maintains its own internal caps lock and 
* num lock statuses. [n caps lock mode EO AA precedes make 
* code and EO 2A follows break code. 1n num lock mode, 
* EO 2A precedes make code and EO AA follows break code 
* We do our own book-keeping, so we will just ignore these 
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340 * For my keyboard there is no caps lock mode, but there are 
341 * both Shift-L and Shift-R modes. The former mode generates 
342 * E0 2A / EO AA pairs, the latter EO B6 / EO 36 pairs. 

343 * So, we should also ignore the latter. - aeb@cwi. nl 

344 */ 

345 if (scancode == Ox2a || scancode == 0x36) 

346 return 0; 

347 

348 if (e0_keys[scancode]) 

349 *keycode = eO keys[scancode]; 

350 else 1 

351 Hifdef KBD REPORT UNKN 

352 if (!raw mode) 

353 printk(KERN INFO “keyboard: unknown scancode e0 %02x\n", 
354 scancodo) ; 

355 #endif 

356 return 0; 

357 

358 } 

359 | else if (scancode >= SC LIM) { 


Boc. GOAT ATIA, BREA RITE OxeO0 (或 0xe1)， 那 就 是 扩充 键 的 前 级 码 。 此 于 的 扫描 码 
是 个 序列 ， 所 以 需要 为 之 实现 一 种 “有 限 状 态 机 ”， 全 局 量 prev scancode 就 是 用 于 这 个 目的 。 这 里 先 
把 前 级 码 作为 种 状态 保存 在 prev_scancode 中 , 3E3R [8] 0, KRAF T PVT ZF, Tf] handle, scancode( ) 
也 就 随 之 返回 (236 fT). Jh, 0x00 和 Oxtf 不 是 有 效 的 扫描 但， 也 要 丢弃 。 

对 才 扫 描 但 本 身 的 处 理 因 是 何 扩 充 键 而 异 。 如 果 prev scancode 非 0， 那 束 说 明 在 此 之 前 的 字 节 是 
SATS. DERE Y EUER DUAL RE T6 A Oxed. 

前 缀 码 Oxel 是 个 特例 ,在 按 下 或 放 开 Pause 键 的 时 候 , ER BU B TOIT AU [0xel, Ox1d, 
0x45] 或 [0xe1，0x1d，0xc5]。 所 以 ， 代 码 中 为 这 个 序列 设置 了 个 中 间 状 态 0x100，316 一 329 行 就 是 对 
这 个 特殊 序列 的 检验 。 如 果 三 个 字 节 都 对 ， 那 就 是 El1_PAUSE， 否 则 就 予以 丢弃 。 除 Pause 键 以 外 , 其 
他 扩充 键 的 前 级 码 都 赴 0xe0。 前 面 讲 到 ， 左 右 两 个 Shift 键 并 韭 扩充 键 ， 但 是 有 些 键 贷 在 NumLock 或 
CapsLock 状态 下 操作 左右 Shift 键 时 会 把 它们 当成 扩充 键 。 由 十 Linux 内 核 自己 维持 各 种 锁定 状态 , 所 
以 丢弃 作为 扩充 键 的 左右 Shift 键 扫描 码 (345 一 346 行 )。 

对 十 扩充 键 ， 从 扫 措 公公 键 人 码 的 转换 由 定义 十 drivers/char/pc_keyb.c 的 数组 e0_keys[ ] 提 供 : 


227 static unsigned char eO keys[128] = { 


228 0,0, 0, 0, 0, 0, 0, 0, /* 0x00-0x07 */ 
229 0, 0, 0, 0, 0, 0, 0, 0, /* 0x08-0x0f */ 
230 0, 0, 0, 0, 0, 0, 0, 0, /* Ox10-0x17 */ 
231 0, 0, 0, 0, EO KPENTER, EO RCTRL, 0, 0, /* Ox18-Ox1lf */ 
232 0, 0, 0, 0, 0, 0, 0, 9, /* 0x20-0x27 */ 
233 0,0, 0, 0, 0, 0, 6, 0, /* 0x28-0x2f */ 
234 0, 0, 0, 0, 0, EO KPSLASH, 0, EO PRSCR, /* 0x30-0x37 */ 
235 EO RALT, 0, 0, 0, 0, EO FI13, EO Fl14, EO HELP, /* 0x38-0x3f */ 
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236 
237 
238 
239 
240 
241 
242 
243 
244 


131 
132 
133 
134 
135 
136 
137 
138 
139 
140 
141 
142 
143 
144 
145 
146 
147 
148 
149 
150 
151 
152 
153 
154 
155 
156 
157 
158 


EO DO, EO F17, 0, 
EO UP, EO PGUP, 0, 
EO DOWN, EO PGDN, 
0, 0, 0, EO MSLW, 
0, 0, 0, 0, 0, 9, 
0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 
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0, 0, 0, EO BREAK, EO HOME, /* Ox40-0x47 */ 
EO LEFT, EO OK, EO RIGHT, EO KPMINPLUS, EO END, /* 0x48-Ox4f */ 
EO INS, EO DEL, 0, 0, 0, 0, / 0x5b0-0x57 */ 
EO MSRW, EO MSTM, 0, 0, /* 0x58-0x5f */ 
0, 0, /* 0x60-0x67 */ 
0, EO MACRO, /* 0x68-0x6f */ 
0, 0, /* 0x70-0x77 */ 
0, 0 /* Ox78-Ox7f */ 


GA, A Ctrl 键 的 扫描 码 为 [0xe0, 0x1d]， 所 以 用 Oxld 为 下 标 从 表 中 得 得 其 键 码 EOLRCTRL. 又 如 
PageUp 键 的 扫描 但 为 [0xe0, 0x49]， 所 以 用 0x49 为 下 标 从 表册 查 得 其 键 个 E0_PGUP。 这 些 键 码 也 都 定 
义 寺 同一 文件 (drivers/char/pc_keyb.c) 中 : 


/* 


* Translation of escaped scancodes to keycodes. 


* This is now user-settable 
* The keycodes 1-88,96-111,119 are fairly standard, and 


* 
* 
x 
* 
*/ 


#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 


#define 


EO_KPENTER 
EO_RCTRL 
EO KPSLASH 
EO PRSCR 
FO_RALT 
BO_BREAK 
EO HOME 

EO UP 

EO PGUP 

EO LEFT 
EO. RIGHT 
EO END 

EO. DOWN 

EO PGDN 

EO INS 

EO DEL 


E] PAUSE 


should probably not be changed - changing might confuse X. 
X also interprets scancode Ox5d (KEY Begin). 


For 1-88 keycode equals scancode 


96 


100 
101 /* (control-pause) */ 
102 
103 
104 
105 
106 
107 
108 
109 
110 
111 


119 


数组 eO. keyst ] 的 内 容 是 可 以 通过 系统 调用 ioctl( EA, (Dx ROEDER T D ERE X 
window 软件 弄 糊涂 。 这 也 部 分 地 回答 了 读者 可 能 会 有 的 疑问 ， 就 是 为 什么 需要 “ 键 码 ”。 
再 看 不 带 前 绥 的 扫描 码 ， 即 非 扩充 键 的 扫描 码 。 
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[keyboard, interrupt( ) > handle kbd event( ) > handle keyboard .event( ) > handle scancode( ) 
> pckbd_translate( )] 


359 } else if (scancode >= SC LIM) { 

360 /* This happens with the FOCUS 9000 keyboard 

361 Its keys PF1..PF12 are reported to generate 

362 55 73 77 78 79 Ta Tb Tc 74 Te 6d 6f 

363 Moreover, unless repeated, they do not gencrate 

364 key-down events, so we have to zero up flag below */ 
365 /* Also, Japanese 86/106 keyboards are reported to 

366 generate 0x73 and Ox7d for V - and \ | respectively. */ 
367 /* Also, some Brazilian keyboard is reported to produce 
368 0x73 and Ox7e for \ ? and KP-dot, respectively. */ 
369 

370 *keycode = high keys[scancode - SC LIM]; 

371 

372 if (!*keycode) { 

373 if (!raw_mode) { 

374 #ifdef KBD_REPORT_UNKN 

375 printk (KERN INFO "keyboard: unrecognized scancode (%02x)” 
376 ^ - ignored\n”, scancode) ; 

377 #endif 

378 } 

379 return 0; 

380 } 

381 } else 

382 *keycode = scancode; 

383 return l; 

384} 


常数 SC LIM 的 值 为 89， 即 0x59。 数 值 小 于 SC LIM 的 扫描 码 与 键 码 相 辣 而 尤 需 转 换 (382 fT): 
否则 便 由 数组 high_keys[ ] 提 供 转换 ， 转 换 了 时 以 (scancode - SC_LIM) 为 下 标 。 这 个 数组 的 定义 也 在 
drivers/char/pc_keyb.c FP: 


194 static unsigned char high keys[128 - SC LTM] = ( 


195 RGN1, RGN2, RGN3, RGN4, 0, 0, 0, /* 0x59-0x5f */ 
196 0, 0, 0, 0, 0, 0, 0, 0, /* 0x60 0x67 */ 
197 0, 0, 0, 0, 0, FOCUS PFi1, 0, FOCUS_PF12, /* Ox68-Ox6f */ 
198 0, 0, 0, FOCUS PF2, FOCUS PF9, 0, 0, FOCUS PF3, /* 0x70-0x77 */ 
199 FOCUS PF4, FOCUS PF5, FOCUS PF6, FOCUS, PFT, /¥ Ox78-Ox7b */ 
200 FOCUS PF8, JAP 86, FOCUS PF10, 0 /* Ox7c-Ox7f */ 
201 }; 


这 个 范围 中 的 大 多 是 功能 键 ， 其 键 码 的 数值 在 89~127 WEP, f FOCUS_PF2 就 是 PF2 键 的 键 

码 CFOCUS PF1 的 数值 为 85， 与 扫描 码 相 同 ， 所 以 个 在 这 个 数组 中 )。 现 在 可 以 比较 完整 地 同 答 为 什 

人 么 需要 将 扫描 码 转 换 成 键 但 的 问题 了 。 带 前 缕 0xe0 和 不 出 前 缀 的 扫描 码 占 据 着 两 块 128 字 节 (实际 上 
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只 有 126 学 节 ) 的 区 间 ， 但 是 实际 上 两 个 区 间 都 是 很 “稀疏 ”的 。 就 键盘 的 大 小 来 说 ， 坝 在 还 在 120 键 
以 下 ， 如 果 一 键 一 码 则 只 需要 120 字 节 以 下 ， 完 全 可 以 合并 到 同一 个 126 字 节 的 区 问 中 去 。 可 是 ， 又 
林 宜 简单 地 把 前 缀 丢 齐 了 事 ， 因 为 那样 至 少 会 造成 功能 键 与 普通 字符 键 穿插 在 一 起 而 带 来 不 便 。 比 较 
好 的 办 法 当然 是 统一 编排 --" 下 、 定 义 出 -一 个 标准 的 键 码 ， 使 功能 键 的 代码 都 集中 在 起， 例如 上 述 的 
9% 一 111。 这 样 ， 不 管 是 PC 键盘 也 好 、Macintoshi 键盘 也 好 ， 一 旦 转换 到 键 码 就 都 - 样 ， 与 具体 的 键 
失 无 关 了 。 这 里 还 要 指出 ， 键 码 仍 然 只 是 一 种 中 性 的 代码 ， 而 与 其 体 的 语言 义 字 盛大 。 
回 到 handle_scancode( ) 的 代码 中 继续 往 下 看 (drivers/char/keyboard.c): 


[keyboard_interrupt( ) > handle kbd event( ) > handle keyboard event( ) > handle scancode( )] 


238 /* 

239 * At this point the variable keycode’ contains the keycode. 
240 * Note: the keycode must not be 0 (++Geert: on m68k 0 is valid). 
241 * We keep track of the up/down status of the key, and 

242 * return the keycode if in MEDIUMRAW mode 

243 */ 

244 

245 if (up flag) { 

246 rep = 0; 

247 if(!test and clear_bit (keycode, key, down)) 

248 up flag = kbd unexpected up(keycodo); 

249 } else 

250 rep = test and set bit(keycode, key down); 

251 

252 #ifdef CONFIG MAGIC SYSRQ /* Handle the SysRq Hack */ 
253 if (keycode -- SYSRQ KEY) | 

254 sysrq pressed - !up flag; 

255 return; 

256 } else if (sysrq pressed) { 

251 if (lup flag) { 

258 handle sysrq(kbd sysrq xlate[keycode], kbd pt regs, kbd, tty); 
259 return; 

260 } 

261 } 

262 #endif 

263 

264 if (kbd->kbdmode — VC_MEDIUMRAW) { 

265 /* soon keycodes will require more than one byte */ 
266 put queue (keycode + up flag); 

267 raw mode = 1; /* Most key classes will be ignored */ 
268 } 

269 


前 面 讲 过 ， 局 部 量 up_flag AVE Ae HA MI BEN THR FE (down) BE KOT pR. SIA, E 

大 部 分 的 键 都 处 于 放 开 状 态 ， 但 是 也 可 能 癌 时 有 几 个 键 处 于 按 下 状态 ， 所 以 代码 中 使 用 一 个 全 局 的 位 

图 key down 来 记录 各 个 键 的 状态 。 如 果 读 入 的 扫描 码 表明 相应 的 键 处 于 按 下 状态 ， 那 就 把 位 图 
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key. down 中 的 对 应 位 设 成 1; b 27, WRK -位 原来 就 已 经 是 1， 那 就 说 明 使 用 者 按 下 这 个 键 不 放 ， 
所 以 键盘 开始 了 自动 重复 功能 (250 行 )。 反 之 ， 如 果 读 入 的 扫描 码 表明 相应 的 键 处 于 放 开 状态 ， 那 就 把 
位 图 中 的 对 应 位 设 成 0; 如 果 原 来 就 是 0， 就 说 明 至 少 是 漏 了 一 个 扫描 码 ， 所 以 说 是 
kbd unexpected, up( ). 

作为 编译 选择 项 ， 对 SysRq 键 可 以 定义 一 些 特殊 的 操作 ， 不 过 我 们 在 这 里 不 感 兴趣 。 

如 果 键 盘 的 运行 模式 是 VC_MEDPIUMRAW， 或 者 说 是 “半生 半熟 ””“ 半 原始 ”， 那么 至 此 已 可 以 
把 转换 后 的 键 码 放 入 接收 队列 了 (266 行 )。 这 样 ， 如 果 键 盘 运 行 于 两 种 序 始 模式 之 :， 应 用 进程 从 键盘 
(控制 台 ) 读 到 的 就 是 打 描 码 或 键 码 。 在 前 一 节 中 讲 到 的 伪 终 端 加 窗口 管理 进程 的 系统 结构 中 ， 只 有 窗口 
管理 进程 二 会 直接 从 键盘 恋 ， 所 以 可 以 在 这 个 进程 的 软件 中 处 理 从 扫描 僻 或 键 码 向 具体 诸 言 文字 (如 汉 
字 ) 编 码 的 转换 。 当 然 ， 也 可 以 不 让 键盘 运行 于 原始 模式 ， 出 在 内 核 中 完成 这 最 后 一 步 转换 。 读 者 还 应 
注意 ， 这 星 所 说 的 原始 模式 是 对 最 底层 的 键盘 驱动 而 言 ， 区 别 在 于 是 否 把 扫描 码 转 换 成 目标 文字 的 代 
码 (如 ASCID， 这 与 前 面 在 “终端 ”一 层 上 的 非 规范 模式 不 同 ， 那 种 “原始 ”模式 后 面 我 们 还 要 讲 到 。 

我 们 髓 往 下 看 对 键盘 输入 的 最 后 一 步 转换 ， 这 一 次 是 要 转换 成 ASCTII 码 (或 其 他 拼音 文字 的 代码 ， 
下 同 )。 在 正常 模式 下 运行 的 键盘 要 到 把 输入 转换 成 ASCII 码 以 后 才 放 入 接收 队列 ， 有 的 则 根本 不 放 入 
接收 队列 。 


[keyboard, interrupt( ) > handle_kbd_event( ) > handle keyboard event( ) > handle scancode( )] 


270 /* 

271 * Small change in philosophy: earlier we defined repetition by 
272 * rep = keycode == prev keycode; 

273 * prev keycode = keycode; 

214 * but now by the fact that the depressed key was down already. 
275 * Does this ever make a difference? Yes. 

276 */ 

211 

278 /* 

279 * Repeat a key only if the input buffers are empty or the 

280 * characters get echoed locally. This makes key repeat usable 
281 * with slow applications and under heavy loads. 

282 */ 

283 if (!rep || 

284 (vc kbd mode(kbd, VC REPEAT) && tty && 

285 (L ECHO (tty) || (tty->driver. chars in buffer(tty) == 0))) { 
286 u short keysym; 

287 u_char type; 

288 

289 /* the XOR below used to be an OR */ 

290 int shift final = (shift state | kbd->slockstate) ` 

291 kbd->lockstate; 

292 ushort *key_map = key maps[shift final]; 

293 

294 if (key map !- NULL) { 

295 keysym = key map[keycode] ; 
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296 type = KTYP (keysym) ; 

297 

298 if (type >= 0xf0) { 

299 type -= Oxf0; 

300 if (raw mode && ! (TYPES ALLOWED IN RAW MODE & (1 << type))) 
301 return; 

302 if (type == KT LETTER) { 

303 type - KT LATIN; 

304 if (vc kbd led(kbd, VC CAPSLOCK)) { 

305 key map = key maps[shift final ^ (1<<KG_SHIFT)] ; 
306 if (key map) 

307 keysym = key map[keycode]; 

308 ) 

309 } 

310 (*key handler[type]) (keysym & Oxff, up flag); 
311 if (type != KT SLOCK) 

312 kbd->slockstate = 0; 

313 } else { 

314 /* maybe only if (kbd->kbdmode == VC UNICODE) ? */ 
315 if Cup flag && !raw mode) 

316 Lo utf8(keysym) ; 

317 ) 

318 ) else { 

319 /* maybe beep? */ 

320 /* we have at least to update shift state */ 

321 Hif 1 /* how? two almost equivalent choices follow */ 
322 compute shiftstate( ); 

323 kbd— slockstate = 0; /* play it safe */ 

324 Helse 

329 Hendif 

330 } 

331 } 

332 } 


XEM GS FERREA, BD rep 为 0 时 ， 这 一 段 代 码 的 执行 是 无 条 件 的 。 而 对 于 因 按 下 
键 不 放 而 白 动 重 复 产生 的 键盘 输入 ， 则 是 有 条 件 的 ， 条 件 是 键盘 运行 于 VC REPEAT 模式 ， 邮 多 许 目 
动 重复 ， 并 卫 终 端 运行 于 “echo” 模 式 ， 或 者 输入 缓冲 区 已 经 空 了 (以 前 的 输入 都 已 被 起 起 )。 如 果 不 满 
IKE, RRMA RL HT 

从 键 码 向 日 标 码 keysym 的 转换 也 是 通过 数组 实现 的 ， 以 键 码 的 数值 为 下 标 ， 相 应 的 元 素 就 给 出 目 
标 码 。 由 于 键 码 的 数值 不 超过 127， 所 以 数组 的 大 小 为 128。 数 组 的 类 型 为 16 位 尤 符号 短 整 数 ， 其 高 8 
位 表示 键 的 类 型 ， 低 8 位 则 为 具体 的 代码 。Linux 内 核 的 “ 坪 语 ”是 英 诸 ， 所 以 目标 码 基 本 上 是 ASCI, 
不 过 也 可 以 通过 系统 调用 ioctlk )“ 下 载 ”其 他 码 表 。 不 过 ， 从 键 码 向 目标 码 的 转换 并 不 是 ”个 数组 就 
可 完成 的 ， 因 为 按 下 同一 个 键 在 不 同 的 情况 下 应 产生 出 不 同 的 代码 。 例如， 单独 按 下 “A” 键 时 应 产生 
“A” 的 代码 0x41， 而 芳 同 时 按 下 Shift 键 ( 更 确切 地 说 是 在 此 之 前 按 下 Shift BE. 并且 尚未 放 开 ) 就 应 产 
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生 “a” 的 代码 0x61。 除 此 之 外 ， 还 得 考虑 Cul 键 等 其 他 辅助 键 ， 所 以 实际 上 上 需要 好 几 个 这 样 的 数组 。 
那么 ,有 邢 个 辅助 键 影响 着 日 标 码 的 产生 呢 ? lea 4S, EI Alt S£. Ctrl 键 、Altgr 键 (右边 的 Alt 
键 ) 以 及 Shift 4E. ix en BE HT ELS x IR LZ ~ 起 来 影响 日 标 代码 的 产生 。 内 核 代码 中 有 
个 全 局 量 shift, state, Ur ES its s T8 T dta 其 高 28 位 均 为 0， 低 4 位 则 用 于 
4 个 辅助 键 ， 依 次 为 Alt、Ctl、Altgr、Shift。 这 样 ， 理 论 k RILE 16 个 不 同 的 码 表 ， 不 过 有 些 组 
合 实际 上 并 不 使 用 ， 所 以 实际 使 用 的 共有 7 “Midge. Att, drivers/char/defkeymap.c 中 定义 了 一 个 指针 
数组 key_maps[ ]， 以 shift_state 为 卡 标 就 可 以 找到 当前 适用 的 似 表 。 


141 ushort *key maps[MAX NR KEYMAPS] = { 


142 plain map, shift map, altgr map, 0, 
143 ctrl map, shift ctrl map, 0, 0, 
144 alt map, 0, 0, 0, 

145 cirl alt map, 0 

146 }; 


例如 ， 妆 没有 按 下 任何 辅助 键 [时 shift state 为 0， 所 以 适用 的 码 表 为 plain_map[ ]: 同时 按 下 Shift 
BERT shift state 为 1， 所 以 适用 的 介 表 为 shift map[ ]， 同 时 按 下 Alt 键 和 Curl 键 ( 如 Alt-Ctrl-B) 时 
shift state 为 12， 所 以 适用 的 色 表 为 ctrl_alt_map[ 1]。 具 体 的 码 表 都 在 drivers/char/defkeymap.c 中 ， 这 个 
文件 是 由 工 其 生成 的 ,编译 内 核 代 码 时 会 根据 一 个 码 表 描 述 文 件 drivers/char/defkey map.map [4344 hk. 
系统 运行 时 也 可 以 通过 系统 调用 ioctl( ) 下 载 、 蔡 换 这 些 码 表 。 系 统 小 有 个 工具 /usrbinyloadkeys， 可 以 
在 运行 时 生成 伺 表 并 且 下 载 ， 达 到 动态 地 改变 码 表 ( 从 而 改变 日 标语 言 ) 的 月 的 。 

此 外 ， 有 些 特 殊 的 键盘 .上 有 所 请 “sticky” 辅 助 键 ， 按 一 下 鸯 将 键 稚 锁 定 在 某 种 辅助 链 状 态 
(kbd->slockstate 变 成 1)， 就 好 像 老 是 按 下 Shift 键 不 放样 ， 再 按 一 下 就 又 加 到 正常 状态 。 有 的 键盘 上 
还 串 以 将 辅助 键 的 作用 反 转 (kbd->lockstate 为 D). MLA, dfi] 200—291 行 根据 当前 的 shift state 和 
kbd->slockstate 及 kbd->lockstate 计算 出 ~ -个 下 标 shift_final， 然 后 用 这 个 下 标 在 key_maps[ ] 中 找到 适 
FAME (292 行 )。 接 关 ， 如 果 相 应 的 码 表 存 在 ， 号 可 以 进一步 以 具体 的 键 码 为 下 标 从 友 赤 中 读 出 日 标 
代 但 (295 行 )。 

由 于 篇 幅 的 关系 ， 我 们 不 能 在 这 里 列 出 所 有 7 个 码 表 ， 而 只 刻 出 第 - -个 码 表 plain_map[ ]， 让 读者 
有 个 具体 的 印象 (drivers/chardefkeymap.c): 


8 u short plain map[NR KEYS] = { 


9 Oxf200, OxfOlb, Oxf031, Oxf032, Oxf033, Oxf034, Oxf035, Oxf036, 
10 Oxf037, Oxf038, Oxf039, Oxf030, OxfO2d, OxfO3d, OxfO7f, Oxf009, 
li Oxfb71, Oxfb77, Oxfb65, Oxfb72, Oxfb74, Oxfb79, Oxfb75, Oxfb69, 
12 Oxfb6f, Oxfb70, Oxf05b, OxfObd, Oxf201, Oxf702, Oxfb61, Oxfb73, 
13 Oxfb64, Oxfb66, Oxfb67, Oxfb68, Oxfb6a, Oxfb6b, Oxfb6c, OxfO3b, 
14 Oxf027, Oxf060, Oxf700, OxfO0be, Oxfb7a, Oxfb78, Oxfb63, Oxfb76, 
15 Oxfb62, Oxfb6e, Oxfb6d, Oxf02c, Oxf02e, OxPl02f, Oxf700, Oxf30c, 
16 0xf703, Oxf020, Oxf207, Oxf100, OxflO1, Oxf102, Oxfl103, Oxfl04, 
17 Oxfi05, Oxf106, Oxf107, Oxfl108, Oxfl09, Oxf208, Oxf209, Oxf307 
18 Oxf308, Oxf309, Oxf30b, Ox[304, Oxf305, Oxf306, Oxf30a, Oxf301, 
19 0xf302, 0xf303, Oxf300, 0xf310, Oxf206, Oxf200, OxfO3c, OxfiO0a, 
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20 Oxfi0b, Oxf200, Oxf200, 0xf200, Oxf200, Oxf200, 0xf200, Oxf200, 
21 Oxf30e, Oxf702, Oxf30d, OxfOic, Oxf701, Oxf205, Oxfll4, Oxf603, 
22 Oxfl18, Oxf601, Oxf602, Oxf117, Oxf600, Oxf119, Oxf115, Oxfl16, 
23 Oxflia, OxflOc, OxflOd, Oxfilb, Oxflic, Oxfi10, Oxf311, Oxf1ld, 
24 Oxf200, Oxf200, Oxf200, Oxf200, Oxf200, Oxf200, 0xf200, Oxf200, 
25  }; 


例如 ，“A” 键 的 打 描 码 为 0xte， 因 而 键 码 也 是 0xle (因为 小 十 89) ， 以 此 为 下 标 从 这 个 数组 中 
读 得 其 代码 为 0xfb61。 代 码 的 高 8 位 代表 类 型 ， 低 8 位 即 为 字符 “a” 的 代码 0x61。 当 高 8 位 的 数值 
人 于 等 十 0xf0 时 ， 其 数值 与 0xf0 之 差 表 示 键 的 类 型 ， 小 杆 0xf0 WA RAW Unicode 的 UTF-8 编码 。 

我 们 先 看 键 的 类 型 ，include/linux/keyboard.h 中 共 定 义 了 13 种 类 型 : 


35 Hdefine KT LATIN 
36 #define KT LETTER 
37 define KT FN 

38 #dcfine KT SPEC 
39 #define KT PAD 

40 Hdefine KT DEAD 


O0 /* we depend on this being zero */ 
1 
1 
2 
3 
4 
41 #define KT_CONS 5 
6 
7 
8 
9 
1 


1 /* symbol that can be acted upon by CapsLock */ 


42 define KT CUR 

43 #define KT SHIFT 

44 #define KT META 

45 #define KT ASCII 

46 define KT LOCK 0 
47 #define KT SLOCK 12 


这 里 KT LATIN 表示 普通 串 打印 字符 ，KT_LETTER Ras, KT FEN 为 功能 键 ，KT_SPEC 为 
特殊 键 , KT PAD 为 “天 键 盘 ” 或 “数字 键盘 ”上 的 键 , KT. SHIFT 表示 辅助 键 , 等 等 。 注 意 这 里 KT_ASCII 
PREK “ASCI AS”, 而 是 表示 用 来 输入 十 六 进 制 数字 。 还 有 ，KT_DEAD 现在 已 经 不 用 了 ， 只 是 为 
兼容 向 还 保 贸 着。 上面 “A” 键 的 类 型 公 为 0xfbp， 所 以 是 KT_LETTER。 

同 到 handle_scancode( ) 的 代 僻 中 ， 宏 操作 KTYP( ) 从 目标 码 中 皮 出 其 高 8 位 类 型 码 。 如 打 大 于 等 于 
OxfO 即 为 普通 字符 (299~312 行 )。 对 于 原始 模式 ， 输 入 的 扫描 个 或 键 码 已 放 入 接收 队列 ， 但 起 对 茶 些 
键 的 按 下 或 放 开 也 还 需 旨 一 些 附加 操作 ， 例 如 Shift 键 的 状态 就 需要 反映 在 shift state Po XX HUE 
TYPES. ALLOWED IN RAW MODE 定义 于 drivers/char/keyboard.c: 


121 /* Key types processed even in raw modes */ 
122 
123 &define TYPES ALLOWED TN RAW MODE ((1 << KT SPEC) | (1 << KT SHIFT)) 


这 表示 ， 即 使 是 在 乒 始 模式 下 ， 对 KT SPEC 和 KT. SHIFT 这 山 类 键 也 需要 进行 一 些 处 理 ， 而 其 
他 的 就 不 需要 了 
至 于 正常 的 键盘 操作 ， 老 就 全 玫 要 经 过 进步 的 处 埋 了 。 上 其中 有 些 输入 要 在 经 过 处 理 以 后 放 入 接 
WRAS, HEIE Shift 键 ) 则 处 理 以 后 将 其 丢弃 。 首 先 ， 字 母 类 (KT_LETTER) 的 输入 与 普通 可 打印 字符 
(KT_LATIN) 的 区 划 仅 在 十 CapsLock 键 的 作 骨 ， 所 以 这 里 把 KT. LETTER. 4H 5x KT_LATIN， 并 且 根 
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据 当 前 键盘 上 的 CapsLock 发 光 二 极 管 (Led) 是 否 亮 着 决定 是 否 将 Shift 键 的 作用 反 相 。 
然后 ， 就 要 根据 键 的 类 型 调用 相应 的 处 理 程 序 了 。 这 里 的 key_handler[ ] 是 个 以 类 型 为 下 标的 函数 
指针 数组 ， 定 义 于 drivers/char/keyboard.c: 


115 static k hand key_handler[16] = { 


116 do self, do fn, do spec, do pad, do dead, do cons, do cur, do shift, 
117 do meta, do ascii, do lock, do lowercase, do slock, do dead2, 

118 do ignore, do ignore 

119 }; 


数组 的 大 小 是 16， 但 是 前 面 实际 上 只 定义 了 13 种 类 型 ， 所 以 最 后 3 个 函数 指针 起 不 可 能 用 到 的 。 
我 们 先 看 看 对 KT_LATIN， 有 即 普 通 可 打印 学 符 的 处 理 ， 函 数 do self( ) 的 代码 在 drivers/char/keyboard.c 
中 : 


542 static void do self(unsigned char value, char up flag) 


543 { 

544 if (up flag) 

545 return; /* no action, if this is a key release */ 
546 

547 if (diacr) 

548 value - handle diacr(value); 
549 

550 if (dead key next) ( 

551 dead key next = 0; 

552 diacr - value; 

553 return; 

554 } 

555 

556 put queue (value); 

557 ) 


HC. up flag JE 0 表示 当前 的 事件 是 放 开 (前 不 是 按 下 ) 一 个 键 ， 所 以 什么 事 也 不 用 干 ， 把 输入 于 
弃 就 是 了 。 否 则 ， 如 果 全 局 量 diacr 和 dead key next 都 是 0， 孝 就 是 - :个 止 常 的 输入 字符 了 ， 所 以 通 
过 put. queue( ) 把 这 个 字符 放 在 接收 队列 中 。 

那么 ，diacr 和 dead key next 是 干什么 用 的 呢 ? 原 米 ， 在 许多 拼音 文字 中 都 有 所 谓 “accent” 字 符 
(也 称 为 “diacritical” 字 符 )， 例 如 “A” 顶 上 加 个 小 阐 就 是 一 个 。 输 入 这 个 特殊 字符 时 先 要 同时 按 一 下 
Ctrl Fl ^." BE, ASI “o” E, aik “A” 键 。 由 于 这 起 个 序列 ， 所 以 又 得 要 实现 一 个 “有 限 状 
AHL”, if diacr 和 dead key. next 就 是 用 十 这 个 月 的 。 

以 刚才 讲 的 序列 为 例 ,“.” 键 的 键 码 为 0x34， 但 是 因为 同时 按 Ctrl 键 ， 所 以 从 ctrl_map[ ] 中 (这 里 
WA SHB A iS 0xf20e， 其 类 型 为 KT_SPEC。 十 是 ， 从 key_handlerf ] 中 找到 晃 数 指针 为 
do_spec( )， 其 代码 也 在 drivers/char/keyboard.c 中 : 


525 static void do spec(unsigned char value, char up flag) 
526 { 
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0 


527 if (up flag) 

528 return; 

529 if (value >= SIZE(spec fn table)) 

530 return; 

531 if ((kbd->kbdmode == VC RAW || kbd->kbdmode == VC MEDIUMRAW) && 
532 ! (SPECIALS ALLOWED IN RAW MODE & (1 «€ value))) 

533 return; 

534 spec fn table[value]( ); 

535  ] 


长 话 短 说 ， 这 里 最 后 又 通过 同一 文件 (keyboard.c) 中 的 函数 指针 数组 spec. fn. table[ ] 执 行 一 个 函数 : 


132 static void fnp spec fn table[ ] = { 


133 do null, enter, show ptregs, show mem, 

134 show state, send intr,  lastcons, caps toggle, 

135 num, hold, scroll forw, scro]l back, 

136 boot it, caps on, compose, SAK, 

137 decr_console, incr_console, spawn console, bare num 
1388 }; 


出 于 目标 码 中 的 低 8 位 为 0x0e， 所 以 执行 的 是 compose( )， 还 是 在 同一 文件 中 : 


488 static void compose (void) 


489 1 
490 dead key next = 1; 
491 } 


这 样 ， 当 输入 “o” 键 时 ， 在 do_self( ) 中 就 因 dead key next 为 1 而 将 该 字符 的 代码 存放 在 diacr 
tt, dead key next 则 又 清 成 0。 接 着 ， 当 输入 “A” 键 时 则 因 diacr 非 0 而 调用 handle_diacr( )， 其 代码 
仍 在 drivers/char/keyboard.c "P: 


589 /* 

590 * We have a combining character DIACR here, followed by the character CH. 
591 * If the combination occurs in the table, return the corresponding value 
592 * Otherwise, if CH is a space or equals DIACR, return DIACR. 

593 * Otherwise, conclude that DIACR was not combining after all, 

594 * queue it and return CH. 

595 */ 

596 unsigned char handle diacr (unsigned char ch) 

597 { 

598 int d 7» diacr; 

599 int i; 

600 

601 diacr = 0; 

602 

603 for (i = 0: i < accent table size; i++) | 
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604 if (accent tableli].diacr == d && accent table[il]. base == ch) 
605 return accent table[i].result; 

606 } 

607 

608 if (ch ==’ ' || ch == d) 

609 return d; 

610 

611 put queue (d); 

612 return ch; 

613 ] 


HEDRER Cr RC REIR SE, RIS BT PV AT SE REA BIETET, POLARS] 
都 在 “个 数组 accent table[ ] 中 ， 所 以 这 里 搜索 这 个 数组 并 返回 结果 (605 行 )。 返 回 的 合成 字符 则 在 
do. self( ) 中 放 入 接收 队列 。 

我 们 在 这 里 当然 不 可 能 逐 … 太 读 key_handler[ ] 中 那些 函数 的 代码 ， 读 者 可 以 自己 阅读 。 

"| $ handle scancode( ) 的 代码 中 ， 我 们 已 经 看 了 类 型 码 大 十 等 于 0xf0 时 的 人 处理 。 前 面 我 们 也 提 到 
过 , 如 果 类 型 码 小 于 0xf0 就 表示 采用 Unicode 的 UTF-8 £883, 为 方 使 阅读 , 我 们 再 把 handle scancode() 
中 有 关 的 儿 行 列 出 于 下 : 


313 } else { 

314 /* maybe only if (kbd—>kbdmode == VC UNICODE) ? */ 
315 if (tup flag && !raw mode) 

316 to utf8(keysym) ; 

317 } 


这 里 执行 to_utf8( MWAH BAS HHK, to, utfS ) 的 代码 让 drivers/char/keyboard.c 中 : 


[keyboard interrupt( ) > handle_kbd_event( ) > handle keyboard, event( ) > handle scancode( ) > to_utf8( )] 


171 void to utf8(ushort c) { 





172 if (c < 0x80) 

173 put queue(c); /* Op */ 

174 else if (c < 0x800) | 

175 put queue(0xcO | (c >> 6)); /* llOwekiek 10kkkkkk  x/ 
176 put_queue (0x80 | (c & Ox3f)): 

177 } else { 

178 put queue(OxeO | (c >> 12)); /* lllOWeek 1 Qtek Oxkkikk 。 六 / 
179 put queue(0x80 | ((c >> 6) & Ox3f)): 

180 put_queue (0x80 | (c & Ox3f)): 

181 } 

182 /* UTF-8 is defined for words of up to 31 bits, 

183 but we need only 16 bits here */ 

184} 


这 段 代码 正 好 可 以 让 读者 复习 和 消化 前 “ 节 中 讲 到 的 UTF-8 编码 。 注 意 这 里 没有 对 各 种 健 作 分 类 
处 理 ， 而 只 是 把 转换 成 的 代码 依次 放 入 接收 队列 ， 在 这 方面 有 点 像 原 始 模式 。 此 外 ， 这 里 的 Unicode 
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仍 是 一 键 一 码 ， 所 以 这 些 程序 只 能 用 于 拼音 义 字 。 

再 回 到 handle_scancode( ) 的 代码 中 ,最 后 还 有 一 种 可 能 ,就 是 key_maps[ ] 中 不 存在 由 当前 shift. final 
决定 的 码 表 (318 一 330 行 )。 既 然 没有 码 表 ， 那 就 只 好 把 输入 亚 弃 。 人 不 过 ， 前 面 已 经 根据 最 新 的 输入 改 
变 了 当前 的 位 图 key down[ ]， 也 许 最 新 的 输入 恰好 是 辅助 键 的 状态 变化 ， 因 而 也 应 该 反映 仕 位 疼 
shift, state 中 ,所 以 要 根据 位 图 key_down[ ] 的 内 容 计算 出 最 新 的 shift_state.。 我 们 再 刀 出 handle_scancode( ) 
中 有 关 的 几 行 如 下 : 


322 compute_shiftstate( ) ; 
323 kbd->slockstate = 0; /* play it safe */ 


这 里 compute, shiftstate( ) 的 代码 在 drivers/char/keyboard.c 中 : 


[keyboard, interrupt( ) > handle kbd event( ) > handle keyboard event( ) > handle scancode( ) > 
compute shiftstate( )] 


737 /* called after returning from RAW mode or when changing consoles - 

738 recompute k down[ ] and shift state from key down[ ] */ 

139 /* maybe called when keymap is undefined, so that shiftkey release is seen */ 
140 | void compute shiftstate (void) 


141 { 

742 int i, j, k, sym, val; 

743 

144 shift state = 0; 

745 for (i=0; i < SIZE(k down); i*!) 

746 k downli] = 0; 

747 

748 for(i=0; i < SIZE(key down); i++) 

749 if(key down[il) { /* skip this word if not a single bit on */ 
750 k = i*BITS PER LONG; 

751 for (j=0; j<BITS PER LONG; j++, k++) 
752 if (Lest bit(k, key_down)) { 

753 sym = U(plain_map[k]); 

754 if (KTYP (sym) == KT SHIFT || KTYP (sym) -= KT SLOCK) | 
155 val = KVAL (sym) ; 

756 if (val -= KVAL(K_CAPSSHITT) ) 
757 val - KVAL(K SHIFT) ; 

758 k down[val]++; 

759 shift state |= (1<<val); 

760 } 

761 } 

762 ) 

763  ] 


这 里 依次 扫描 位 图 key. down j 中 的 每 一 位 , 对 当前 处 于 按 下 状态 的 每 一 个 键 部 从 plain_map[ PIE 
出 其 代码 ， 看 看 是 什么 类 坦 。 加 果 是 辅助 键 或 锁定 键 则 将 shift_state 中 的 相应 位 设 成 1。 
完成 了 handle_scancode( ) 的 执行 以 后 ， 对 键盘 路 断 的 服务 也 就 基本 上 完成 了 。 
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总 而 言 之 ， 键 盘 中 断 是 由 键盘 上 的 事件 引起 的 ， 根 据 键 盘 运 行 模式 的 不 同 ， 有 些 事件 导致 字符 的 
接收 ， 有 的 则 只 引起 键盘 驱动 程序 底层 的 某 些 状态 变化 。 对 于 导致 字符 接收 的 事件 ， 所 接收 的 代码 视 
键盘 运行 异 式 的 不 同和 适用 码 表 的 不 同和 而 异 ， 分 别 可 以 是 扫描 码 、 键 码 或 者 目标 码 。 这 些 代码 通常 只 
是 一 个 字 节 ， 但 是 在 有 些 情况 下 也 癌 能 是 个 字 节 序列 。 然 而 ， 有 一 点 是 共同 的 ， 儿 是 接收 的 代码 都 通 
过 put_queue( ) 逐 个 字 节 地 放 入 “前 台 ” 键 穴 的 接收 队 询 。 这 个 函数 的 代码 在 drivers/char/keyboard.c 中 ， 


335 void put_queue (int ch) 


336 { 

337 wake up(&keypress wait); 

338 if (tty) 1 

339 tty insert flip char(tiy, ch, 0); 
340 con schedule flip(tty); 

341 } 

342  ] 


对 于 从 键盘 接收 到 而 未 经 进 -- 步 加 工 的 宁 符 ， 先 放 在 tty_struct 结 构 内 的 -个 所 谓 “flip 缓 冲 区 ”中 
(include/linux/tty_flip.h): 


{put_queue( ) > tty_insert_flip_char( )] 


10 _INLINE_ void tty insert flip char (struct tty struct **tty, 
ll unsigned char ch, char flag) 

12 { 

13 if (tty—>flip. count < TTY FLIPBUF SIZE) | 

14 tty->flip. count**; 

15 *tty >flip. flag_buf_ptr++ = flag; 

16 *tty-»flip.char buf pir** = ch; 

17 ] 

ig. j 


存 中 断 服务 的 过 程 中 ，CPU 对 从 键盘 谈 入 的 数据 进行 了 些 处 埋 和 转换 。 相 对 而 言 ， 这 些 处 理 和 
转换 都 是 很 简单 的 ， 可 以 在 很 短 的 时 间 内 完成 。 可 是 ， 对 十 产生 输入 字符 的 事件 来 说 ， 己 经 进行 的 这 
些 处 理 述 只 是 “万 里 长 征 走 完 了 第 一 步 ” 接 下 去 偿 要 进行 不 少 处 理 ， 山 且 那 些 处 理 就 比较 费时 间 了 ， 
RATER 3 音 中 讲 到 过 ， 对 于 这 种 本 应 在 中 断 服务 程序 中 进行 ， 可 是 又 比较 费时 间 的 操作 应 该 放 在 bh 
函数 中 或 者 作为 tasklet 在 比较 宽松 (允许 中 断 ) 的 条 件 下 执行 。 所以, 将 字符 放 入 flip 缓冲 区 以 后 ,还 要 
通过 con schedule flip( ) 调 度 控制 台 终端 的 tasklet 运行 (include/linux/kbd_kern.h)。 控 制 台 终 端的 tasklet 
Ab console_tasklet( )。 所 谓 凋 度 其 运行 ， 就 是 将 个 指 同 这 个 函数 的 指针 通过 个 结构 挂 入 tasklet 的 执 
行 队列 。 


[put. queue( ) > con, schedule, flip( )] 


164 extern inline void con schedule flip(struct tty struct *t) 
165 { 

166 queue_task (&t->flip. tqueue, &con_task_queue) ; 

167 tasklet_schedule (&console_tasklet) ; 
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168 } 


这 个 tasklet 定义 于 drivers/char/console.c 中 : 


2372 DECLARE TASKLET DISABLED(console tasklet, console softint, 0); 


读者 应 结合 第 3 章 中 的 有 关内 容 摘 清 其 机 埋 。 这 个 tasklet 的 执行 程序 是 console_softint( )， 其 代码 
也 在 drivers/char/console.c 中 : 


2003 /* 

2004 * This is the console switching tasklet. 

2005 * 

2006 x Doing console switching in a tasklet allows 

2007 * us to do the switches asynchronously (needed when we want 
2008 * to switch due to a keyboard interrupt). Synchronization 
2009 x with.other console code and prevention of re-entrancy is 
2010 * ensured with console lock. 

2011 x/ 

2012 static void console softint (unsigned long ignored) 

2013 { 

2014 /* Runs the task queue outside of the console lock. These 
2015 * callbacks can come back into the console code and thus 
2016 * will perform their own locking. 

2017 */ 

2018 run task queue(&con task queue); 

2019 

2020 spin lock irq(&console. lock) ; 

2021 

2022 if (want console >= 0) { 

2023 if (want console != fg console && vc cons allocated(want console)) | 
2024 hide cursor(fg console); 

2025 change console(want console); 

2026 /* we only changed when the console had already 
2021 been allocated - a new console is not created 
2028 in an interrupt routine */ 

2029 } 

2030 want console = -1; 

2031 } 

2032 if (do poke blanked console) { /* do not unblank for a LED change */ 
2033 do poke blanked console = 0; 

2034 poke blanked console( ); 

2035 } 

2036 if (serollback delta) { 

2037 int currcons - fg console; 

2038 clear selection( ); 

2039 if (vemode == KD TEXT) 

2040 sw-^con scrolldelta(vc cons[currcons].d, scrollback delta); 
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2041 scrollback delta = 0; 

2042 ] 

2043 

2044 spin unlock irq(&console lock); 
2045 |] 


进入 console softint(), dT E ^ REX. MERETET Amie BUR. 

使 用 者 通过 按 Alt EAE PS fie BEC F2) SRE IT, 其 体 的 切换 也 是 在 这 里 完成 的 , 不 过 
我 们 现在 对 此 不 感 兴趣 。 我们 在 这 里美 心 的 是 对 run_task_queue( ) 的 调用 。 这 个 队列 中 有 些 什 么 遂 数 要 
执行 呢 ? 前 面 我 们 看 到 ，con_schedule_flip( ) 中 把 相应 tty. struct 结构 中 的 flip.tqueue 持 入 了 这 个 队列 ， 
m dk dy BST FP ftm A H G initialize_tty_struct( ) 里 而 ， 则 将 其 函数 指针 设置 成 指向 
flush_to_ldisc( )， 这 个 函数 的 代码 在 drivers/char/tty_io.c 中 : 





[console softint( ) > run task queue( ) > flush to ldisc( )] 


1863 /* 

1864 * This routine is called out of the software interrupt to flush data 
1865 * from the flip buffer to the line discipline 

1866 */ 

1867 static void flush to ldisc(void *private ) 

1868 { 

1869 struct tty struct *tty = (struct tly struci *) private ; 
1870 unsigned char  -*cp; 

1871 char *fp; 

1872 int count; 

1873 unsigned long flags; 

1874 

1875 if (test bit(TTY DONT FLIP, &tty->flags)) { 

1876 queue task(&tty-^flip.tqueue, &tq timer); 
1877 return; 

1878 ] 

1879 if (tty->flip. buf num) { 

1880 cp = tty->flip. char buf + TTY FLIPBUF SIZE; 
1881 fp = tty->flip. flag buf + TTY FLIPBUF STZR， 
1882 tty: >flip. buf_num = 0; 

1883 

1884 save [lags (flags); cli( ); 

1885 tty-> 门 ip. char_ buf ptr = tty->flip. char_buf; 
1886 tty->flip. flag buf ptr - tty-^flip.flag buf; 
1887 b else { 

1888 cp = tty—>flip. char_buf; 

1889 fp = tty->flip. flag buf; 

1890 tty->tlip. buf num = l; 

1891 

1892 save flags(flags); cli( ): 

1893 tty-^flip.char buf ptr = tty— flip.char buf ! TTY FLTPBUF SIZE; 
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1894 tty >flip.flag buf ptr > tty-^flip.flag buf + TTY FLIPBUF SIZH; 
1895 j 

1896 count = tty->flip. count; 

1897 tty-^flip.count = 0; 

1898 restore flags(flags); 

1899 

1900 tty—>ldise. receive buf (tty, cp, fp, count); 

1901 ] 


这 个 函数 的 任务 是 通过 tty->Idisc.receive_buf( )M flip 缓冲 区 小 把 数据 搬 这 刘 另 一 个 缓冲 区 中 ， 同 
时 如 以 处 理 。 

可 是 ， 这 里 隐 含 者 .个 问题 。 我 们 知道 ，tasklet 在 执行 过 程 中 是 允许 中 凿 的 (否则 斌 没有 意义 了 )， 
如 果 flush_to_ldisc( ) 止 在 从 一个 缓冲 区 往外 读数 据 , 说 下 杂 又 发 竺 了 键 捞 中 断 , 从 而 又 通过 put_queue( ) 
TA APR Bm Se, MORALS BE? 吕 是 ， 我 们 所 熟知 的 一 些 保 证 互 矿 的 办 法 在 这 里 却 都 用 
不 上 。 首 先 ，tasklet 各 中断 服务 程序 都 不 是 在 某 个 进程 的 上 下 文中 ， 因 而 不 能 睡 虑 。 其 次 。 加 锁 也 行 
不 通 ， 因 为 这 二 者 可 能 (在 单 CPU 的 系统 中 则 肯定 ) 由 同 … 个 CPU 执行 。 当 然 ， 可 以 在 执行 的 过 程 中 关 
闭 中 断 以 免 打 扰 , 可 是 那样 又 违背 了 设置 和 使 用 tasklet BUB) . 这 蛙 的 解决 办 法 是 采用 “ 双 绥 六 ”， 
即 交 替 使 用 两 个 缓冲 区 。 这 就 好 像 翻 来 敌 去 使 用 - 张 纸 的 两 向- 样 ， 我 在 用 这 一 面 就 让 你 用 男 一 面 ， 
等 我 用 完 这 一 面 就 再 翻 个 面 . 正 因为 这 样 , 才 称 之 为 “hip ”缓冲 区 , 其 数据 结构 定义 十 include/linux/tty.h: 


139 struct tty flip buffer { 


140 struct tq struct tqueue; 

141 struct semaphore pty sem; 

142 char *char buf ptr; 

143 unsigned char *flag buf ptr; 

144 int count; 

145 int buf_num; 

146 unsigned char char buf[2*TTY FLTPBUF SIZE]; 

147 char flag buf[2*TTY FLIPBUF SIZE]; 

148 unsigned char slop[4]; /* N.B. bug overwrites buffer by 1 */ 
149 H 


可 匈 ， 缓 冲 区 char buf[ ] 的 大 小 是 TTY FLIPBUF SIZE Wifi, AMIA RKA. 5 
char_buf[ ] 相 平行 还 有 一 个 数组 flag_buf[ ]， 一 个 字符 总 是 与 “个 flag 字 节 配对 的 ， 不 过 从 put_queue( ) 
调用 tty insert flip char( ) 时 总 是 把 flag 字 节 设 成 0。 指 针 char buf ptr 和 flag buf ptr 都 是 给 
tty_insert_flip_char( ) 使 用 的 , 而 flush, to Idisc( ) 中 对 这 些 指 针 的 设置 就 起 着 把 纸 翻 一 个 而 的 作用 。 当然 ， 
这 种 方法 也 是 有 缺点 的 ， 那 就 是 实际 上 把 缓冲 区 的 容量 减 小 了 一 平 :而 tty_insert_flip_char( ) 在 发 现 组 
冲 区 已 满 的 情况 下 就 会 把 接收 到 的 字符 丢 齐 。 所 以 ， 在 flush_to_ldisc( ) 中 保留 了 PHA, WRI 
tty. struct 结构 中 的 标志 位 TTY_DONT_FLIP 设 成 1， 那 就 把 要 执行 的 函数 转 到 tq_timer 队列 中 去 ， 让 
它 在 时 钟 中 汤 时 在 关中 断 的 条 件 下 执行 。 在 前 面 read_chan( ) 的 代码 中 ， 我 们 看 到 当 高 层 从 缓冲 区 读 出 
时 就 把 TTY_DONT_FLIP 标志 位 设 成 1， 进入 唾 限时 便 把 它 改 为 0。 
具体 的 操作 取决 十 相应 tty_ldisc 数据 结构 中 的 函数 指针 receive_buf。 对 二 tty_ldisc N_TTY 而 言 ， 
这 个 指针 指向 n_tty_receive_buf( )， 其 代码 在 drivers/char/n tty.c T: 
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[console softint( ) > run_task_queue( ) > flush, to ldisc( ) > n_tty_receive_buf( )] 


705 static void n tty receive buf (struct tty struct *tty, const unsigned char *cp, 


106 char *fp, int count) 

707 d 

108 const unsigned char *p; 

709 char *f, flags = TTY NORMAL; 

710 int i; 

71i char buf [64] ; 

712 unsigned long cpuflags; 

713 

714 if (!tty->read_buf) 

715 return; 

716 

717 if (tty—->real raw) { 

718 spin lock irqsave(&tty—>read_lock, cpuflags) ; 

719 i = MIN(count, MIN(N TTY BUF SIZE - tty—-^read cnt, 
720 N TTY BUF SIZE - tty->read_head)) ; 

721 memcpy (tty->read_buf + tty-^read head, cp, i); 
722 tty-^read head = (tty->read head + i) & (N TTY BUF SIZE-1) ; 
123 tty-^read cnt += i; 

124 cp += i; 

725 count —= i; 

726 

727 i = MIN(count, MIN(N TTY BUF SIZE - tty-^read cnt, 
728 N TTY BUF SIZE ~ tty—>read_head)) ; 

729 memcpy (tty->read_buf + tty—>read_head, cp, i); 
730 tty->read_head = (tty->read_head + i) & (N TTY BUF SIZE-1); 
731 tty—>read_cnt t= i; 

132 spin unlock irqrestore(&tty-5read lock, cpuflags); 
733 } else { 

734 for (i=count, p = cp, f = fp; i; i--, p++) { 

735 if (£) 

736 flags = *f++; 

737 switch (flags) { 

738 case TTY NORMAL: 

739 n tty receive char(tty, *p); 

740 break; 

741 case TTY BREAK: 

742 n tty receive break (tty); 

743 break; 

744 case TTY PARITY: 

745 case TTY FRAME: 

746 n tty receive parity error(tty, *p); 

747 break; 

748 case TTY OVERRUN: 

749 n tty receive overrun(tty); 

150 break; 
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Tol default: 

152 printk(“%s: unknown flag %d\n”, 

753 tty_name(tty, buf), flags); 

754 break; 

755 } 

756 } 

757 if (tty->driver. flush chars) 

758 tty—^ driver. flush chars(tty) ; 

759 ) 

160 

761 if (Itty->icanon && (tty—->read_cnt >= tty->minimum_to_wake)) { 
762 kill fasync(&tty-^fasync, SIGIO, POLL IM); 

763 if (waitqueue active(&tty-^read wait)) 

164 wake up interruptible(&tty-^read wait); 

765 } 

766 

767 /* 

768 * Check the remaining room for the input canonicalization 
769 * mode. We don't want to throttle the driver if we're in 
770 * canonical mode and don’t have a newline yet! 

771 */ 

772 if (n_tty_receive_room(tty) < TTY THRESHOLD THROTTLE) { 
773 /* check TTY THROTTLED first so it indicates our state */ 
774 if (!test and set bit(TTY THROTTLED, &tty-^flags) && 
775 tty->driver. throttle) 

776 tty—>driver. throttle(tty) ; 

777 } 

"78 ] 


终端 的 tty. struct 结构 中 有 raw 和 real raw 两 个 字段 , 都 表示 终端 层次 上 的 原始 模式 , 但 是 real raw 
更 为 原始 ， 表 示 即 使 在 链 路 上 出 现 了 Break 状态 ， 或 者 接收 到 的 数据 有 奇偶 校 验 出 错 ， 也 都 原封 不 动 
上 交 。 具 体 的 设置 取决 于 所 用 的 termio， 但 可 以 通过 系统 调用 oct ) 加 以 改变 (命令 码 为 TCSETSF)。 
不 过 ， 对 于 控制 台 终 端 这 二 者 实际 上 没有 多 大 区 剂 。 

可 想 而 知 ， 对 于 运行 于 real raw 模式 的 终端 ， 只 要 把 flip 缓冲 区 中 的 内 容 复制 到 终端 的 read. buf[ ] 
缓冲 区 中 就 可 以 了 (718 一 732 £D). 否则 就 要 通过 734 一 756 行 的 for 循环 逐个 字 节 地 边 搬 运 边 处 理 加 工 ， 
这 就 是 比较 费时 间 的 操作 所 在 。 

如 前 所 述 , flip 缓冲 区 中 的 代码 字 节 都 是 与 一 个 flag 字 节 配对 存在 的 , 这 个 flag 字 节 指明 了 代码 字 
节 的 性 质 和 类 型 。 不 过 ， 由 tty_insert_flip_char( )3 flip 缓冲 区 时 总 是 把 相应 的 flag 字 节 设 成 0， 就 是 
这 里 的 TTY_NORMAL， 所 以 总 是 调用 n_tty_receive_char( )， 其 代码 也 在 drivers/char/n tty.c 中 。 这 个 
函数 比较 长 ， 我 们 需要 分 段 阅 读 。 | 


[console_softint( ) > run, task queue( ) > flush to ldisc( ) > n tty receive buf()»n tty receive char( )] 


500 static inline void n tty receive char(struct tty struct *tty, unsigned char c) 
501 { 
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502 
503 
504 
505 
506 
507 
508 
509 
510 
511 
512 
513 
514 
515 
516 
517 
518 
519 
520 
521 
522 
523 
524 
525 
526 
521 
528 
529 
530 
531 
532 
533 
334 
535 
536 
537 
538 
539 
540 
541 
542 
543 
544 
545 
546 
547 
548 
049 
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if (tty-^raw) | 
put tty queue(c, tty); 
return; 


if (tty-^stopped && !tty->flow stopped && 
I IXON(tty) && T UXANY(tty)) ( 
start tty(tty); 
return; 


if (I ISTRIP(tty)) 
c &= OxTf; 

if (T TUCLC(tty) && L IEXTEN(tty)) 
c=tolower (c); 


if (tty closing) { 
if (I_IXON(tty)) { 
if (c == START CHAR(tty)) 
start tty(tty); 
else if (c == STOP CHAR(tty)) 
stop tty(tty); 


} 


return; 


* If the previous character was LNEXT, or we know that this 
"* character is not one of the characters that we'll have to 
* handle specially, do shortcut processing to speed things 
* up. 
*/ 
if (Itest bit(c, &tty->process char map) |. tty-^lnext) { 
finish erasing(tty) ; 
tty-^lnext = 0; 
if (L_ECHO(tty)) { 
if (tty->read cnt >= N TTY BUF SIZE-1) | 
put char( \a’, tty); /* beep if no space */ 
return: 
} 
/* Record the column of first canon char. */ 
if (tty-^canon head == tty-^read head) 
tty-^canon column = tty->column; 
echo char(c, tty); 
} 
if (I PARMRK (tty) && c == (unsigned char) ' X377) 
put tty queue(c, tty): 
put tty queuc(c, tty); 
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550 return; 
551 ) 
552 


首先 ， 如 果 终 端 运 行 于 原始 模式 ， 就 只 是 简单 地 将 从 flip 缓冲 区 读 出 的 字符 写 入 终端 的 read. buf[ ] 
缓冲 区 。 


[console_softint( ) > run_task_queue( ) > flush_to_ldisc( ) > n_tty_receive_buf( ) 
»n tty receive char( ) > put tty queue( )] 


89 static inline void put tty queue(unsigned char c, struct tty struct *LLy) 
90 { 


91 unsigned long flags; 

92 /* 

93 * The problem of stomping on the buffers ends here. 
94 * Why didn’t anyone see this one comming? —-AJK 

95 */ 

96 spin lock irqsave(&tty-^read lock, flags); 

97 if (tty-^»read cnt < N TTY BUF STZE) { 

98 tty-^read buf[tty-^read head] = c; 

99 tty-?read head = (tty->read_head + 1) & (N TTY BUF SIZE-1); 
100 tty-^read cntt+; 

101 } 

102 spin_unlock_irqrestore(&tty->read_lock, flags); 
103} 


终端 的 read_buff ] 缓 冲 区 是 个 环形 缓冲 区 ，tty->read_head 总 是 指向 下 一 个 可 以 写 入 的 位 置 。 如 果 
read_buf[ ] 中 已 经 写 满 ， 则 于 痉 新 来 到 的 输入 。 

对 于 非 原始 模式 ， 或 称 “ 加 工 模式 ”， 则 要 进行 .系列 的 处 理 。 这 些 处 理 包 括 一 般 的 和 特殊 的 两 部 
分 。 前 者 包括 终端 的 自动 暂停 (进入 省 电 模 式 ) 和 启动 、 强 制 转换 成 小 写字 符 、 往 显示 屏幕 .F“ 回 打 ” 等 。 
后 者 则 包括 许多 因 具 体 字 符 而 异 的 处 理 ， 其 中 也 包括 基于 XON/XOFF 字符 (一 般 是 Ctrl-Q 和 Ctrk-S) 的 
流量 控制 。 

不 过 ， 真 正 要 加 以 特 冻 处 理 的 字符 毕竟 还 是 少数 ，tty_struct 结构 中 的 位 图 process char map 指明 
了 需 归 特殊 处 理 的 字符 。 只 要 一 个 字符 不 属于 这 个 位 图 所 代表 的 集合 , 对 其 进步 的 处 理 就 只 限于 “ 回 
打 ”， 然 后 就 通过 put_tty_queue( ) 把 该 字符 号 入 read_buf[ ] 缓 冲 区 (535 一 550 行 )。 如 果 此 前 的 字符 是 个 
“erase ”字符 (如 键盘 上 的 Backspace 键 )， 则 终端 处 于 正在 退学 符 的 状态 ， 现 在 新 的 字符 既然 不 属于 
process_char_map， 就 显然 不 再 是 “erase” 字 符 ， 所 以 先 调用 finish_erasing( ) 结 束 终端 的 退 字符 状态 ， 
然后 就 是 对 “ 回 打 ”的 处 理 了 。 

如 果 终 端的 模式 设置 表明 需要 |r| 打 ， 就 调用 echo_char( ) 完 成 这 个 操作 。 但 是 先 要 检查 一 下 
read_buf[ ] 缓 剖 区 中 是 否 还 有 空位 可 以 接受 当前 的 字符 。 如 果 已 经 满 了 就 要 问 显示 髓 接口 写 一 个 “\a” 
字符 , 让 它 “ 嘟 ”地 响 一 下 , 以 免 使 用 者 误 以 为 打 入 的 字符 已 被 接受 。 注意 不 要 把 这 里 调用 的 put_char( ) 
与 应 用 程序 设计 中 的 C 库 函 数 混淆 ， 这 是 个 inline HRG N T drivers/char/n tty.c: 


[console_softint( ) > run task queue( ) > flush to ldisc( ) > n_tty_receive_buf( ) > n_tty_receive_char( ) > 
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put. char( )] 


301 static inline void put_char (unsigned char c, struct tty struct *tty) 
302 { 

303 tty~>driver. put_char (tty, c); 

304  ] 


显然 ， 具 体 的 操作 取决 于 相应 tty. driver 结构 中 的 函数 指针 put_char， 对 于 一 般 的 终端 设备 这 个 指 
针 指 向 tty_default_put_char( )， 等 - :下 我 们 还 要 看 这 个 函数 的 代码 。 
函数 echo_char( ) 的 代码 在 drivers/char/n_tty.c FP: 


[console softint( ) > run_task_queue( ) > flush to ldisc( ) > n tty receive buf() 
»n tty receive char( ) > echo. char( )] 


308 static void echo char(unsigned char c, struct tty struct *tty) 
309 { 


310 if (L ECHOCTL(tty) && iscntrl(c) && c !=’\t’) f 
311 put char( ^", tty); 

312 put char(c ^ 0100, tty); 

313 tty-^column += 2; 

314 } else 

315 opost(c, tty); 

316  ] 


对 于 输入 时 同时 按 下 了 Ctrl 键 的 字符 ， 回 打 时 要 企 该 字符 之 前 如 上 一 个 “^” 学 符 。 对 正常 输入 的 
字符 则 还 需要 进一步 的 特殊 处 理 ， 情 况 更 为 复杂 ， 所 以 通过 opost ) 完 成 回 打 ， 其 代码 也 在 
drivers/char/n_tty.c P; 


[console softint( ) > run_task_queue( ) > flush to ldisc( ) > n tty receive buf() 
2n tty receive char( ) > echo. char( ) > opost( )] 


172 /* 

173 * Perform OPOST processing. Returns -1 when the output device is 
174 * full and the character must be retried. 

175 */ 

176 static int opost (unsigned char c, struct tty struct *tty) 
177 f 

178 int space, spaces; 

179 

180 space = tty~>driver. write room(tty); 

181 if (!space) 

182 return -1; 

183 

184 if (0 OPOST(tty)) { 

185 switch (c) ( 

186 case ’\n’: 

187 if (0 ONLRET(tty)) 
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188 tty->colum = 0; 

189 if (0 ONLCR(tty)) | 

190 if (space < 2) 

191 return -1; 

192 tty- driver. put char(tty, 'Wr'); 
193 tty->column = 0; 

194 } 

195 tty->canon_column = tty->column; 

196 break; 

197 case ”NI : 

198 if (0 ONOCR(tty) && tty->column == 0) 
199 return 0; 

200 if (0 OCRNL(tty)) | 

201 c='\n; 

202 if (O_ONLRET (tty) ) 

203 tty->canon_column = tty~>column = 0; 
204 break ; 

205 } 

206 tty-^canon column = tty->column = 0; 
207 break: 

208 case ’\t’: 

209 spaces = 8 - (tty-^column & 7); 

210 if (0 TABDLY(tty) == XTABS) { 

211 if (space < spaces) 

212 return -l; 

213 tly->column += spaces; 

214 tty—>driver. write(tty, 0, ^ ^, Spaces); 
215 return 0; 

216 } 

217 tty->column += spaces; 

218 break; 

219 case ’\b’: 

220 if (tty->column > 0) 

22) tty->column-—; 

222 break ; 

223 default: 

224 if (0 OLCUC(tty)) 

225 c = toupper (c) : 

226 if (lisentrl(c)) 

221 Lty->column++; 

228 break; 

229 } 

230 } 

231 tty->driver. put_char(tty, c); 

232 return 0; 

233 } 
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进行 的 。 对 寺 “ 换 行 ” WE "wn" IDFR EEDA A HS “TAL? ERP Ar”, OE I BARS 
WE BEE CEH MATE. GRY RA, RAST. Gn, t putchar) df, 也 是 
通过 相应 tty. driver 结构 中 的 函数 指针 put. char 完成 对 终端 显示 器 的 写 操 作 。 对 十 -一 般 的 终端 设备 ， 这 
个 指针 指向 tty. default put. char( )， 上 其 代 信 还 赴 在 drivers/char/tty_io.c "P: 


[console softint( ) > run_task_queue( ) > flush to ldisc( ) > n_tty_receive_buf( ) 
»n tty receive char( ) > echo char( ) > opost( ) > tty default, put. char( )] 


1979 /* 
1980 * The default put_char routine if the driver did not define one. 
1981 */ 


1982 void tty default put char(struct tty struct *tty, unsigned char ch) 
1983 { 

1984 tty odriver. write(tty, 0, &ch, 1); 

1985 } 


XX X f& EP RET LH]. PT PR, AAKI con write( )， 其 代码 在 


drivers/char/console.c !|!: 


[console softint( ) > run, task queue( ) > flush to ldisc( ) > n tty. receive buf( ) 
»n tty receive char( ) > echo char( ) > opost( ) > tty. default put char( ) > con. write( )] 


2217 static int con_write (struct tty struct * tty, int from user, 
2218 consi unsigned char *buf, int count) 

2219 { 

2220 int retval; 

2221 

2222 pm access(pm con); 

2223 retval © do con write(tty, from user, buf, count); 
2224 con flush chars (tty) ; 

2225 

2226 return retval; 

2227 |] 


注意 这 里 的 第 二 个 参数 from_user， 当 这 个 参数 为 1 时 表示 要 写 的 内 容 来 自用 户 空 间 ， 为 0 时 则 来 
自 系 统 空 间 。 指 针 buf 指向 要 写 的 字符 缓冲 区 count 则 为 长 度 。 显 然 ， 这 个 明 数 是 个 汇合 点 ，“: 边 是 
系统 调用 read( ) 中 的 叫 打 操作 ， 另 一 边 则 是 常规 的 系统 调用 write( )。 

操作 的 主体 是 do_con_write( )， 也 在 drivers/char/tty_io.c |: IX ERE X EERE, OA ERR. 
[console softint( ) > run task queue( ) > flush to ldisc( ) > n tty, receive buf( ) 


2n tty receive char( ) > echo char( ) > opost( ) > tty default. put, char( ) > con. write( ) 
» do con, write( )] 


1807 static int do con write(siruct tty struct * tty, int from usor, 
1808 const unsigned char *buf, int count) 
1809 { 
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Hifdef VT BUF VRAM ONLY 

Hdefine FLUSH do { } while(0); 
Helse 

define FLUSH if (draw x >= 0) [V 


sw-^con putes(ve cons[currcons].d, (ul6 *)draw from, V 
(ul6 *) draw to-(ul6 *)draw from, y, draw x): \ 
draw x = -1; \ 
} 
Hendif 
int c, tc, ok, n = 0, draw x = ~l; 


unsigned int currcons; 

unsigned long draw from = 0, draw to - 0; 

struct vi struct *vt = (struct vt struct *)tty— driver data; 
ul6 himask, charmask; 

const unsigned char *orig buf = NULL; 

int orig count; 


currcons - vt—?vc num; 
if (!vc cons allocated(currcons)) f 
/* could this happen? */ 


static int error = 0; 

if (terror) | 

error - 1; 

printk( con write: iiy %d not allocated\n”, currcons*l); 
} 

return 0; 


orig buf = buf; 
orig count = count; 


if (from user) { 
down(&con buf sem); 


again: 
if (count > CON BUF SIZE) 
count = CON BUF SIZE; 
if (copy from user(con buf, buf, count)) | 
n = 0; /* ?? are error codes legal here ?? */ 
goto out; 


buf = con buf; 


这 一 段 程序 比较 简单 ， 主 要 是 从 用 户 空间 把 输出 数据 复制 到 内 核 中 。 对 十 我 们 这 个 情景 ， 输 出 数 
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据 本 来 就 在 内 核 中 ， 所 以 实际 上 不 起 作用 。 我 们 继续 往 下 看 : 


[console, softint( ) > run_task_queue( ) > flush_to_ldisc( ) > n tty receive buf() > n_tty_receive_char( ) > 
echo char( ) > opost( ) > tty default put char( ) > con write( ) > do. con. write( )] 


1855 /* At this point 'buf' is guarenteed to be a kernel buffer 
1856 * and therefore no access to userspace (and therefore sleeping) 
1857 * will be needed. The con buf sem serializes all tty based 
1858 * console rendering and vcs write/read operations. We hold 
1859 * the console spinlock during the entire write. 
1860 */ 

1861 

1862 spin lock irq(&console lock); 

1863 

1864 himask - hi font mask; 

1865 charmask = himask ? Oxiff : Oxff; 

1866 

1867 /* undraw cursor first */ 

1868 if (TS FG) 

1869 hide_cursor (currcons) ; 

1870 

1871 while (!tty->stopped && count) { 

1872 c = *buf; 

1873 buf++; 

1874 ntt; 

1875 count—-; 

1876 

1877 if (utf) ( 

1878 /* Combine UTF-8 into Unicode */ 

1879 /* Incomplete characters silently ignored */ 
1880 if(c > Ox7f) { 

1881 if (utf count > 0 && (c & 0xc0) == 0x80) { 
1882 utf char = (utf char << 6) | (c & Ox3f): 
1883 utf count--; 

1884 if (utf count == 0) 

1885 te = c = utf char; 

1886 else continue; 

1887 } else { 

1888 if ((c & Oxe0) == OxcO) { 

1889 utf_count = 1; 

1890 utf char = (c & Oxlf): 

1891 ) else if ((c & Oxf0) == Oxe0) { 

1892 utf count - 2; 

1893 utf char = (c & Ox0f); 

1894 } else if ((c & Oxf8) == Oxf0) { 

1895 utf count = 3; 

1896 utf char = (c & 0x07); 

1897 | else if ((c & Oxfc) == Oxf8) { 


- 402 . 


第 8 章 设备 驱动 


一 一 


1898 utf count = 4; 

1899 utf char = (c & 0x03); 

1900 } else if ((c & Oxfe) == Oxfc) 1 
1901 utf count = 5; 

1902 utf char = (c & 0x01); 

1903 } else 

1904 utf count = 0; 

1905 continue; 

1906 } 

1907 } else { 

1908 tc = c; 

1909 utf count = 0; 

1910 } 

1911 ) else { /* no utf */ 

1912 tc = translate[toggle meta ? (c|0x80) : c]; 
1913 } 


先 通 过 hide cursor( ) 把 光标 隐 去 ， 然 后 就 是 对 输出 数据 的 while 循环 。 这 里 的 utf 是 个 宏 定义 ， 定 


义 于 drivers/char/console macros.h: 


26 #define utf (ve cons[currcons]. d->ve_utf) 
27 #define utf count — (vc cons[currcons]. d-^vc utf count) 
28 Sdefine utf char (vc cons[currcons]. d->vc_utf_char) 


就 是 说 ， 如 果 当 前 (前 台 ) 虚 拟 控制 台 终端 运行 于 UTF-8 模式 ， 则 要 把 UTF-8 代码 还 原 成 16 位 的 
Unicode， 最 后 存放 在 变量 tc 中 。 我 们 把 这 段 程序 留 给 读者 与 前 面 的 to_utf8( ) 对 照 移 读 ， 这 里 仅 关 注 普 
通 的 8 位 代码 。 用 于 显示 的 字符 统一 为 16 位 Unicode, 一 般 的 8 位 字符 要 通过 一 个 数组 变换 成 Unicode， 
这 里 的 translate 在 drivers/char/console, macros.h 中 定义 成 当前 终端 的 变换 数组 。 


21 Hdefine translate (ve cons[currcons]. d->ve_translate) 


每 个 虚拟 控制 台 的 vc. data 数据 结构 中 有 个 指针 vc_translate， 指 向 一 个 大 小 为 256 的 数组 ，8 位 的 
ASCI 或 其 他 代码 可 以 通过 这 个 数组 转换 成 16 位 Unicode. 内 核 中 有 个 二 维 数组 translationsl 1L]; 定义 
于 drivers/char/consolemap.c， 我 们 在 这 里 只 列 出 其 中 者 干 片 断 : 


24 static unsigned short translations[ ![256] = | 


25 /* 8-bit Latin-1 mapped to Unicode — trivial mapping */ 

26 { 

27 0x0000, 0x0001, 0x0002, 0x0003, 0x0004, 0x0005, 0x0006, 0x0007 
28 0x0008, 0x0009, 0x000a, 0x000b, 0x000c, 0x000d, 0x000e, Ox000f, 
59 h 

60 /* VT100 graphics mapped to Unicode */ 

61 { 
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94 P 

95 /* IPM Codepage 437 mapped to Unicode */ 

96 { 

97 0x0000, 0x263a, 0x263b, 0x2665, 0x2666, 0x2663, 0x2660, 0x2022, 
98 0x25d8, Ox25cb, 0x25d9, 0x2642, 0x2640, 0x266a, Ox266b, 0x263c, 
129 ls 

130 /* User mapping — default to codes for direct font mapping */ 
131 { 

132 Oxf000, Oxf001, Oxf002, Oxf003, Oxf004, Oxf005, Oxf006, Oxf007, 
133 Oxf008, Oxf009, Oxf00a, Oxf00b, Oxf00c, Oxf00d, Oxt00e, OxfOO0f 
164 } 

165 }; 


这 个 二 维 数组 中 包含 着 4 个 字符 转换 数组 ， 每 个 虚拟 控制 台 的 指针 vc translate 指向 其 中 的 一 个 ， 
可 以 道 过 系统 调用 ioctl( ) 来 改变 。 不仅 如 此 ,还 可 以 通过 ioctl( ) 从 用 户 空间 下 载 (或 上 载 ) 用 户 定义 的 字 
符 转 换 数 组 来 覆盖 原 有 的 数组 ,也 可 以 下 载 (或 上 载 ) 用 户 定义 的 字库 。 虚 拟 控 制 台 的 ioctl( ) 函 数 vt_ioctl( ) 
是 个 堪 称 巨型 的 函数 ， 其 代码 达 700 行 之 多 ,提供 了 各 种 各 样 的 功能 ，/usr/bin 日 录 下 的 setfont. 
setkeycodes, loadkeys 等 工具 就 是 建立 在 这 个 系统 调用 的 基础 上 。 由 于 篇 幅 的 限制 ， 我 们 在 这 里 就 不 看 
这 个 函数 了 , 有 兴趣 或 带 要 的 读者 可 自行 阅读 对 二 translations ][ ] 中 的 第 -个 字符 转换 数组 , 即 ASCII 
字符 (或 “Latin-1”) 的 转换 数组 ， 所 作 的 转换 实际 上 就 是 保持 原 值 不 变 ， 只 不 过 是 从 8 位 变 成 了 16 位 ， 
从 代码 中 可 以 看 出 ， 每 个 字符 转换 数组 的 大 小 是 236， 所 以 只 能 支持 拼音 文字 ， 而 不 能 支持 CKV (中 
口 朝 越 ) 等 此 拼音 文字 。 

总 之 ， 现 在 变量 te 中 是 待 显示 字符 的 16 位 Unicode, MER e 中 则 是 该 字符 原来 的 8 位 代码 。 我 
们 继续 往 下 看 (drivers/char/console.c);: 


[console softint( ) > run_task_queue( ) > flush, to ldisc( ) > n tty receive buf()-n tty receive char( ) > 
echo char( ) > opost( ) > tty. default. put char( ) > con, write( ) > do, con. write(-)] 


1914 

1915 /* if the original code was a control character we 
1916 * only allow a glyph to be displayed if the code is 
1917 * not normally used (such as for cursor movement) or 
1918 * if the disp ctri mode has been explicitly enabled 
1919 * Certain characters (as given by the CTRL ALWAYS 
1920 * bitmap) are always displayed as control characters, 
1921 * as the console would be pretty useless without 
1922 * them; to display an arbitrary font position use the 
1923 * direct-to-font zone in UTF-8 mode. 

1924 */ 

1925 ok = tc && (c >= 32 || 

1926 (lutf && !(((disp ctrl ? CTRL ALWAYS 

1927 : CTRL ACTION >> c) & 1))) 
1928 && (c !- 127 i| disp ctrl) 
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1929 
1930 
1931 
1932 
1933 
1934 
1935 
1936 
1937 
1938 
1939 
1940 
1941 
1942 
1943 
1944 
1945 
1946 
1947 
1948 
1949 
1950 
1951 
1952 
1953 
1954 
1955 
1956 
1957 
1958 
1959 
1960 
1961 
1962 
1963 
1964 
1965 
1966 
1967 
1968 
1969 
1970 
197] 
1972 
1973 
1974 
1975 
1976 


&& (c !- 128427) ; 


if (vc state == ESnormal && ok) { 
/* Now try to find out how to display it */ 
tc = conv uni to pc(vc cons[currcons]. d, tc); 
if (tc == 4) { 
/* If we got -4 (not found) then see if we have 
defined a replacement character (U+FFFD) */ 
tc = conv uni to pc(vc cons[currcons].d, Oxfffd);. 


/* One reason for the -4 can be that we just 
did a clear unimap( ); 
try at least to show something. */ 
if (tc == -4) 
tc = c; 
) else if ( tc == -3 ) { 
/* Bad hash table -- hope for the best */ 
tc = c; 
} 
if (tc & "charmask) 
continue; /* Conversion failed */ 


if (need wrap || decim) 
FLUSH 
if (need wrap) | 
cr (currcons) ; 
1f (currcons) ; 
] 
if (decim) 
insert char(currcons, 1); 
scr writew (himask ? 


((attr << 8) & "himask)*((tc & 0x100) ? himask : 0)+(tc & Oxff) 


(attr << 8) + tc, 
(ul6 *) pos); 
if (DO UPDATE && draw x < 0) { 
draw x = X; 
draw from - pos; 
} 
if (x == video num columns - 1) { 
need wrap = decawm; 
draw to = pos+2; 


} else { 
Att: 
draw to = (post-2); 
} 
continue; 
} 
FLUSH 
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1977 do con trol(tty, currcons, c); 

1978 } 

1979 FLUSH 

1980 spin unlock irq(&console lock); 

1981 

1982 out: 

1983 if (from user) ( 

1984 /* If the user requested something larger than 
1985 * the CON BUF SIZE, and the tty is not stopped, 
1986 * keep going. 

1987 */ 

1988 if ((orig count > CON BUF SIZE) && !tty->stopped) { 
1989 orig count — CON BUF SIZE; 

1990 orig buf += CON BUF SIZE; 

199] count = orig count; 

1992 buf = orig buf; 

1993 goto again; 

1994 } 

1995 

1996 up(&con buf sem); 

1997 } 

1998 

1999 return n; 

2000 #undef FLUSH 

2001 } 


并 不 是 所 有 的 字符 都 可 以 显示 ， 所 以 1925 行 根据 字符 转换 前 后 的 数值 确定 是 否 可 以 显示 。 如 果 转 
换 前 字符 的 数值 小 于 32， 即 “空格 ” 那 就 是 控制 字符 ， 一 般 情 况 下 是 不 能 显示 的 。 如 果 字 符 可 以 显示 
(ok 为 D)， 虚 拟 控制 台 又 处 于 正常 工作 状态 ， 就 可 以 进一步 处 理 字符 的 显示 了 。 

对 于 虚拟 控制 台 ， 系 统 的 图 形 卡 工作 于 字符 模式 ， 最 终 写 入 图 形 卡 的 是 一 个 16 位 短 字 ， 其 低 字 节 
是 字符 本 身 的 代码 ， 高 字 节 则 为 字符 的 “属性 ” 字符 的 “属性 ”决定 着 显示 该 字符 时 的 亮度 、 颜 色 等 
要 素 。 所 以 ， 最 后 还 得 把 字符 转换 成 用 于 图 形 卡 的 8 位 代码 ， 这 种 转换 是 由 conv_uni_to_pe( ) 完 成 的 ， 
其 代码 在 drivers/char/consolemap.c 中 : 


635 int ' 

636 conv uni to pc(struct vc data *conp, long ucs) 

637 { 

638 int h; 

639 ul6 **pl, *p2; 

640 struct uni pagedir *p; 

641 

642 /* Only 16-bit codes supported at this time */ 

643 if (ucs > Oxffff) 

644 ucs = Oxfffd; /* U+FFFD: REPLACEMENT CHARACTER */ 
645 else if (ucs < 0x20 || ucs >= Oxfffe) 

646 return -1: /* Not a printable character */ 
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647 else if (ucs == Oxfeff || (ucs >= 0x200a && ucs <= 0x200f)) 
648 return -2; /* Zero-width space */ 

649 /* 

650 * UNI DIRECT BASE indicates the start of the region in the User Zone 
651 * which always has a 1:1 mapping to the currently loaded font. The 
652 * UNI DIRECT MASK indicates the bit span of the region. 
653 */ 

654 else if ((ucs & "UNT DIRECT MASK) == UNI DIRECT BASE) 

655 return ucs & UNI DIRECT MASK; 

656 

657 if (!*conp->ve_uni pagedir loc) 

658 return -3; 

659 

660 p = (struct uni pagedir *)*conp->vc uni pagedir loc; 

661 if ((pl = p2uni pgdirlues >> 11]) && 

662 (p2 = pl[(ucs >> 6) & Ox1f]) && 

663 (h = p2[ucs & Ox3f]) < MAX GLYPH) 

664 return h; 

665 

666 return -4; /* not found */ 

667 ) 


这 个 函数 的 主体 是 660—664 行 。 虚 拟 控制 台 的 ve_data 数据 结构 中 还 有 个 指针 ve uni. pagedir loc, 
指向 一 个 uni pagedir 数据 结构 ， 这 是 在 drivers/char/consolemap.c 中 定义 的 : 


174 struct uni pagedir { 


175 ul6 **uni pgdir[32]: 

176 unsigned long refcount; 

177 unsigned long sum; 

178 unsigned char *inverse_translations[4]; 
179 int readonly: 

180 E 


对 十 每 个 中 显示 的 字符 ， 图 形 卡 在 显示 器 上 显示 的 是 这 个 字符 的 特殊 图 形 ， 称 为 “字模 ”(glyph)。 
工作 于 字符 模式 (而 不 是 图 像 模 式 ) 的 VGA 图 形 卡 可 以 显示 256 个 字模 (所 以 只 能 用 于 拼音 文学 )。 根 据 
正在 使 用 的 语言 ， 可 以 将 不 同 的 字模 装 入 图 形 卡 ， 然 后 将 在 这 种 语言 中 可 以 显示 的 宁 符 的 Unicode 变 
换 成 这 些 字模 的 编号 。 这 样 ， 就 可 以 达到 “本 地 化 ”的 日 的 。 当 然 ， 这 只 是 对 采用 拼音 文字 的 地 区 和 
国家 而 言 。 这 个 数据 结构 以 及 conv_uni_to_pe( ) 的 作用 就 是 实现 从 Unicode 到 字模 编号 的 变换 ,或 者 说 
映射 。 对 于 ASCH 码 ， 字 模 的 编号 与 字符 的 代码 相同 ， 但 是 一 般 而 言 都 焉 要 加 以 变换 。 最 简单 的 变换 
当然 是 采用 数组 的 方法 , 但 是 对 十 16 位 的 Unicode 这 意味 着 数组 的 大 小 为 64K. KER ERA DEN, 
因为 对 于 任何 .种 具体 的 拼音 文字 这 个 数组 都 必定 是 非常 稀 疏 的 。 为 了 提高 空间 效 举 ， 人 们 把 16 位 的 
Unicode 空间 划分 成 32 个 “三 页 ”% 这 里 指针 数组 uni_pgdir{ ] 中 的 每 个 指针 就 指向 一 个 个 页 ， 以 16 位 
Unicode 编 色 中 的 最 高 5 位 作为 下 标 。 这 样 ， 如 果 对 于 具体 的 语言 某 个 码 页 为 全 守 ， 就 不 必 为 之 分 配 空 
间 , 而 只 要 使 相应 的 指针 为 0 即 可 。 为 便于 管理 ,每 个 但 页 又 划 分 成 32 个 子 页 , 再 以 次 5 位 作为 下 标 ， 
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所 以 uni pgdir[. ] 中 的 指针 所 指向 的 是 二 维 数组 。 这 些 数 组 的 内 容 是 在 初始 化 时 通过 .个 函数 
con set default unimap( ) 设 置 的 ,设置 的 依据 是 -个 临时 性 的 大 数组 dfont_unitable[ ], 初始 化 完成 以 后 ， 
这 个 数组 所 占 的 空间 就 回收 另 作 它 用 了 。 邦 么 ， 数 组 dfont_unitable[ ] 的 内 容 又 是 什么 ， 是 从 哪里 来 的 


We? 显然 ， 其 内 容 应 该 取决 于 使 用 的 是 哪 一 种 语言 。 对 于 英语 (美国 英语 )，drivers/char 日 录 下 有 个 文件 
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cp437.uni《 表 示 437 FAG IN Unicode 编码 )， 我 们 在 这 里 列 出 其 中 一 些 片 断 ， 让 读者 有 个 印象 ， 


— 
—— COO ON DO Re HHS HK 


— = m me = = 
oo ~ DNAN 


47 
48 
49 
50 
51 
52 
53 


84 
85 
86 
87 


289 
286 
287 
288 
289 
290 
291 


# 


# Unicode table for IBM Codepage 437. Note that there are many more 

# substitutions that could be conceived (for example, thick-line 

# graphs probably should be replaced with double-line ones, accented 

# Latin characters should replaced with their nonaccented versions, 

# and some upper case Greek characters could be replaced by Latin), however, 
# I have limited myself to the Unicodes used by the kernel ISO 8859-1, 

& DEC VT, and IBM CP 437 tables 





# 

# EIER ey = = 

# 

# Basic IBM dingbats, some of which will never have a purpose clear 
# to mankind 

# 

0x00 U*0000 

0x01 U+263a 

0x02 U+263b 

0x03 U+2665 


# The ASCIT range is identity-mapped, but some of the characters also 
# have to act as substitutes, especially the upper-case characters. 


8 

0x20 
0x21 
0x22 


0x41 


0x42 
0x43 
0x44 


# 


U+0020 
U10021 
U+0022 U+00a8 


U+0041 U+00c0 U+00c1 U*00c2 U+00c3 


U+0042 
U+0043 U+00a9 
U+0044 





# Square bullet, non-spacing blank 
# Mapping Ut+fffd to the square bullet means it is the substitution 
# character 


# 
Oxfe 
Oxff 
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U*25a0 U*Fffd 
U+00a0 
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例如 ， 字模 Ox42 (“B”) AY Unicode 就 是 0x42: Tfj Ox41 (“A”) 则 同时 对 应 着 5 个 Unicode 代码。 
文件 中 定义 的 字模 编号 最 高 为 0xff， 所 以 只 定义 了 256 个 字模 。 当 编译 Linux 内 核 时 ， 通 过 个 工具 
conmakehash 从 这 个 文件 为 dfont_unitable[ ] 生 成 一 个 文件 defkeymap.c:， 后 者 则 是 内 核 源 代码 的 一 个 组 
成 部 分 。 为 帮助 读者 理解 这 一点， 我 们 看 一 下 drivers/char 下 面 的 Makefile: 


19 FONTMAPFILE = cp437. uni 


489 consolemap deftbl.c: $(FONTMAPFILE) conmakehash 
490 ./conmakehash $(FONTMAPFILE) > consolemap deftbl.c 


假定 现在 是 在 法 国 ， 要 让 内 核 显示 法 文 ， 那 就 要 提供 几 于 法 文 的 .uni 文件 ， 并 修改 Makefile 中 
FONTMAPFILE 的 定义 ， 再 编译 内 核 就 可 以 了 。 全 于 上 具 conmakehash， 其 源 代码 conmakehash.c 也 在 
drivers/char 中 。 

最 终 通过 scr writew( ) 写 入 图 形 卡 的 是 一 个 16 位 短 字 ， 其 低 字 节 是 字符 本 身 的 代码 tc， 识字 节 则 
为 字符 的 “属性 ”attr。 这 里 scr_writew( ) 是 个 宏 控 作 ， 定 义 丁 include/linux/vt_buffer.h: 


23 Hdefine scr_writew(val, addr) (*(addr) = (val)) 


PC 机 图 形 卡 (如 VGA) 上 的 RAM 区 间 在 0xa0000 以 ls BIOS 以 下 的 位 置 上 ， 其 相对 于 起 点 的 地 
址 与 显示 屏 上 的 位 置 有 着 一 一 对 应 的 关系 ，CPU 可 以 通过 访 内 指令 直接 访问 。 由 于 图 形 卡 工作 于 学 符 
方式 , 所 以 只 要 把 字符 的 代码 (实际 上 起 字模 的 编号 ) 连 同 其 属性 写 入 相应 的 存储 单元 妈 可 ,而 不必 关心 
具体 的 宁 模 和 像素 。 

显然 ，Linux 内 核 看 “本 地 化 ”方面 的 努力 只 限 丁 拼音 文字 ， 而 不 适用 于 CJKV 。 以 汉字 为 例 ， 如 
果 要 在 内 核 中 支持 汉字 ， 图 展 卡 就 必须 工作 于 疼 像 方式 ， 这 样 才 能 显示 数 千 个 常用 汉字 的 字模 。 此 外 ， 
即使 是 拼音 文字 ， 纲 代 的 图 形 用 户 界 而 也 要 求 采用 图 像 方式 。 不 过 从 字符 方式 前 进 到 图 像 方式 这 Ub 
属 十 图 像 处理 的 范畴 ， 我 们 这 里 就 从 略 了 。 右 兴趣 或 需要 的 读者 吕 以 日 已 钻研 drivers/video 目录 下 与 
“WAE” (frame buffer) f XR) IRA o 

回 到 n_tty_receive_char( ) 的 代码 中 ， 我 们 出 经 看 了 对 般 字 答 的 回 打 ， 但 是 偿 剩 下 对 一 些 特 狐 字 
符 的 处 理 ， 所 以 继续 往 下 看 (drivers/charyn_tty.c); 





[console softint( ) > run, task queue( ) > flush to ldisc( ) > n tty receive buf() n tty receive char( )] 


553 if (c = Ww) { 

554 if (I IGNCR(tty)) 

555 return;. 

556 if (I ICRNL(tty)) 

557 Q^ M a 

558 | else if (c — ’\n’ && I INLCR(LLy)) 
559 C= © oe 

560 if (T IXON(tty)) { 

561 if (c == START CHAR(tty)) | 
562 start tty(tty); 

563 return; 
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564 ) 

565 if (c == STOP CHAR(tty)) ( 
566 stop tty(tty); 

567 return; 

568 } 

569 } 

570 if (L_ISIG(tty)) { 

571 int signal; 

572 signal = SIGINT: 

573 if (c == INTR CHAR(tty)) 
574 goto send signal; 

575 signal = SIGQUIT; 

576 if (c == QUIT CHAR(1ty)) 
577 goto send signal; 

578 signal = SIGTSTP: 

579 if (c == SUSP CHAR(tty)) { 
580 send_signal: 

581 isig(signal, tty, 0); 
582 return: 

583 } 

584 } 


这 里 主要 是 对 “N” “An” AR XON/XOFF 等 字符 的 处 理 。 这 就 是 说 ， 丰 符 这 些 字符 是 否 属于 
process_char_map， 对 这 些 字 符 总 是 要 进行 一 些 处 理 ， 只 在 方式 略 有 不 同 。 偿 有 ， 就 是 几 个 可 以 导致 向 
终端 的 控制 进程 发 出 信号 的 字符 ， 如 Ctrl-C. Ctrl-Z 这 些 字符 。 这 里 还 要 说 明 ， 对 所 有 这 些 字符 的 处 理 
都 是 可 以 通过 系统 调用 ioctl( ) 分 曾 加 以 设置 和 选择 的 ， 所 以 ioctl( ) 对 终端 设备 的 驱动 起 着 特别 重要 的 
作用 。 

至 此 ， 我 们 尚未 触及 对 终端 设备 输入 的 “规范 ”(canonical) 模 式 ， 下 面 我 们 就 来 看 “规范 ”模式 对 
输入 的 加 工 或 者 “ 京 调 ”。 


[console softint( ) > run_task_queue( ) > flush to ldisc( ) > n tty receive buf() 
»n tty receive char( )] 


585 if (tty ^icanon) | 

586 if (c == FRASE_CHAR(tty) || c == KILL CHAR(tty) | 
587 (c == WERASE CHAR(tty) && L IEXTEN(tty))) { 
588 eraser(c, tty); 

589 return; 

590 } 

591 if (c == LNEXT CHAR(tty) && L_IEXTEN(tty)) | 
592 tiy-^lnext > 1; 

593 if (L ECHO(tty)) { 

594 l'inish erasing(tty) ; 

595 if (L ECHOCTL(tty)) { 

596 put char( ^, tty); 

597 put char( \b’, tty); 
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598 
599 
600 
601 
602 
603 
604 
605 
606 
607 
608 
609 
610 
611 
612 
613 
614 
615 
616 
617 
618 
619 
620 
621 
622 
623 
624 
625 
626 
627 
628 
629 
630 
631 
632 
633 
634 
635 
636 
637 
638 
639 
640 
641 
642 
643 
644 
645 
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} 
return; 
} 
if (c == REPRINT CHAR(tty) && L ECHO(tty) && 
L IEXTEN(tty)) { 
unsigned long tail = tty-?canon head; 


finish erasing(tty); 
echo char(c, tty); 
opost \n’, tty); 
while (tail != tty-^read head) 1 
echo_char(tty->read_buf [tail], tty); 
tail = (tail+!) & (N_TTY_BUF_SIZE-1); 
} 
return; 
} 
if (c == WW) { 
if (L ECHO(tty) || L ECHONL(tty)) { 
if (tty->read cnt >= N TTY BUF SIZE-1) { 
put char( \a’, tty); 
return; 
) 
opost? \n’, tty); 
} 
goto handle newline; 
) 
if (c == EOF CHAR(tty)) ( 
if (tty->canon head != tty-?read head) 
set bit(TTY PUSH, &tty— flags): 
c=  DISABLED CHAR; 
goto handle newline; 
j 
if ((c == EOL_CHAR(tty)) || 
(c == EOL2 CHAR(tty) && L IEXTEN(tty))) { 
/* 
* XXX are EOL CHAR and EOL2 CHAR echoed?!? 
*/ 
if (L ECHO(tty)) { 
if (tty->read_cnt >= N TTY BUF SIZE-1) { 
put char( \a’, tty); 
return; 
} 
/* Record the column of first canon char. */ 
if (tty->canon_head == tty->read_head) 
tty—>canon_column = tty-?column; 
echo_char(c, tty); 
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665 
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) 


Linux 内 核 源 代 码 情景 分 析 《〈《 下 册 》 


/* 


* XXX does PARMRK doubling happen for 
* EOL CHAR and EOL2 CHAR? 


*/ 


if (T PARMRK(tty) && c == (unsigned char) ' \377’) 
put_tty_queue(c, tty); 


handle newline: 


set_bit(tty—>read_head, &tty-^read flags); 
put tty queue(c, tty); 
tty-^canon head = tty-^read head; 


tty-^canon datat*; 


kill fasync(&tty-^fasync, SIG1O, POLL IN): 
if (waitqueue active(&tty— read wait)) 
wake up interruptible(&tty-»read wait); 


return; 


) 


finish erasing(tty): 
if (L ECHO(tty)) ( 


if (tty-^read cnt >= N TTY BUF SIZE-1) { 
put char( \a’, tty); /* beep if no space */ 


return; 


) 
if (c ==’\n’) 

opost( \n’, tty); 
else { 


/* Record the column of first canon char. */ 
if (tty->canon_head == tty—>read_head) 
tty—>canon_column = tty->column; 


echo_char(c, tty); 


} 


if (I PARMRK(tty) && c == 
put tty queue(c, tty); 


put tty queue(c, tty); 


(unsigned char) ' \377’) 


我 们 不 对 这 些 代 码 详 加 解释 了 ， 读 者 现在 应 该 已 经 有 了 这 种 能 力 。 这 里 我 们 只 是 要 强调 ， 在 “ 规 
范 ” 模式 下 ， 尽 管 终端 设备 的 read_buf[ ] 缓 冲 区 中 已 经 有 了 数据 ， 却 并 不 马上 就 唤醒 可 能 正在 睡眠 中 等 
待 着 要 从 该 终端 读 出 的 进 种 ， 而 要 到 接收 到 “m ”字符 (有 可 能 从 “” 转 换 和 而 来 ， 见 557 行 ) 以 后 ,或 
者 接收 到 EOF、EOL 等 字符 时 才 来 唤醒 ( 见 660 行 )。 相 比 之 于 ， 在 非 “规范 ” 模式， 包括 原始 模式 下 ， 
则 只 要 缓冲 区 中 的 字 节 数量 达到 预先 设 定 的 minimum_to_wake， 就 会 唤醒 正在 睡眠 等 待 的 进程 ， 而 
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minimum to wake 一 般 吓 1。 具 体 地 ， 这 发 生 杆 从 n tty receive char( JR IHF] n. tty. receive buf( ) 以 后 ， 
为 便于 阅读 ， 我 们 把 有 关 的 几 行 代码 再 列 出 于 下 (drivers\charn_tty.c)。 


[console_softint( ) > run task queue( ) > flush_to_ldisc( ) > n tty receive buf()] 


761 if ()tty-^icanon && (tty->read_cnt >= tty—>minimum_to_wake)) { 
762 kill fasync(&tty-^fasync, SIGLO, POLL IN); 

763 if (waitqueue active (&tty->read_wait) ) 

764 wake up interruptible(&tty-^read wait); 

765 } 


这 里 的 762 行 用 于 异步 TO， 读者 可 参阅 “系统 调用 select( ) 与 异步 UO 一 节 ”。 

SAT ASE, AIG HAA tasklet, BRAS AT bh 函数 kbd_bh( )， 不 过 这 个 bh 函数 
处 理 的 只 是 键盘 上 的 发 光 二 极 答 ， 所 以 对 于 键盘 的 读 操作 没有 什么 影响 。 这 个 bh 函数 的 代 僻 在 
drivers/char/keyboard.c 中 ， 我 们 就 不 看 了 。 


8.9 通用 串 行 外 部 总 线 USB 


89.1 USB 总 线 简 介 


USB(Universal Serial Bus) 总 线 是 20 世纪 90 年 代 发 展 起 来 的 “种 “ 道 用 串 行 外 部 总 线 ”， 目 前 在 
使 用 中 的 基本 上 是 1998 年 公布 的 USB 1.1 版 。 最 新 的 版 本 是 USB 2.0， 目 前 已 有 心 片 投入 市 场 ， 但 是 
有 关 的 产品 〈 设 备 ) 还 不 多 ,而 支持 2.0 版 的 设备 虚 动 程序 (以 及 相 访 版 本 的 操作 系统 ) 则 一 般 还 在 开 
发 或 试 运行 阶段 。 

首先 ，USB 是 :种 “总 线 ”。 与 传统 的 外 部 设备 与 主机 之 间 的 连接 方式 相同， 它 允 许 将 不 同 种 类 
的 外 部 设备 混合 连接 到 同一 个 接口 上 。 可 是 ， 它 又 与 计算 机 内 部 的 总 线 ( 如 PCI 总 线 ) 不 同 ，CPU 不 能 
通过 访 内 指令 或 IO 指令 直接 访问 连接 在 USB 上 的 设备 ， 而 要 通过 一 个 “USB 控制 器 ”， 间 接地 与 连 
接 在 USB 上 的 设备 打 父 道 ，USB 总 线 存 在 于 计算 机 的 外 部 ， 所 以 说 是 外 部 总 线 。 还 有 ，USB 的 信 与 
线 一 共 只 有 两 条 外 加 两 条 电源 线 ) ， 线 上 的 信号 是 品行 的 ， 所 以 是 “品行 外 部 总 线 ”。 至 于 说 “ 通 
用 ”， 那 是 因为 USB 总 线 的 设计 从 … 开 始 就 考虑 到 了 许多 不 同 种 类 的 外 部 设备 ， 从 低速 的 键盘 和 鼠标 
等 “人 机 交互 设备 (HID)”， 到 速度 较 饥 的 通信 设备 (如 Modem 和 存储 设备 (如 CDROMJ)， 疙 全 摄像 机 
Aliases SR ARS, Nee USB 接口 就 都 可 以 连接 到 USB 总 线 上 ， 并 且 可 以 在 计算 机 带电 的 
fF P “WARMA” (plug and play). 

在 传统 的 计算 机 系统 结构 中 ， 接 口 卡 可 以 看 作 是 相应 外 部 设备 的 一 部 分 ， 就 好 像 是 外 部 设备 派 驴 
在 主机 内 部 的 联络 员 一 样 。 所 以 ， 每 一 个 接口 一 般 都 只 能 连接 到 同一 种 的 设备 。 昌 然 通 过 所 谓 “ 菊 花 
链 ”(daisy chain) 方 式 可 以 把 若干 同 种 设备 连接 人 刘 同 一 接 册 上 ， 却 不 能 将 不 同 种 类 的 设备 淡 合 连接 到 同 
一 接口 上 。 显 而 易 见 ， 这 种 结构 的 可 扩充 性 很 差 ， 因 为 中 以 持 入 主机 的 接口 卡 数量 总 是 有 限 的 。 事 实 
上 ， 应 用 中 很 早 就 有 了 仁 同 一 接口 上 混合 连接 不 同 设 备 的 要 求 。 例 如 在 并 行 口上 小 既 连 接 打印 机 又 连接 
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扫描 仪 、 可 能 还 要 再 连 R A "Zip 了 驱动器”， 就 反映 了 这 样 的 要 求 。 而 且 ， 即 使 于 机 中 有 足够 多 的 揪 
槽 ， 也 还 是 有 很 多 问题 ， 例 如 中 断 向 量 的 分 配 和 管理 、 接 口 卡 的 成 本 等 等 ， 甚 至 因 大 多 的 连接 电费 挤 
在 -起 而 造成 的 困难 也 是 个 问题 。 特 别 值 得 一 提 的 是 ， 要 插入 - 块 接 口 卡通 常 得 要 打开 机 盖 并 且 关 闭 
电源 ， 而 不 能 在 系统 加 电 的 情况 下 随意 增 减 设备 。 在 这 样 的 条 件 王 ， 所 谓 “ 现 插 现 用 ”实际 上 是 很 难 
真正 成 为 现实 的 。 随 着 计算 机 应 用 的 日 益 普 及 ， 这 些 问 题 就 剑 来 您 突出 了 。 

男 一 方面 ， 更 为 重要 的 是 : 电话 设备 与 计算 机 的 结合 以 及 多 媒体 技术 的 发 展 ， 也 对 外 部 设备 的 连 
接 与 驱动 提出 了 新 的 费 求 。 存 电话 设备 (以 及 多 媒体 设备 ) 中 普遍 采用 所 谓 “ 等 时 ”(isochronous) 传 输 方 
式 ， 通 常 将 一 个 容量 较 大 的 信道 按时 间 划 分 成 若 十 较 小 的 音频 或 视频 信道 。 例 如 “T1” 传 输 线 就 是 将 
一 个 1.54Mb 的 信道 按时 间 划 分 成 8000 个 24 字 节 的 “ 桢 ”(frame)， 而 每 个 帧 的 24 个 字 季 义 分 别 用 十 
24 个 64Kb 的 数字 化 话音 信道 ， 使 每 个 话音 信道 在 每 125 微 秒 的 时 间 内 就 能 传送 一 个 字 节 。 与 传统 的 
传输 方式 相 比 ， 等 时 传输 有 两 大 特点 。 第 一 ， 等 时 传输 有 比较 严格 的 时 间 要 求 ， 必 须 为 等 个 信道 维持 
均匀 的 流量 。 例 如 ， 如 果 对 音频 信号 的 传输 忽 快 忽 慢 ， 那 么 重 放出 来 的 声音 就 会 变 成 有 如 磁带 录音 机 
转速 不 稳 时 部 样 的 尾声 怪 调 。 相 比 之 下 ， 传 统 的 计算 机 外 部 设备 “例如 从 磁盘 读 入 浆 件 时 ) 则 并 没有 
这 样 的 要 求 。 第 二 ， 等 时 传输 对 误 码 的 要 求 不 高 ， 少 量 的 误 码 〈 其 全 玉 失 少量 数据 ) 对 才 音 频 表 现 为 
噪音 ， 对 视频 则 表现 为 画面 上 的 : 些 “ 雪 花 点 ”， 都 还 是 可 以 容忍 的 。 所 以 等 时 传输 不 需要 有 CRE R 
验 、 奇 偶 校 验 - -类 的 检 错 手段 。 其 实 ， 闭 怕 明 知 传输 中 有 和 错 ， 甚 至 丢失 ， 也 不 能 要 求 对 方 重 发 ， 因 为 
由 重 发 而 造成 的 延迟 很 可 能 反而 更 不 能 容忍 。 上 友之， 传统 的 计算 机 外 部 设备 对 误 码 的 葛 求 就 很 高 ， 所 
以 通常 都 带 有 检 错 的 乎 段 ， 如 果 发 现 出 错 就 要 重 发 。 不 过 ， 实 际 上 等 时 传输 总 是 有 一 定 的 缓冲 ， 所 以 
只 要 是 在 一 定 的 限度 内 ， 时 间 上 覆 有 球 移 也 是 允许 的 。 总 之 ， 等 时 传输 基本 上 是 周期 性 的 ， 但 是 又 并 
非 严格 意义 上 的 周期 信号 ， 并 上 日 收发 双方 也 并 不 需要 严格 意义 上 的 同步 。 例 如 ， 丰 上面 讲 到 的 “TH1” 
传输 线 上 ， 接 收 方 只 需 知道 哪 一 点 是 一 个 帧 的 起 点 ， 却 不 需要 知道 到 底 是 哪 … 个 帧 的 起 点 ， 央 为 相差 
10 个 帧 也 不 过 是 1.25 毫秒 ， 通话 的 双方 都 感觉 不 到 。-… 个 币 定 而 不 大大 的 延迟 是 允许 的 (就 像 越 洋 电 
话 滥 样 ) 。 这 样 的 传输 方式 就 称 为 等 时 传输 ， 这 并 不 是 新 技术 ， 但 是 以 前 的 让 算 机 外 部 设备 中 没有 这 
方面 的 需求 。 而 在 20 世纪 90 年 代 初 ， 则 由 于 计算 机 与 电话 技术 相 结 合 的 趋向 以 及 多 媒体 技术 的 发 展 ， 
而 使 之 提 到 了 口 程 上 上 。 以 电话 设备 为 例 ， 就 需 时 姨 有 支持 容量 较 大 的 等 时 方式 传输 《用 丁 放 音 ) ， 又 
支持 报 文 传递 《用 于 控制 ) 的 外 设 接口 。 同 时 ， 这 种 外 设 接口 仍然 要 适合 于 传统 的 外 部 设备 。 

USB 正 是 在 这 样 的 背景 下 发 展 起 来 的 。90 年 代 初 ， 人们 已 经 在 设备 驱动 、 数 据 通信 、 局 部 网 络 以 
及 大 规模 集成 电路 等 方面 积累 了 丰富 的 经 验 ，USB 的 设计 从 各 方面 都 吸取 了 营养 ， 内 大 规模 集成 电路 
技术 则 为 USB 的 实现 葛 定 了 物质 基础 ,从 90 年 代 中 期 开始 生产 的 PC 机 几乎 毫 无 例外 地 全 都 带 有 USB 
接口 。 

从 功能 上 讲 ， 主 机 的 USB 接口 既 可 以 通过 USB 电缆 让 接连 接 到 一 台 支 持 USB 的 外 部 设备 (我 们 
称 之 为 “USB 设备 ”) ， 也 可 以 先 连 接 到 一 个 “USB E438” (USB Hub)， 再 由 集 沾 器 分 义 连接 到 其 
他 集中 器 或 外 部 设备 ， 从 而 形成 一 种 星 形 结构 。 每 根 USB 电缆 的 区 度 是 16 只 ( 约 5 米 )， 通 过 集中 器 级 
连 时 最 多 可 以 穿越 S 个 集中 器 ， 从 而 使 最 人 半径 达到 96 IRA 29 米 )。USB 上 的 信号 传输 速度 有 两 种 ， 
一 种 是 “低速 ” (Low Speed)， 为 每 秒 1.5 兆 位 ， 用 十 外 接 键 盘 、 鼠 标 器 等 低速 设备 ( 常 称 为 HD， 即 
“人 机 交互 设备 ”); 另 一 种 是 “全 速 ” (Full Speed)， 为 每 秒 12 兆 位 (作为 比较 ，Ethernet 的 速度 是 每 
秒 10 兆 位 )， 用 于 一 般 的 外 部 设备 ， 包 括 音频 和 视频 ， 两 种 速度 的 设备 可 以 混用 。 在 后 来 公布 的 USB 
标准 2.0 版 中 ， 在 此 基础 上 又 增加 了 一 种 传输 速度 ， 称 为 “高 速 ”(High Speed)， 达 到 每 秒 480 JE. 
USB 设备 可 以 在 系统 加 电 的 条 件 下 自 出 地 插 上 或 拔 下 ， 称 为 “ 热 插入 ”。 询 且 ， 对 耗 电量 很 小 的 设备 
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成 集中 器 还 可 以 出 主机 通过 USB 电费 供电 。 
UE SEF USB 的 外 部 设备 ， 即 USB 设备 (集中 器 是 一 种 特殊 的 USB 设备 )， 都 带 有 USB 通信 控制 
器 ,里面 实际 上 包括 了 个 微 处 理 器 。 由 此 可 见 ，USB 的 实现 和 推广 在 大 规模 集成 电路 技术 还 不 发 达 、 
微 处 理 器 还 比较 贵 的 时 代 是 不 现实 的 。 由 于 主机 和 和 USB 设备 都 带 有 控制 器 ， 而 主机 中 的 控制 器 起 着 核 
心 的 作用 。 为 了 防止 混淆 , 一般 把 主机 一 方 的 控制 器 称 为 “ 主 控 制 峰 ”(Host Controller， 常 缩写 为 HC)。 
不 过 ， 在 本 书 中 并 个 关心 设备 一 方 的 操作 ， 所 以 讲 到 “USB 控制 器 ”时 总 是 指 主 控制 器 。 除 主 控制 器 
外 ， 每 条 USB 总 线 一 定 有 个 “ 根 集中 器 ”， 通 常 与 主 控制 器 集成 在 同一 芯片 中 。 
另 一 方面 , 由 此 也 可 看 出 ,在 其 种 意义 上 也 可 以 把 USB 看 成 是 -种 计算 机 网 络 ， -种 主 /从 结构 的 
星 形 网 络 。 之 所 以 说 是 主 /从 结构 ， 是 因为 信息 在 USB 上 的 传输 只 能 由 主机 启动 ， 而 不 能 由 设备 启动 ， 
设备 永远 处 于 被 动 的 地 位 。 
通过 以 上 的 简介 ， 读 者 已 可 了 解 : 对 于 主机 系统 ，USB 实际 上 是 USB 控 制 器 ) Ate LE GN 
备 ， 但 是 对 USB 操 作 本 身 并 不 是 终极 的 目的 ，| 和 是 为 了 通过 USB 对 具体 的 外 部 设备 进行 操作 。 换 育 之 ， 
对 USB 的 操作 是 于 段 而 不 是 口 的。 然而 ， 在 另 一 方面 ， 这 种 于 段 却 有 可能 比 目 的 更 复杂 ， 因 此 有 必 此 
特别 加 以 介绍 。 
USB 的 信息 传输 方式 是 比较 特殊 的 (共有 网 络 和 数据 通信 背景 的 读者 则 可 能 会 觉得 很 自然 )。 
首先 ， USB 通过 具有 :定格 式 的 “信和 包 ”(packet) 按 定 的 “规程 ”(protocol) 传 输 信 息 ， 并 根据 
信息 (内 容 ) 的 性 质 分 成 如 下 4 种 传输 类 型 ; 
(控制 型 (Controb。 主 要 用 于 设备 的 “配置 ”与 控制 。 信 和 的 容量 可 以 总 8、16、32 64 宁 节 ， 
取决 于 具体 的 设备 (低速 设备 只 支持 8 字 节 )。 在 USB 的 整个 带宽 (传输 能 力 ) 中 ， 有 10% 起 为 
这 种 信息 保留 的 。 这 就 是 说 ， 只 要 有 足够 多 的 控制 型 信息 等 着 要 传递 ， 就 必须 保证 有 10% 的 
带宽 用 十 这 些 信息 ， 基 他 信息 再 多 也 不 能 把 这 部 分 带宽 给 挤 掉 。 但 是 ， 如 果 没 有 足够 多 的 控 
制 型 信息 要 传递 , 则 可 以 把 这 部 分 带宽 用 于 共 他 类 型 的 信息 。 控制 型 信和 包 的 传递 是 带 有 检 错 、 
须 由 接收 方 加 以 确认 的 “可 靠 ” 传 递 ， 如 果 发 现 传 输 山 错 就 要 重 发 。 
(2) ”等 时 型 (Isochronous)}。 主 要 用 十 实时 的 音频 和 视频 信号 。 这 种 信息 是 周期 性 的 ， 又 是 实时 的 ， 
对 信息 传递 是 否 及 时 有 很 高 的 要 求 ， 但 是 对 误 码 却 比较 能 容忍 。 所以， 保证 用 于 等 时 型 信息 
的 带宽 是 很 重要 的 。USB 为 等 时 型 信息 和 中 断 型 信息 (也 起 周期 性 的 ) 保 留 90% 的 带宽 (如 果 有 
足够 多 的 周期 性 信息 此 传递 )。 另 一 方面 ， 等 时 型 信息 的 传递 不 带 检 错 ， 也 不 需 此 确认 ， 因 前 
就 不 存在 重 发 的 问题 。 等 时 土 传输 的 倍 包 通常 较 大 ， 有 最 高 可 达 1023 字 节 。 
(3) 中 断 型 (Interrupb。 名 EH“ 中 断 ” 型 ， 实 际 上 却 是 用 于 对 USB 设备 的 周期 性 查询 。USB 设备 
不 存在 主动 向 主机 发 送 “ 中 断 请 求 ” 的 能 力 ， 上 只 能 被 动 地 受 主机 通过 USB 总 线 查 询 。 中 断 型 
信息 的 传递 让 有 时 间 上 的 上 娄 求 ， 勾 必须 是 可 靠 传 递 ， 但 是 信和 包 较 小 。 信 和 包 大 小 与 控制 型 仿 包 
相同 。 中 断 型 信息 和 等 时 型 信息 二 者 合 在 一 起 不 能 超过 USB 总 线 带 宽 的 90%. 
(4) 成 块 和 型 (Bulk)。 用 十 信息 量 相对 较 大 ， 没 有 很 焊 的 时 间 要 求 ， 但 是 要 求 可 靠 传 递 ( 带 有 恰 错 ， 
接收 方 须 确认 ) 的 信息 。 对 成 央 型 信息 的 传递 在 时 间 上 是 没有 保 让 的 ，USB 总 线 不 为 成 块 型 
信息 保留 带宽 ， 只 是 在 执行 了 挤 王 种 传输 以 后 还 有 时 间 剩 余 时 省 来 执行 成 块 型 传输 。 信 和 包 的 
容量 取决 定 于 其 体 的 设备 ， 但 最 类 不 超过 1023 学 节 。 
同时 ，USB 控制 器 把 总 线 上 的 时 间 划 分 成 固定 大 小 的 “frame”， 即 “框架 ”《 我 们 把 frame 这 个 
词 翻 译 成 “框架 ”而 不 是 “ 帧 ”， 一 来 与 网 络 技术 中 的 “ 帧 ”有 所 区 别 ， :来 意义 上 也 似乎 更 为 贴切 ) 。 
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每 个 框 保 的 大 小 是 1 毫秒 。 在 每 个 框架 中 主机 都 串 以 与 USB 总 线 上 的 设备 相互 发 送 许多 信人 包 ， 不 过 在 
每 一 特定 的 时 刻 只 能 在 一 个 方向 上 发 送 ， 所 以 是 “ 半 双 芽 ” 链 路 。 主 机 与 设备 之 问 的 通信 只 能 由 主机 
启动 ， 而 设备 则 永远 处 于 从 属 的 、 被 动 的 地 位 。 因 而 主机 与 设备 间 是 主 / 从 关系 。 在 每 个 框架 内 可 以 
有 许多 个 主机 与 设备 间 的 “交互 ”(Transaction)， 旭 二 者 间 若 干 信和 包 的 交换 。 每 个 信和 包 传 递 的 方向 可 以 
起 从 主机 到 设备 ， 也 可 以 是 从 设备 公主 机， 但 是 每 个 父 互 中 的 第 -个 信和 包 总 是 从 主机 到 设备 ， 因 为 只 
有 主机 可 以 发 起 一 次 灾 互 。 信 和 包 的 大 小 因 传输 方式 和 设备 类 型 而 并 ,对 于 全 速 设备 的 控制 (起 ) 传 输 最 大 
为 64 字 节 ， 对 低速 设备 则 不 超过 8 个 字 节 ,但 是 等 时 (型 ) 传 输 的 信和 包 可 达 1023 字 节 。 竺 个 框架 的 开头 
总 是 由 主机 向 总 线 上 的 所 有 设备 广播 .个 特殊 的 “框架 开始 ”(SOF) 信 和 包 ， 作 为 “种 同步 手段 。 框 架 的 
划分 是 便 性 的 、 没 有 弹性 的 ， 时 候 一色， 主机 的 USB 控制 器 就 发 出 SOF 信和 包 。 

主机 与 USB 总 线 上 各 设备 之 间 的 位 同步 , 靠 调制 在 信号 波形 中 的 时 钟 脉冲 实现 ,框架 的 同步 靠 SOF 
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括 数据 以 及 由 共 体 设备 规定 的 ，: 些 应 用 层 | 的 控制 /状态 信息 ， 例 如 待 打印 的 字符 申 ， 又 如 对 扫描 器 的 
“开启 光源 ”命令 、“ 开 始 扫描 ”命令 等 等 ， 就 属 寺 这 一 种 。 从 传输 的 角度 看 ， 这 些 信息 对 于 USB 总 
线 赴 “透明 ”的 ，USB 总 线 只 是 把 这 些 信息 以 信人 包 的 形式 作为 大 格式 字 攻 流传 递 给 对 方 ， 侧 并 不 关心 
其 内 容 ， 也 不 规定 其 格式 。 当 然 ， 应 用 软件 以 及 具体 设备 的 瑟 动 程序 可 以 和 白 己 规 定 这 些 信息 的 格式 。 

另 一 种 是 USB 总 线 为 绯 持 其 本 身 的 正常 运行 和 管理 所 需 的 E USB 层 ” 的 控制 /状态 信息 ， 例 
如 ， 为 要 了 解 革 “设备 是 否 还 在 总 线 | 运行， 或 者 旨 丁 解 开 “设备 都 具有 哪些 功能 ， 就 赴 要 从 设备 读 
入 其 作为 USB 设备 必须 提供 的 状态 信息 ， 等 等 。 我 们 有 时 称 此 种 控制 /状态 信息 为 “高 层 ” 控 制 /状态 
信息 ， 之 所 以 称 为 “高 层 ” 是 为 了 与 下 面 所 说 的 低层 控制 /状态 信息 相 区 别 。USB 总 线 为 这 些 信息 规定 
了 特定 的 格式 ， 例 如 后 面 要 讲 到 的 设备 描述 体 、 接 口 描述 体 等 等 。 不 过 ， 根 据 其 体 的 情况 ， 华 传递 控 
制 /状态 信息 时 往往 也 可 以 附加 传递 e v Rn Ao 

AK, USB 总 线 上 信息 传输 的 目的 就 在 于 传递 这 些 应 用 信息 和 “高 层 ” 控 制 /状态 信息 。 可 是 ,为 
了 月 动 传递 这 些 信息 以 及 保证 这 些 信息 得 到 可 靠 的 传递 ， 还 需要 传递 -一 些 附 加 的 信息 。 这 些 信息 的 传 
递 本 身 并 不 是 日 的 ， 调 只 是 为 达到 二 述 口 的 而 采取 的 下段。 

答 次 高 层 控制 /状态 信息 或 考 (以及) 应 出 信息 的 传递 称 为 次 “传输 ”(transfer)， 具 | 信息 类 型 的 不 同 
可 以 分 成 [: 述 控制 、 中 断 、 等 时 以 及 成 块 4 种 。 同 时 ， 按 传输 的 方向 义 可 分 成 输入 利 输出 山 种 。 每 次 
传输 都 由 一 -次 或 数 次 “交互 ”构成 。 每 次 交互 义 包括 三 个 信和 包 ( 等 时 传输 航 父 互 例外 、 只 有 两 个 信 包 ) 
的 传递 ， 其 中 第 -一 个 信和 包 总 是 由 主机 发 出 的 低层 控制 信息 ， 称 为 “传令 ”(tokem) 信 和 包 ， 信 和 包 的 内 容 表 
明了 人 交互 的 对 象 以 及 后 续 信 包 的 传递 方向 :然后 是 一 个 载运 着 应 用 信息 或 高 层 控制 /状态 信 以 的 信和 包 ， 
称 为 “数据 ”(data) 信 包 ， 最 后 则 是 山 数据 信人 包 的 接收 方 发 出 堪 运 着 确认 信息 的 信 包 ， 称 为 “握手 ” 
(handshake) 信 和 包 。 不 过 ， 在 等 时 传输 方式 的 交互 中 接收 方 不 发 出 握手 信和 包 ， 所 以 只 有 岗 个 信和 包 。 可 见 ， 
传令 信和 包 和 握手 信和 包 所 载运 的 信息 是 为 完成 交互 万 需 的 “低层 ”控制 /状态 信息 ， 在 性 质 上 和 有 有 别 寺 上述 
的 高 层 控 制 /状态 信息 。 高 层 控制 /状态 信息 的 口 的 在 丁 维 持 USB 总 线 的 正常 运行 和 管理 ， 而 低层 控制/ 
状态 信息 的 日 的 在于 保证 应 诈 信 息 或 高 层 控制 /状态 信息 的 止 傅 传递 。 每 个 交互 只 传递 “个 数据 信和 包 ， 
数据 信和 包 传 递 的 方向 即 为 交互 的 方向 , 往往 也 就 是 传输 的 方向 。 交互 是 一 个 个 可 分 割 的 整体 , 其 三 个 (或 
两 个 ) 信 和 包 的 传递 必须 在 间 ESR ERK. PEERLESS fa BL, Jun JF dE BER HUS 
立即 (在 规定 的 时 间 内 ) 作 出 反应 ， 或 从 主机 接收 数据 信 包 ,或 将 数据 依 包 发 送 给 主机 ， 否 则 本 次 交 皇 便 
RMT. Muh, WRASSE REY, Wale SE. ER 4 种 传输 方式 中 , 成 
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块 、 等 时 和 中 断 三 种 应 用 信息 的 传输 都 只 包含 -种 (虽然 可 能 多 个 ) 交 互 ， 但 是 控制 (型 ) 传 输 则 一 般 需 要 
通过 三 种 不 同性 质 的 交互 才能 完成 ， 称 为 控制 传输 的 三 个 “阶段 ”。 其 中 第 一 个 阶段 为 “SETUP” 阶 
段 ， 只 有 一 个 交互 ， 在 这 个 交互 中 传递 的 是 高 层 的 控制 命令 ， 如 “ 读 配 置信 息 ”、“ 设 置地 址 ”等 等 。 
第 二 个 阶段 是 数据 阶段 ， 根 据 需 昌 可 以 有 多 个 光 苹 ， 也 可 以 没有 。 在 这 些 父 二 中 传递 的 是 与 本 次 命令 
相 联系 的 信息 ， 也 可 以 是 ”: 些 应 用 信息 ; 如 果 不 需要 传递 这 样 的 信息 ， 则 也 可 以 跳 过 数据 阶段 。 第 三 
个 阶段 是 状态 阶段 ， 这 个 交互 中 传递 的 是 与 操作 目标 有 关 的 状态 信息 。 相 比 之 下 ， 成 块 、 等 时 和 中 断 
二 种 传输 都 具有 一 个 阶段 ， 即 数据 阶段 。 
总 之 ，USB 总 线 上 的 信息 流通 都 以 信和 包 的 形式 进行 。 按 照 信和 包 的 性 质 和 作 几 ， 可 以 分 成 下 列 几 类 : 
d) 传令 (Token)。 由 主机 发 出 ， 用 来 启动 -“ 次 交互 。 除 本 次 交互 日 标的 地 址 外 ,信和 包 中 还 含有 交 
互 的 方向 和 性 质 ，IN 表示 输入 ，OUT Aoi. SETUP 则 用 于 控制 传输 的 启动 。 
Q) 数据 。 根 据 交 互 的 方向 ， 由 主机 或 设备 发 出 ， 其 内 容 为 应 用 信息 或 高 层 控制 /状态 信息 。 
(3) 握手 。 由 数据 信和 包 或 传令 信和 包 的 接收 方 (或 集中 器 ) 发 出 ， 说 明 对 数据 信和 包 或 传令 信和 包 的 接收 
情况 ，ACK ERRI, NAK 表示 出 错 或 无 反应 ，STALL( 由 集中 器 发 出 ) 表 示 不 能 接收 。 
(4) SOF。 用 十 框架 的 分 隔 ， 信 和 包 中 含有 框架 的 序号 。 
(5) ”低速 设备 前 红 。 低 速 设备 在 每 个 信和 包 之 前 都 要 加 上 :个 特殊 的 前 级 。 


每 个 物理 的 USB 设备 上 可 以 有 一 个 或 多 个 “功能 ”， 相 当 十 “逻辑 设备 ”。 住 有 些 商 备 中 ， 这 些 
功能 的 划分 和 组 合 是 可 以 改变 的 ， 此 时 一 种 特定 的 划分 和 组 合 就 称 为 一 种 “配置 ”(configuration)。 在 
这 方面 , 电话 通信 设备 就 是 很 典型 的 。 以 前 述 的 TI 设备 为 例 (中 国 采 用 ET, 有 32 个 8KB 数字 化 信道 )， 
其 24 个 数字 化 信道 就 可 以 按 需 要 加 以 组 合 ， 例 如 将 其 中 的 12 个 信道 用 于 电话 ， 而 拿 出 8 个 信道 组 合 
成 一 个 64KB 的 信道 用 十 互联 网 ， 剩 下 4 个 信道 则 用 作 通 向 4 个 营业 所 的 专线 和 连接， 这 三 是 个 具体 
的 配置 。 加 时 ， 为 了 与 主机 通信 的 需 槛 ， 在 USB 设备 中 设置 了 SE "mE" (endpoint). E eU Sc 


即 逻 辑 设备 。 反 过 来 ， 根 据 员 体 的 需要 ， 符 个 功能 可 以 有 多 个 通信 端点 。 在 某 些 设备 中， 这 些 通信 端 
点 的 从 届 就 像 功 能 的 划分 一 样 是 可 以 改变 的 。 

主机 与 具体 USB 设备 的 连 系 在 概念 上 按 传输 类 型 和 对 每 的 不 同 而 分 成 许多 “管道 ”(Pipe)。 如 前 
所 述 ， 每 个 USB 设备 可 以 有 若干 个 “功能 ”， 每 个 功能 串 以 提供 若干 通信 “ 端 山 ”(Port)， 而 主机 与 
每 个 端口 之 间 就 是 -个 逻辑 上 的 管道 《注意 个 些 与 进程 间 通 信 管道 混 活 》。 

主机 负 有 调度 USB 总 线 上 信息 传输 的 责任 。 首先 是 把 系统 中 的 等 时 传输 流量 分 配给 各 个 时 间 框 染 。 
所 以 ， 等 个 等 叶 传输 中 的 各 个 父 拉 明确 地 属于 其 个 时 间 框 架 。 竺 条 USB 总 线 有 1024 个 时 问 框架 ， 相 应 
地 就 有 1024 个 等 时 交互 队列 。 队 列 中 的 每 个 数据 结构 ( 称 为 “交互 描述 块 ”》 都 代表 着 个 属于 等 时 
传输 的 交互 请 求 。USB 总 线 控制 器 每 一 秒 钟 打 撒 一遍 所 有 这 些 队 列 。 所 以 ， 和 个 队列 让 每 一 秒 钟 的 时 
间 内 得 到 一 次 执行 。 共 余 的 三 种 传输 请 求 都 不 分 配 到 具体 的 时 间 框 架 ， 而 是 根据 传输 的 类 型 排 在 人 中 
的 队列 中 。USB 总 线 控制 器 让 执行 完 每 个 框架 中 的 等 时 交互 以 后 就 会 来 执行 这 些 队列 中 的 交 筷 (请 求 )。 
不 过 中 断 传 输 CRG 一 个 交互 ) 是 以 交互 为 单位 持 入 队列 ， 而 控制 传输 和 成 块 传输 则 以 传输 为 单位 挂 
入 队列 ， 每 个 控制 传输 或 成 块 传输 本 身 又 起 个 交互 请 求 的 队列 〔 邮 使 队列 小 只 有 一 个 交互 )。 

完成 了 对 各 种 交互 请 求 的 调度 ， 建 立 起 相应 的 数据 结构 和 队列 以 后 ，CPU 就 完成 了 任务 ， 以 后 就 
EUSB 总 线 控制 器 的 事 了 。 在 运行 中 ，USB 总 线 控 制 器 根据 其 内 部 对 时 钟 脉冲 的 计数 确定 在 什么 时 候 
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开始 一 个 框架 以 及 哪个 框架 ， 接 着 就 “执行 ”该 框架 的 等 时 交 扎 队列。 然后， 执行 完 .个 框架 的 等 
时 交互 以 后 , 述 要 执行 若干 中 断交 互 。 到 执行 完 一 个 框架 的 等 时 交互 和 中 断交 里 时 , 应 该 至 少 还 有 10% 
的 时 间 剩 余 ， 此 时 就 来 执行 其 他 队列 ， -直到 框架 中 末 余 的 时 间 已 不 足以 完成 一 次 人 交互、 而 只 好 停 下 
来 等 待 下 一 个 框架 为 止 。 对 十 控制 传输 和 成 块 传输 的 交 世 请 求 队列 〈 也 就 是 对 每 个 控制 传输 或 成 块 传 
输 ) ， 执 行 时 有 两 种 不 同 的 方式 。 一 种 称 为 “纵向 执行 ”， 就 是 先 顺 着 一 个 队列 执行 完 所 有 的 交互 请 
求 ， 再 开始 另 一 个 队列 ; 男 一 种 称 为 “横向 执行 ”， 就 是 在 一 个 队 记 中 执行 一 个 (或 几 个 ) 交互 请 求 ， 
然后 就 转 到 下 一 个 队列 中 。 等 时 交互 和 中 断交 互 在 执行 以 后 仍 留 在 队列 中 ， 而 控制 交互 和 成 块 交互 则 
在 执行 以 后 由 USB 总 线 控 制 器 自动 予以 脱 链 。CPU 仅 在 需要 改变 调度 或 处 理 传输 结果 时 才 和 需要 介入 。 

WM, USB 上 的 信息 传输 ， 尤 其 是 主机 一 侧 的 过 程 ， 是 个 相当 复杂 、 并 日 时 间 性 要 求 很 高 的 过 程 ， 
需要 硬件 和 软件 分 工 合作 才 能 完成 。 那 么 怎样 分 工 呢 ? 这 就 需要 在 硬件 和 软件 之 间 划 出 个 标准 的 “ 主 
机 控制 器 界面 ”。 肯 前 有 两 种 这 样 的 界面 。 一 种 是 由 Intel 制定 的 ， 称 为 “Universal Host Controller 
JInterface”， 缩 写 为 UHCE; 另 一 种 是 出 Compaq. Microsoft 以 及 National Semiconductor 联合 制定 的 ， 
称 为 “Open Host Controller Interface”， 缩 写 为 OHCI. KEH, OHCI 把 更 多 的 功能 划 到 硬件 一 边 ， 
从 而 相应 的 芯片 就 更 复杂 一 些 ， 软 件 则 可 以 简单 “ 些 : 而 UHCI 则 让 软件 方面 多 厌 担 :- 些 ， 对 硬件 的 
要 求 就 相对 低 一 些 。 不 言 而 喻 ， 控 制 器 芯片 的 不同 当 然 会 导致 驱动 软件 的 不 同 ， 但 起 这 种 不 同 只 存在 
于 驱动 软件 的 低层 。 所 以 ，USB 总 线 的 驱动 程序 又 分 成 肉 层 ， 其 中 “USB 层 ” 是 共同 的 ， 在 它 下 面 则 
是 “HC” 层 ， 根 据 所 用 的 芯片 而 选用 UHCI 或 OHCT SKS) RIFE. Linux 内 核对 .者 都 提供 支持 ,可 以 
通过 条 件 编 译 选择 项 选用 。 对 OHCI 的 实现 在 drivers/usb/usb-ohci.c 和 drivers/usb/usb-ohci.h 两 个 文件 中 。 
对 UHCI 的 实现 则 又 有 两 种 ， 也 是 通过 条 件 纲 译 选择 项 选用 。 其 中 之 一 在 drivers/usb/usb-uhci.c 和 
drivers/usb/usb-uhci.h 两 个 文件 中 ， 另 一 种 则 在 drivers/usb/uhci.c 和 drivers/usb/uhci.h Mi^ X Ere, 我 们 
在 本 节 中 阅读 代码 时 采用 后 者 ， 但 是 读者 应 该 不 难 举一反三 。 我 们 之 所 以 选用 UHCI， 是 因为 UHCI 
的 软件 更 复杂 一 些 ， 但 是 读 了 以 后 对 USB 的 理解 会 更 深 一 些 。 目 前 ，Linux 内 核 2.4.0 版 所 实现 的 是 
USB 1.1 版 ， 以 后 肯定 很 快 就 会 支持 USB 2.0 版 。 

Be USB 以 外 ， 大 约 在 同 -- 时 期 还 发 展 起 了 另 一 种 类 似 的 串 行 外 设 总 线 ， 称 为 “Firewire”。 后 来 
由 IEEE 加 以 标准 化 ， 成 了 IEEE1394 标准 ，Linux 内 核 也 支持 IEEE1394。 但 是 ， 从 市 场 的 情况 来 看 ， 
USB 已 经 得 到 更 为 广泛 的 应 用 ， 并 已 进入 良性 循环 ， 所 以 也 更 为 重要 ， 而 且 一 者 在 逻辑 上 颇 为 相似 。 
ABER ET REAR RRSP AT USB ， 就 不 再 涉及 IEEE1394 了 。 内 核 中 与 此 有 关 的 代码 基本 上 都 在 
drivers/ieee1394 下 面 ， 有 兴趣 或 需要 的 读者 可 以 自己 加 以 研究 。 

此 外 , 还 要 提 一 下 并 行 外 设 总 线 。 原先 的 “并 行 L” 也 已 发 展 成 为 并 行 外 设 总 线 , 并 日 也 已 由 IEEE 
加 以 标准 化 , 成 为 了 IEEE1284 标准 ; 同样 ,Linux 内 核 也 支持 [EEE1284。 相 比 之 下 , TEEE1284 Lt USB 
简单 ， 功 能 也 没有 USB 强 ， 使 用 也 没有 USB 方便， 估计 可 能 会 慢 慢 被 USB 取代 。 限 丁 本 书 的 篇 幅 ， 
我 们 也 个 能 在 此 介绍 IEEE1284 了 。 与 此 有 关 的 几 个 文件 在 drivers/parport Fill, EAE GNE 

从 串 行 日 和 并 行 口 朝 着 品行 外 设 总 线 和 并 行 外 设 总 线 的 发 展 过 程 中 ， 我 们 可 以 看 出 在 传统 的 设备 
驱动 层 中 正在 形成 一 个 新 的 子 层 。 使 用 这 些 总 线 以 后 ， 原 来 的 “ 底 避 ”驱动 程序 现在 要 依靠 相应 总 线 
驱动 程序 所 提供 的 服务 才能 访问 月 标 设备 了 。 似 乎 可 以 说 :内核 在 设备 驱动 方面 的 重点 正在 从 提供 直 
接 的 设备 驱动 向 提供 实现 设备 驱动 的 手段 和 环境 转移 。 
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89.2 USB 总 线 的 初始 化 和 USB 设备 的 枚 举 


我 们 先 看 USB 总 线 本 身 的 初始 化 。 首 先 ，USB 控制 器 (连同 根 集中 器 ) 连 接 在 PCI 总 线 上 ， 是 一 个 
PCI 设备 ,在 PCI 总 线 的 初始 化 过 程 中 也 会 受到 枚 举 。PCI 设备 的 初始 化 完成 以 后 ， 在 PCI 总 线 树 中 就 
有 了 代表 着 具体 USB 总 线 控制 器 的 pci_dev 数据 结构 , 并 已 为 控制 器 的 IO 区 间 和 RAM 区 间 分 配 和 设 
置 了 总 线 地 址 。 

在 USB 总 线 控制 器 的 设备 驱动 程序 方面 ， 则 要 为 其 准备 下 -个 pei driver 数据 结构 ， 其 类 型 定义 
在 include/linux/pci.h 中 : 


449 struct pci driver | 





450 struct list head node; 
45] char *name; 
452 const struct pci device id *id table; /* NULL if wants all devices */ 
453 int (probe) (struct pci dev *dev, const struct pci device id xid); 
/* New device inserted */ 
454 void (*remove) (struct pci dev *dev); /* Device removed (NULL if not 


a hot-plug capable driver) */ 


455 void (ksuspend) (struct pci dev *dev); /* Device suspended */ 
456 void (resume) (struct pci dev *dev); /* Device woken up */ 
457 N; 


这 个 数据 结构 为 通用 的 PCI 设备 管理 机 制 提供 了 几 个 函数 指针 ， 特 别 是 为 个 通用 的 、”- 般 化 的 
PCI 设备 初始 化 过 程 提供 了 状 数 指针 probe。 供 这 个 PCI 设备 的 初始 化 过 程 “ 回 叫 ” 以 完成 具体 设备 
的 初始 化 。 对 于 遵循 UHCI 界面 的 USB HAR, H pci_driver 数据 结构 为 uhci_pci_driver， 定 义 于 


drivers/usb/uhci.c: 


2458 static struct pci driver uhci pci driver = | 


2459 name: ^usb-uhci^, 

2460 id table: — &uhci pci ids [0], 
2461 

2462 probe: uhci pci probe, 
2463 remove: uhci pci remove, 
2464 

2465 #ifdef CONFIG PM 

2466 suspend: uhci pci suspend, 
2467 resume: uhci pci resume, 
2468 Hendif /* PM */ 

2469 bh 


结构 中 的 指针 id table 应 该 指向 一 个 pei device id 结构 数组 ， 表 明 由 这 个 数据 结构 所 确定 的 设备 
驱动 程序 适用 于 哪 一 些 PCI 设备 。 对 此 ，drivers/usb/uhci.c 中 相应 地 定义 了 数组 uhci_pci_ids[ ]: 
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2441 static const struct pci device id __devinitdata uhci pci ids [ ] = (| 
2442 


2443 /* handle any USB UHCI controller */ 
2444 class: ((PCI CLASS SERIAL USB << 8) | 0x00), 
2445 class mask: 70, 

2446 

2447 /* no matter who makes it */ 

2448 vendor: PCI ANY ID, 

2449 device: PCI ANY ID, 

2450 subvendor: PCI ANY ID, 

2451 subdevice: PCI ANY ID, 

2452 

2453 ), ( /* end: all zeroes */ } 
2454}; 


从 其 定义 可 以 看 出 ， 它 适用 于 所 有 类 型 为 PCI CLASS. SERIAL USB, FARY 0 的 PCI 设备 ， 
即 USB 控制 器 ， 而 不 管 是 由 哪 . 家 厂商 提供 。 

准备 好 这 些 数 据 结构 以 后 ， 就 可 以 通过 inline 函数 pci_module_init( ) 向 系统 登记 具体 的 设备 驱动 程 
序 ， 并 对 设备 进行 初始 化 。 共 代码 在 include/linuxypci.h P: 


602 /* 

603 * a helper function which helps ensure correct pci driver 

604 * setup and cleanup for commonly-encountered hotplug/modular cases 
605 * 

606 * This MUST stay in a header, as it checks for -DMODULE 

607 */ 

608 static inline int pei_module_init (struct pci driver *drv) 

609 { 

610 int re = pci register driver (drv); 

611 

612 if (re > 0) 

613 return 0; 

614 

615 /* iff CONFIG HOTPLUG and built into kernel, we should 

616 * leave the driver around for future hotplug events. 

617 * For the module case, a hotplug daemon of some sort 

618 * should load a module in response to an insert event. */ 
619 #if defined(CONFIG HOTPLUG) && !defined (MODULE) 

620 if (re == 0) 

621 return 0; 

622 #endif 

623 

624 /* if we get here, we need to clean up pci driver instance 
625 * and return some sort of error */ 

626 pci unregister driver (drv); 

627 

628 return -ENODEV; 
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629 } 


iX Hi pci register driver( ) 完 成 PCI 设备 驱动 程序 的 登记 和 初始 化 ， 这 就 是 前 面 所 讲 的 通用 、 
一 般 化 的 PCI 设备 初始 化 过 程 。 这 个 函数 返回 … 个 计数 ， 表 示 在 PCI 总 线 上 找到 了 几 个 这 样 的 设备 。 
一 般 ， 如 果 这 个 函数 返回 0 就 此 调用 pci_unregister_driver( ) 撤销 登记 ， 但 是 如 果 PCI 总 线 允 许 “ 热 插 
入 ”。 即 在 加 电 以 后 的 运行 过 程 中 带电 插入 设备 ， 而 驱动 程序 又 并 非 通 过 可 安装 模块 实现 ， 则 不 应 撤销 
登记 (621 ÍP): 因为 以 后 热 插入 此 种 设备 时 仍 需要 执行 这 个 驱动 程序 ， 应 该 保留 着 ， 以 备 热 插入 此 种 设 
备 之 霸 。 函 数 pci register driver( ) 的 代码 在 drivers/pci/pci.c 中 : 


[pci module, init( ) > pci register. driver( )] 


324 int 

325 pei_register_driver (struct pci_driver *drv) 
326 { 

327 struct pci dev *dev; 

328 int count - 0; 

329 

330 list add tail(&drv-?node, &pci drivers); 
331 pci for each dev(dev) { 

332 if (!pci dev driver(dev)) 

333 count += pci announce device(drv, dev); 
334 } 

335 return count; 

336  ] 


首先 将 USB 总 线 控制 器 的 pci. driver 数据 结构 链 入 内 核 中 的 队列 pei. drivers, 这 就 是 所 谓 “ 登 记 ”。 
然后 通过 -个 循环 对 所 有 的 pei dev 数据 结构 调用 pei. dev. driver( )， 统 计 一 下 有 多 个 PCI 设备 尚未 与 
ARK SK ODA PE: LE. IX SPRUCE drivers/pei/pci.c H: 


[pci module. init( ) > pci_register_driver( ) > pci_dev_driver( )] 


456 struct pci driver * 

457 pci dev driver(const struct pci dev *dev) 
458 { 

459 if (dev driver) 

460 return dev->driver; 

461 else { 

462 int i; 

463 for(i-0; i«-PCI ROM RESOURCE; i++) 
464 if (dev->resourceli]. flags & IORESOURCE BUSY) 
465 return &pci compat driver; 
466 } 

467 return NULL; 

468 } 
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如 果 一 个 设备 的 pci_dev AMMA SE RPE. IFAS ARMA, NU 
pci_dev_driver( ) 返 回 0。 这 样 的 pci, dev 结构 需要 通过 pci_announce_device( )3]ll EA EX (drivers/pci/pci.c). 


[pci_module_init( ) pci register driver( ) > pci announce device( ) 
299 static int 


300 pci announce device (struct pci driver *drv, struct pci dev *dev) 
301 { 


302 const struct pci device id *id; 
303 int ret = 0; 

304 

305 if (drv->id table) { 

306 id = pci match device(drv-^id table, dev); 
307 if (tid) ( 

308 ret = 0; 

309 goto out; 

310 } 

311 ] else 

312 id = NULL; 

313 

314 dev probe lock( ); 

315 if (drv-^probe(dev, id) >= 0) { 
316 dev-^driver = drv; 

317 ret = 1; 

318 } 

319 dev probe unlock( ); 

320 out: 

321 return ret; 

322  ] 


订 想 而 知 ， 所 请 比 对 是 将 具体 设备 的 类 型 、 厂 家 等 等 在 PCI 枚 举 阶段 从 设备 收集 的 信息 与 USB HR 
动 程序 的 数组 uhci_pei_ids[ ] 进 行 比 对 ， 具 体 是 由 pci_match_device( ) 完 成 的 (drivers/pciypci.c): 


[pci module init( ) > pci register driver( ) > pci announce device( ) > pci. match, device( )] 
284 const struct pci device id * 


285 pci match device(const struct pci device id *ids, const struct pci dev *dev) 
286 { 





287 while (ids->vendor |! ids->subvendor || ids—>class_mask) | 
288 if ((ids>vendor == PCL ANY ID || ids-^vendor == dev->vendor) && 
289 (ids-»device == PCI ANY ID || ids—>device == dev—>device) && 
290 (ids—>subvendor == PCI ANY ID || 
ids->subvendor == dev-^subsystem vendor) && 
291 (ids->subdevice == PCI, ANY ID || 
ids—>subdevice == dev-P^subsystem device) && 
292 ! ((ids->class ^ dev->class) & ids->class_mask)) 
293 return ids; 
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ids++; 
} 
return NULL; 


如 果 比 对 结果 相符 ， 就 找到 了 个 USB miUe. ICE ET ES RHE HY BRET probe 


对 其 进行 初始 化 。 对 于 遵循 UHCI 界面 的 USB 总 线 控制 器 ， 这 个 函数 是 uhci_pci_probe( )， 其 代码 在 


drivers/usb/uhci.c 中 


[pci module, init( ) > pci register driver( ) > pci announce, device( ) > uhci pci probe( )] 


2316 


2377 
2378 
2379 
2380 
238] 
2382 
2383 
2384 
2385 
2386 
2387 
2388 
2389 
2390 
2391 
2392 
2393 
2394 
2395 
2396 
2397 
2398 
2399 
2400 
2401 
2402 
2403 
2404 
2405 
2406 


{ 


static int __devinit uhci_pci_probe (struct pci dev *dev, 


const struct pci device id *id) 
int i; 


/* disable legacy emulation */ 
pci write config word(dev, USBLEGSUP, 0); 





if (pci enable device(dev) < 0) 
return -ENODEY ; 


if (ldev >irq) { 
err ("found UHCI device with no TRQ assigned. check BIOS settings!^); 
return -ENODEV; 

} 


/* Search for the TO base address.. */ 

for (i = 0; i < 6; i++) { 
unsigned int io addr = pci resource start(dev, i); 
unsigned int io size - pci resource len(dev, i); 


/* IO address? */ 
if (!(pei resource flags(dev, i) & IORESOURCE I0)) 
continue; 


/* Ts it already in use? */ 
if (check region(io addr, io size)) 
break; 


pci set master (dev); 
return setup uhci(dev, dev-^irq, io addr, io size); 


} 


首先 通过 pci enable device( ) 及 其 下 面 的 一 系列 子 程序 启用 作为 PCI 设备 的 USB PEAS. BER 


数 都 在 drivers/pci/pci.c 或 arch/i386/kernel/pci-i386.c 中 ， 我 们 把 它们 留 给 读者 自己 阅读 ， 作 为 对 PCI 总 
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节 的 复习 。 


[pci_module_init( ) > pci_register_driver( ) > pci_announce_device( ) > uhci pci probe( ) 
> pci_enable_device( )] 


242 fk 

243 * pci enable device Initialize device before it's used by a driver. 
244 * (dev: PCT device to be initialized 

245 * 

246 * Tnitialize device before it's used by a driver. Ask low-level code 
247 * to enable [/O and memory. Wake up the device if it was suspended. 
248 * Beware, this function can fail. 

249 */ 

250 int 

251 pci enable device (struct pci dev *dev) 

252 | 

253 int err; 

254 

255 if ((err = peibios enable device(dev)) < 0) 

256 return err; 

251 pci set power siate(dev, 0); 

258 return 0; 

259 } 


(pci module, init( ) > pci register driver( ) > pci announce, device( ) > uhci pci probe( ) 
> pci enable device( ) > pcibios enable device( )) 


1042 
1043 
1044 
1045 
1046 
1047 
1048 
1049 


int pcibios enable device(struct pci dev *dev) 
{ 


int err; 


if ((err ~ pcibios enable resources(dev)) < 0) 
return err; 

pcibios enable irq(dev): 

return 0; 


[pci module, init( ) > pci register driver( ) > pci announce, device( ) > uhci, pci probe( ) 
> pci, enable, device( ) > pcibios enable device( ) > pcibios enable resources( )] 


306 
307 
308 
309 
310 
311 
312 
313 


int peibios enable resources (struct pci dev *dev) 


{ 
ul6 cmd, old emd; 
int idx; 
struct resource *r; 


pci read config word(dev, PCI COMMAND, &cmd) ; 
old cmd = cmd; 
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314 for(idx-0; idx<6; idx++) { 

315 r = &dev-?resource[idx]; 
316 if (!Ir-^start && rend) { 
317 printk (KERN ERR 


"PCI: Device 5s not available because of resource collisions MY, dev-^slot name); 
318 return -EINVAL; 


319 } 

320 if (r->flags & LORESOURCE 10) 

321 cmd |= PCI COMMAND I0; 

322 if (r->flags & IORESOURCE_ MEM) 

323 cmd |= PCI COMMAND MEMORY; 

324 } 

325 if (dev—>resource[PC1_ROM_RESOURCE]. start) 

326 cmd |= PCI COMMAND MEMORY; 

327 if (cmd != old cmd) { 

328 printk("PCT: Enabling device %s (%04x -> %04x) W^, 
dev-^slot name, old cmd, cmd); 

329 pci write config word(dev, PCI COMMAND, cmd); 

330 ) 

331 return 0; 

332 ] 


我 们 在 前 面 曾 说 USB 设备 没有 向 主机 发 出 中 断 请 求 的 能 力 ， 而 只 能 等 待 ， 受 主机 的 查询 。 但 是 这 
并 不 意味 着 USB 控制 器 (在 主机 中 ) 没有 向 CPU 发 出 中 断 请 求 的 能 力 ， 这 是 完全 不 同 的 两 回 事 ， 人 不 能 
Ws. HL, USB 控制 器 是 有 能 力 向 CPU 发 出 中 断 请 求 的 ， 所 以 要 接 道 它 的 中 断 请 求 线 
(arch/i386/kernel/pci-irq.c)« 


[pci module init( ) > pci register driver( ) > pci announce device( ) > uhci pci probe() 
> pci enable device( ) > pcibios enable device( ) > pcibios, enable irq( )l 


613 void pcibios enable irq(struct pci dev *dev) 


614 { 
615 u8 pin; 
616 pci read config byte(dev, PCI TNTERRUPT PIN, &pin); 
617 if (pin && !pcibios lookup irq(dev, 1) && !dev-^irq) { 
618 char *msg; 
619 if (io apic assign pci irqs) 
620 msg = ^ Probably buggy MP table.” 
621 else if (pci probe & PCI BIOS IRQ SCAN) 
622 msg - ^^ 
623 else 
624 msg = " Please try using pci-biosirq. ”; 
625 printk (KERN WARNING 
"PCI: No IRQ known for interrupt pin %c of device %s. %s\n” 
626 '"N + pin - 1, dev slot name, msg); 
627 } 
628 — ] 
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USB 控制 器 本 身 带 有 微 处 理 器 ， 在 USB 总 线 上 发 送 /接收 的 信息 部 由 USB 控制 器 通过 DMA 直接 
从 内 存 读 / 写 ， 主 机 的 CPU 只 此 提供 缓冲 区 指针 就 可 以 了 。 而 且 ，CPU 也 不 需要 逐次 地 为 USB 总 线 上 
的 操作 提供 缓冲 区 指针 ， 市 只 要 把 缓冲 区 指针 纪录 企 相 应 的 交互 请 求 ， 或 日 交互 描述 块 中 就 可 以 了 。 
USB 控制 器 自 会 顺 着 交互 请 求 队列 逐个 地 完成 对 这 些 缓冲 区 的 操作 。 类 似 的 DMA 操作 称 为 “智能 化 
DMA”. HSK, USB 总 线 控制 器 的 DMA 操作 甚至 比 一 般 的 智能 化 DMA 还 要 复杂 ， 因 为 CPU 为 之 准 
备 的 并 不 只 是 一 个 缓冲 区 队列 ， 而 是 许多 交互 请 求 队列 ， 称 为 一 个 “调度 ”。 

PCI 没 备 (的 接口 ) 要 进行 DMA 操作 就 得 具有 竞争 成 为 “总 线 主 ”的 能 力 。 另 一 方面 ，PCI 设备 的 
DMA 功能 还 要 服从 CPU 的 统一 管理 ， 在 PCI 配置 寄存 器 组 的 命令 寄存 器 中 有 一 个 控制 位 
PCLCOMMAND_MASTER， 就 是 用 来 打 逢 或 关闭 具体 PCI. 设备 竞争 成 为 总 线 主 的 能 力 。 在 完成 PCI 
总 线 的 初始 化 时 ， 所 有 PCI 设备 的 DMA 功能 都 是 关闭 的 ， 所 以 这 里 要 通过 pci_set_master( ) 启 用 USB 
控制 器 竞争 成 为 总 线 主 的 能 力 (drivers/pci/pci.c)。 


[pci_module_init( ) > pci register. driver( ) > pci announce, device( ) > uhci pci probe( ) 
» pci set master( )] 





508 void 

509 pci set master(struct pci dev *dev) 

510 « «4 

511 ul6 cmd; 

512 

513 pci read config word(dev, PCI COMMAND, &cmd) ; 

514 if (! (cmd & PCI COMMAND MASTER?) | 

515 DBG (“PCI: Enabling bus mastering for device %s\n”, dev-5slot name) 
516 emd |= PCT COMMAND MASTER; 

517 pci write config word(dev, PCI COMMAND, cmd); 
518 ) 

519 pcibios set master (dev); 

520 } 


再 回 到 uhci_pci_probe( ) 的 代码 中 , USB 控制 器 作为 PCI 设备 在 PCI 总 线 层次 上 的 初始 化 已 经 完成 
了 ， 下 面 就 是 USB 总 线 控 制 器 本 身 的 初始 化 ， 即 USB 总 线 的 初始 化 了 。 这 是 由 setup uki ) 完 成 的 ， 
其 代码 在 drivers/usb/uhci.c 中 : 


[pci module, init( ) > pci register driver( ) > pci. announce device( ) > uhci pci probe( ) > setup uhci( )] 


2327 /* 

2328 * Tf we've successfully found a UHCI, now is the time to increment the 
2329 * module usage count, and return success.. 

2330 */ 


2331 static int setup uhci(struct pci dev *dev, int ira, 
unsigned int io addr, unsigned int io size) 


2332 { 
2333 int retval; 
2334 struct uhci *uhci; 
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2335 char buf(8], *bufp = buf; 

2336 

2337 üifndef | spare _ 

2338 sprintf(buf, "Wd", irq); 

2339 Helse 

2340 bufp = | irq itoa(irg): 

2341 Hendif 

2342 printk (KERN_INFO __FILE__ ”. USB UHCI at I/O Ox*x, IRQ %s\n”, 
2343 io addr, bufp); 

2344 

2345 uhci = alloc uhci(io addr, io size); 

2346 if (!uhci) 

2347 return -ENOMEM; 

2348 dev-^driver data = uhci; 

2349 

2350 request region(uhci-^io addr, io, size, “usb-uhci”) ; 
2351 

2352 reset hc(uhci); 

2353 

2354 usb register bus(uhci-^bus); 

2355 start hc(uhci); 

2356 

2357 retval = -EBUSY; 

2358 if (request irq(irq, uhci interrupt, SA_SHIRQ, "usb-uhci^, uhci) == 0) { 
2359 uhci-^irq = irq; 

2360 

2361 pci write config word(dev, USBLEGSUP, USBLEGSUP DEFAULT) ; 
2362 

2363 if (!uhci start root hub(uhci)) 

2364 return 0; 

2365 } . 

2366 

2367 /* Couldn't allocate IRQ if we got here */ 

2368 

2369 reset hc(uhci); 

2310 release region(uhci-^io addr, uhci-^io size); 

2311 release uhci (uhci); 

2312 

2313 return retval; 

2334.) 


参数 dev 指向 USB 4&9] 38 AY pci. dev 数据 结构 ,irq 为 该 PCI 设备 所 连接 的 中 断 请 求 输入 线 号 ， 
io. addr 则 为 其 VO 地 址 空间 的 起 始 地 址 ， 区 间 的 大 小 为 io_size。 

每 个 USB 控制 器 控制 着 一 条 USB 总 线 ， 需 要 有 -个 数据 结构 作为 代表 。 对 于 遵循 UHCI 界面 的 
控制 器 ， 那 就 是 uhci 结构 ， 定 义 于 drivers/usb/uhci.h: 


308 struct uhci { 
427 . 
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309 /* Grabbed from PCI */ 


310 int irq; 

311 unsigned int io addr; 

312 unsigned int io size; 

313 

314 struct list head uhci list; 

315 

316 struct usb bus *bus; 

317 

318 struct uhci td skeltd[UHCI NUM SKELTD]; /* Skeleton TD's */ 
319 struct uhci qh skelqh[UHCI NUM SKELQH]; /* Skeleton QB’ s */ 
320 

321 spinlock t framelist lock; 

322 struct uhci framelist *fl: /* Frame list */ 
323 int fsbr; /* Full speed bandwidth reclamation */ 
324 

325 spinlock t qh remove lock; 

326 struct list head qh remove list; 

327 

328 spinlock t urb remove lock; 

329 struct list head urb remove list; 

330 

331 Struct s nested lock urblist lock; 

332 struct list head urb list; 

333 

334 struct virt root hub rh; /* private data of the virtual root hub */ 
335 Hh 


数据 结构 中 有 几 个 特别 重要 的 成 分 。 首 先是 指针 有， 指向 一 个 uhci_framelist 数据 结构 ， 这 就 是 具 
体 USB 总 线 的 “框架 表 ” 这 种 数据 结构 也 定义 于 drivers/usb/uhci.h: 


100 struct uhci framelist | 
101 ...u32 frame [UHCI_NUMFRAMES] ; 
102 } |, attribute. ((aligned(4096))); 


USB 总 线 的 框架 表 实 际 上 是 个 指针 数组 ， 每 个 指针 都 指向 一 个 等 时 交互 队列 。 常 数 
UHCI_NUMFRAMES 在 同一 文件 中 定义 为 1024， 所 以 整个 数组 代表 着 1024 个 框架 。 数 组 的 起 始 地 址 
必须 与 AK 字 节 边界 对 齐 ， 这 样 其 起 始 地 址 的 低 12 位 就 全 部 是 0。USB 控制 器 内 部 有 个 “框架 表 基 地 
址 寄存 器 ”， 用 来 记录 这 个 基地 址 。 同 时 ，USB 控制 器 内 部 还 有 个 10 位 的 “框架 计数 器 ”， 这 个 计数 器 
从 0 开始 ， 每 过 1 毫秒 (1/1024 秒 ) 就 加 1， 直 至 Ox3H HD 1023， 然 后 又 变 为 0， 如 此 周而复始 ， 在 框架 
计数 的 后 面 洪 上 两 位 0, 再 与 框架 表 的 基地 址 连 在 一 起 ,就 成 了 指向 框架 表 中 某 个 表 项 的 指针 。 框架 表 
中 的 每 个 表 项 都 指向 -个 uhci_td 结构 的 队列 , 每 个 uhci_td 结构 是 对 一 个 交互 的 描述 , 我 们 称 之 为 “ 交 
互 描述 块 ” 或 “交互 请 求 ” USB 控制 器 在 每 个 框架 中 首先 就 执行 这 个 队列 。 每 个 等 时 交互 队列 中 的 最 
后 一 个 数据 结构 指向 一 个 (实际 上 是 - - 截 ) 中 断交 互 队列 。 中 断交 互 队 列 与 框架 之 间 并 不 是 一 - -对 应 的 关 
系 ，uhci 结构 中 有 个 uhci_td 结构 数组 skeltd[ ]， 其 中 的 每 个 元 素 都 指向 一 截 中 断交 互 请 求 队列 ， 常 数 
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UHCL NUM. SKELTD 定义 为 10， 其 中 skeltd[0] 是 整个 队列 的 终点 ， 而 skeltd[9] 实 际 上 不 用 ， 所 以 一 共 
有 8 截 这 样 的 中 断交 坪 请 求 队列 。 这 些 中 断交 互 请 求 队列 又 链接 在 一 起 ， 成 为 “个 总 的 中 断交 互 请 求 
队列 。 但 是 ， 链 接 在 不 同 部 位 上 的 中 断交 互 请 求 受到 执行 的 频率 是 不 样 的 。 当 将 一 个 代表 着 中 断交 
HRY uhci td 结构 链 入 队列 时 ， 可 以 根据 所 要 求 的 执行 周期 选择 链 入 中 断交 互 请 求 队列 的 不 同 部 位 。 而 
skeltd[ ] 中 的 各 个 元 素 , 则 起 着 链 入 点 的 作用 , 所 以 这 个 数 纽 称 为 中 断交 互 请 求 队 刻 的 “骨架 ”CSkeleton)。 
这 些 链 入 点 本 身 也 是 uhci_td 结构 ， 不 过 是 空闲 的 uhci td 结构 ，USB 控制 器 在 执行 时 会 良 动 叔 过。 此 
外 ， 下 面 读 者 将 会 看 到 ， 虽 然 中 断交 互 请 求 队列 并 不 与 框架 一 一 对 应 ，. -省 间 还 是 有 着 某 种 静态 的 对 

等 时 交互 和 中 断交 互 都 是 周期 性 的 ， 在 每 个 框架 中 -者 的 流量 加 在 一 起 不 越过 90 旬 。 这 样 ， 人 在 每 
个 框架 中 ，USB 控制 器 在 执行 完 这 两 种 交互 请 求 以 后 总 是 还 有 一 些 时 间 ( 至 少 10%)， 可 以 用 来 执行 控 
制 交互 以 及 成 块 交互 。 这 两 种 交互 都 不 是 周期 性 的 ， 其 队列 与 框架 没有 静态 的 对 应 关系 ，USB 控制 器 
对 这 些 队 列 的 执行 完全 是 动态 的 ， 有 时 间 就 执行 ， 没 有 时 间 就 不 执行 ， 时 间 多 就 多 执行 ， 时 间 少 就 少 
BUT. Æ uhci 结构 中 还 有 个 uhci_qh 结构 数组 skelqh[ ]， 数 组 中 的 每 个 元 素 都 是 一 个 队列 头 ， 用 来 维持 
一 个 “队列 的 队列 ” 或 者 说 传输 请 求 的 队列 。 如 前 所 述 ， 每 个 传输 请 求 是 一 个 交互 请 求 的 队 人 询 。 所 以 ， 
这 个 数组 是 控制 /成 块 传输 请 求 队列 的 骨架 ， 其 大 小 是 UHCI NUM_SKELQH， 在 drivers/usb/uhci.h 中 
定义 为 4。 从 逻辑 上 说 ， 只 要 有 两 个 链 入 点 就 够 了 ， 可 是 实际 上 USB 设备 有 企 速 和 低速 之 分 ， 还 有 一 
个 有 着 特 殊 的 用 途 ， 所 以 共有 4 个 。 

因此 ， 除 还 有 其 他 ，- 些 成 分 以 外 ，uhci 数据 结构 实际 上 代表 着 主机 CPU 为 一 条 USB 总 线 排 好 的 
“日 程 表 ”， 或 者 说 执行 程序 ， 这 就 称 为 一 个 “调度 ”(schedule)。 不 诗 而 喻 ， 初 始 化 时 要 为 USB 控制 
器 分 配 、 建 立 一 个 uhci 数据 结构 。 这 是 由 alloc uhci( ) 完 成 的 ， 其 代 僻 在 drivers/usb/uhci.c FP. XX FR 
数 的 代码 较 长 ， 我 们 分 段 阅读 。 


[pci module. init( ) > pci register driver( ) > pci announce device( ) > uhci_pci_probe( ) > setup uhci( ) 
> alloc. uhci( )! 


2129 — /* 

2130 * Allocate a frame list, and then setup the skeleton 
2131 * 

2132 * The hardware doesn't really know any difference 
2133 * in the queues, but the order does matter for the 
2134 * protocols higher up. The order is: 

2135 * 

2136 * ~ any isochronous events handled before any 

2137 * of the queues. We don't do that here, because 
2138 * we ll create the actua] TD entries on demand. 
2139 * - The first queue is the "interrupt queue”. 

2140 * - The second queue is the "control queue”, split into low and high speed 
2141 * - The third queue is "bulk data". 

2142 */ 


2143 static struct uhci *alloc_uhci (unsigned int io addr, unsigned int io size) 
2144 { 
2145 int i, port; 
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2146 struct uhci *uhci; 

2147 struct usb bus *bus; 

2148 

2149 uhci = kmalloc (sizeof (*uhci), GFP KERNEL); 
2150 if (luhci) 

2151 return NULL; 

2152 

2153 memset(uhci, 0, sizeof(kuhci)); 

2154 

2155 uhci-^irq = -1; 

2156 uhci->io addr = io addr; 

2157 uhci-^io size = io size; 

2158 

2159 spin lock init (@uhci-->gh remove lock); 

2160 INIT LIST HEAD (&uhci->gh_remove_list) ; 

2161 

2162 spin_lock_init (@uhci—>urb_remove_lock) ; 

2163 INIT LIST HEAD(&uhci-^urb remove list); 

2164 

2165 nested init(&uhci-^urblist lock); 

2166 INTT LTST HEAD (&uhci-^urb list) ; 

2167 

2168 spin lock init(&uhci-^framelist lock); 

2169 

2170 /* We need exactly one page (per UHCI specs), how convenient */ 
2171 /* We assume that one page is atleast 4k (1024 frames * 4 bytes) */ 
2172 uhci- fl = (void *) get free page(GFP KERNEL); 
2173 if (!uhci-^fl) 

2174 goto au free uhci; 

2175 

2176 bus - usb alloc bus(&uhci device operations); 
2177 if (!bus) 

2178 goto au free fl; 

2179 

2180 uhci->bus = bus; 

2181 bus-^hcpriv = uhci; 

2182 


首先 为 uhci 数据 结构 分 配 空间 ， 结 构 中 qh remove list. urb remove list, urb, list 等 队列 的 作用 以 
后 会 看 到 ， 这 里 是 对 这 些 队列 头 的 初始 化 。 然 后 就 是 为 框架 表 分 配 空 间 ，1024 个 指针 的 大 小 为 4KB, 
正好 是 一 个 页 面 。 前 面 讲 过 ，uhci 数据 结构 代表 着 一 个 USB 控制 器 ， 从 而 也 代表 着 一 条 USB 总 线 ; 
然而 ，ubhci 数据 结构 中 的 成 分 实际 上 还 不 足以 全 面 地 反映 一 条 USB 总 线 的 状态 ， 因 此 内 核 中 又 定义 了 
一 种 usb bus 数据 结构 。 所 以 ， 也 要 为 usb bus 结构 分 配 空间 ， 并 使 uhci 和 usb. bus 岗 个 数据 结构 通过 
旨 针 互相 指向 对 方 ， 连 结 成 “个 整体 。 这 种 数据 结构 定义 于 include/linux/usb.h: 


561 struct usb bus { 
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562 
563 
564 
565 
566 
567 
568 
569 
570 
571 
572 
573 
574 
575 
576 
517 
578 
579 
580 
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int busnum; 


struct usb devmap devmap; 
struct usb operations *op; 
struct usb device *root hub; 
struct list head bus list; 
void *hcpriv; 


int bandwidth allocated; 


int bandwidth int reqs; 
int bandwidth isoc reqs; 


struct list head inodes; 


/* 


/* 
/* 
/* 


/* 


/* 
/* 
/水 
/* 
/* 
/* 
/* 


/* 





Bus number (in order of reg) */ 


Device map */ 
Operations (specific to the HC) */ 
Root hub */ 


Host Controller private data */ 


on this Host Controller; */ 

applies to Int. and Isoc. pipes; */ 
measured in microseconds/frame; */ 
range is 0..900, where 900 = */ 

90% of a i-millisecond frame */ 
number of Interrupt requesters */ 
number of Isoc. requesters */ 


usbdevfs inode list */ 


HA. MARERE NAAA, EA RP REA Pe? 我 们 在 前 面 讲 过 ，USB 总 线 控 


制 器 有 UHCI 和 OHCI 两 种 界面 ，uhci 数据 结构 正 是 对 UHCI 界面 的 抽象 。 而 usb bus 结构 ， 则 是 对 这 
两 种 界面 的 公共 部 分 ， 即 “USB 总 线 ” 层 次 上 的 抽象 。 正 因为 这 样 ，usb_bus 结构 中 的 指针 hepriv 4 
个 无 类 型 (void) 指 针 ， 它 可 以 指向 一 个 uhci 数据 结构 ， 也 可 以 指向 一 个 ohci 数据 结构 。 


iS usb. alloc bus( ) 的 作用 是 为 usb. bus 结构 分 配 空间 并 进行 初始 化 。 由 于 简单 ,我 们 就 个 列 出 其 


代码 了 。 这 个 数据 结构 中 的 指针 op 应 该 指向 一 个 usb_operations 数据 结构 ， 这 里 将 其 设置 成 指向 
uhci_device_operations， 分 别 定义 于 include/linux/usb.h 和 drivers/usb/uhci.c: 


550 
591 
552 
993 
554 
555 
556 


1615 
1616 
1617 
1618 
1619 
1620 
1621 


struct usb operations | 
int (kallocate) (struct usb device *); 

int Gkdeallocate) (struct usb device *); 

int (kget frame number) (struct usb device *usb dev); 
int Cksubmit urb) (struct urb* purb); 

int Ckunlink urb) (struct urb* purb); 


Im 


struct usb operations uhci device operations = { 


j 


uhci alloc dev, 
uhci free dev, 


uhci get current frame number, 


uhci submit urb, 
uhci unlink urb 


显然 ， 这 个 数据 结构 为 具体 USB 控制 器 界面 的 操作 提供 了 函数 指针 。 
我 们 继续 看 alloc_uhci( ) 的 代码 (drivers/usb/uhci.c)。 
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[pci module init( ) > pci_register_driver( ) > pci announce, device( ) > uhci pci probe( ) > setup uhci( ) 
> alloc_uhci( )] 


2183 /* Initialize the root hub */ 
2184 
2185 /* UHCI specs says devices must have 2 ports, but goes on to say */ 
2186 /* they may have more but give no way to determine how many they */ 
2187 /* have. However, according to the UHCI spec, Bit 7 is always set */ 
2188 /* to l. So we try to use this to our advantage */ 
2189 for (port = 0; port < (io size - 0x10) / 2: port++) { 
2190 unsigned int portstatus; 
2191 
2192 portstatus = inw(io addr + 0x10 + (port * 2)); 
2193 if (!(portstatus & 0x0080) ) 
2194 break; 
2195 } 
2196 if (debug) 
2197 info("detected %d ports”, port); 
2198 
2199 /* This is experimental so anything less than 2 or greater than 8 is */ 
2200 /* something weird and we'll ignore it */ 
2201 if (port < 2 || port > 8) { 
2202 info(l'port count misdetected? forcing to 2 ports”); 
2203 port = 2; 
2204 } 
2205 
2206 uhci->rh. numports = port; 
2207 
2208 /* 
2209 * 9 Interrupt queues; link int2 to intl, int4 to int2, etc 
2210 * then link intl to control and control to bulk 
2211 */ 
2212 for Gi = 1; i <9; i++) 1 
2213 struct uhci td *td - &uhci->skeltd[i]: 
2214 
2215 uhci fill td(td, 0 
(UHCI NULL DATA SIZE << 21) (Ox7f << 8) | USB PID IN, 0); 
2216 td->link - virt to bus(&uhci skeltd[i - 1]); 
2217 } 
2218 
2219 
2220 uhci fill td(&uhci-^skel intl td, 0, ü 
(UHCI NULL DATA SIZE << 21) | (Ox7f << 8) | USB PTD TN, 0); 
2221 uhci->skel intl td. link = 
virt to bus(&uhci-^skel 1s control gh) | UHCI PTR QH; 
2222 
2223 uhci->skel 1s control gh.link = 


virt to bus(&uhci ^skel hs control qh) | UHCI PTR QH; 
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2224 
2225 
2228 


2221 
2228 
2229 


2230 
2231 
2232 
2233 


2234 
2235 
2236 
2237 


uhci-^skel ls control qh. element - UHCI PTR TERM; 


uhci-»skel hs control gh. link = 
virt to bus(&uhci-^skel bulk gh) | UHCI PTR QH; 
uhci-^skel hs control qh. element — UHCI PTR TERM; 


uhci-^skel bulk gh. link = 
virt to bus(&uhci ^skel term gh) : UHC1_PTR_QH; 
uhci-^skel bulk qh. element = UHCI PTR, TERM; 


/* This dummy TD is to work around a bug in Intel PIIX controllers */ 
uhci fill td(&uhci-^skel term td, 0, 

(UHCl NULL DATA SIZE << 21) | (Ox7f << 8) , USB PID IN, 0); 
uhci-^skel term td. link = UHCI PTR TERM; 


uhci-^skel term gh. link = UHCI PTR TERM; 
uhci-^skel term gh.element = virt to bus (&uhci->skel term td); 


USB 总 线 的 根 集中 器 总 是 与 USB Vila SERE ái. OP UHCI AB S Eb, JE UO 地 址 
区 间 的 前 16 Mb HP ea A, RORBUSUH TIREPA. HR RIES "XLI" (poro rs 
用 两 个 地 址 。 端 所 的 数量 则 取决 十 具体 的 芯片 ， 至 少 2 个 ,最 多 8 个 。 每 个 端口 的 状态 寄存 器 中 的 bit7 
痢 是 1， 所 以 代码 中 通过 一 个 循环 试 读 ， 以 确定 根 集中 器 中 端口 的 数量 。 


前 面 讲 过 ，uhci 结构 小 的 skeltdf ] 用 于 8 截 中 断交 互 队列 ， 趋 个 uhci td 数据 结构 的 数组 。 结 构 名 


HH) “td” Æ “AERA” (transaction descripton) 的 意思 。 这 种 数据 结构 定义 丁 drivers/usb/uhci.h: 


175 
176 
177 
178 
179 
180 
181 
182 
183 
184 
185 
186 
187 
188 
189 
190 


struct uhci td | 


Pag 


/* Hardware fields */ 
u32 link; 

| u32 status; 

. u32 info; 

__uds2 buffer; 


/* Software fields */ 
unsigned int *frameptr; /* Frame list pointer */ 
struct uhci td *prevtd, *nexttd; /* Previous and next TD in queue */ 


struct usb device *dev; 
struct urb *urb; /* URB this TD belongs to */ 


struct list head list; 
attribute — ((aligned(16))); 


每 个 uhci td 数据 结构 代表 着 个 交互 请 求 ， 就 好 像 是 对 USB 控制 器 的 一 条 指令 。 结 构 中 前 4 个 
32 位 长 字 的 作用 是 由 USB 控制 器 的 信件 结构 所 确定 了 的 , 因而 不 能 改变 , 不 过 使 件 只 认 开 头 这 4 个 字 
段 ， 其 余 的 字段 则 由 软件 定义 和 使 用 。 数 据 结构 的 起 点 必须 与 16 宁 节 的 边界 对 齐 ， 这 也 是 USB 总 线 
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控制 器 的 硬件 结构 所 要 求 的 。 这 4 个 32 位 长 字 实 际 上 相当 于 一 组 寄存 器 。 在 本 书 中 ， 我 们 把 由 硬件 使 
用 的 这 一 部 分 称 为 “交互 描述 块 ” 以 区 别 于 整个 交互 描述 结构 。 结 构 头 部 的 4 个 字段 中 ，link 是 指向 
下 一 个 uhci td 数据 结构 的 链接 指针 ，buffer 则 指向 用 于 发 送 或 接收 的 缓冲 区 ， 二 者 均 为 物理 地 址 。 此 
外 ，info 就 好 像 是 命令 寄存 器 ， 相 当 于 指令 中 的 操作 码 。 内 核 在 drivers/usb/uhci.c 中 提供 了 一 个 inline 
HX uhci_fill_td( )， 用 于 设置 uhci_td 数据 结构 头 部 除 link 外 的 三 个 字段 ; 


165 static void inline uhci fill td(struct uhci td *td, ^ u32 status, 


166 . u32 info, | u32 buffer) 
167 {d 

168 td->status = status; 

169 td->info = info; 

170 td->buffer = buffer; 

171 } 


Ert 2212 行 的 for 循环 是 对 中 斯 交互 队列 的 初始 化 。 除 第 一 个 uhci_td 数据 结构 skeltd[0] 以 外 , 其 
余 的 8 个 uhci td 结 购 都 设置 成 无 数据 的 输入 交互 ; 并且 都 指向 其 前 面 的 uhei_td 数据 结构 ， 而 status 
和 buffer 两 个 字段 则 都 初始 化 成 0， 表示 “ 空 操作 ”。 

至 于 skekd[0], ， 则 (2220 一 2221 行 ) 初 始 化 成 指向 低速 USB 设备 的 控制 交 五 队列 ， 即 
uhci-»skel ls control _ qh。 这 里 的 skel intl td. skel ls control gh 都 是 drivers/usb/uhci.h 中 定义 的 宏 定 
X: 


235 #define UHCI NUM SKELTD 10 





236 #define skel_intl_td skeltd[0] 
237 #define skel_int2_td skeltd[1] 
238 #define skel_int4 td skeltd[2] 
239 #define skel int8 td skeltd[3] 
240 #define skel intl6 td skeltd[4] 
241 #define skel int32 td skeltdí5] 
242 #define skel int64 td skeltd[6] 
243 &define skel int128 td skeltd{7] 
244 #define skel_int256_td skeltd[8] 
245 Hdefine skel term td skeltd[9] /* To work around PIIX UHCI bug */ 
246 


247 #define UHCI NUM SKELQH 4 

248 #define skel ls control gh skelqh[0] 
249 #define skel hs control gh skelgh[1] 
250 #define skel bulk gh skelgh[2] 
251 &define skel term qh skelqh[3] 


这 些 宏 定 义 实 际 上 说 明了 各 个 队列 的 作用 。 例 如 ，skel_ls_control qh #248 skelqh[0] 是 低速 设备 的 
控制 传输 队列 头 。 厚 么 ，skel_intl_td 义 表示 什么 呢 ? 下 面 读者 就 会 看 到 ， 它 表示 skeltd[0] 是 在 每 一 个 
时 间 框 架 中 都 会 执行 一 遍 的 中 断交 互 请 求 链 入 点 。 相 应 地 ，skel_int2_td 则 表示 skeltdf1] 是 每 两 个 框架 
才 会 执行 一 遍 的 中 断交 吉 请 求 链 入 点 ， 等 等 。 

与 skeltd[ ] 不 同 , skelgh[ ] 中 的 元 素 是 uhci_qh 数据 结构 , 结构 名 中 的 “qh” 表 示 这 是 个 队列 头 (queue 
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head)。 这 种 数据 结构 定义 于 drivers/usb/uhci.h: 


106 struct uhci qh { 


107 /* Hardware fields */ 

108 __u32 link; /* Next queue */ 

109 __ud2 element; /* Queue element pointer */ 
110 

111 /* Software fields */ 

112 /* Can t use list head since we want a specific order */ 
113 struct usb device **dev; /* The owning device */ 
114 

115 struct uhci qh *prevqh, *nextgh; 

116 

117 struct list head remove list; 


118 ) attribute — ((aligned(16))) ; 


这 个 数据 结构 也 与 USB 控制 器 的 硬件 有 关 ， 其 头 部 的 link 和 element 两 个 字段 的 作用 是 由 硬件 确 
定 的 ， 因 而 不 能 改变 ， 其余 的 字段 则 只 由 软件 使 用 。 同 样 , 我 们 有 时 把 由 硬件 使 用 的 这 -部 分 称 为 “ 队 
列 描述 块 "， 以 区 别 于 整个 数据 结构 。 字 段 link 实际 .上 是 指向 下 一 个 队列 (描述 块 ) 的 指针 ，elememt 也 
是 指针 ， 通 常 指 向 本 队列 中 的 第 一 个 交互 描述 块 ， 但 是 在 特殊 情况 下 也 可 以 指向 另 一 个 队 生 描述 块 。 
二 者 均 采 用 物理 地 址 。 由 于 uhei_td 数据 结构 和 uhci. gh 数据 结构 都 是 与 16 字 节 边界 对 齐 的 , 其 地 址 的 
(& 4 位 - 定 是 0， 所 以 link 和 element 两 个 字段 的 低 4 位 可 以 用 作 标 志 位 。 其 中 最 低位 为 “结束 ”位 
UHCI PTR_TERM， 当 队列 为 空 时 ,将 队列 头 的 指针 elememt 设置 成 1( 而 不 是 0)， 就 是 因为 其 “结束 ” 
位 为 1。 此 外 ， 指 针 中 还 有 -个 标志 位 UHCL_ PTR_QH， 用 来 告诉 USB 控制 器 所 指向 的 是 队列 描述 块 
还 是 交互 描述 块 .从 代码 中 可 以 看 出 ,队列 头 skel. Is. control, qh 通过 其 link 字段 指 向 skel. hs. control, qh， 
而 skel hs control, qh 则 又 指向 skel_bulk_qh。 所 有 这 三 个 队列 开始 时 都 是 空 的 。 除 这 些 以 外 ，skeltd[ ] 
中 还 有 个 skeltd[9]， 即 skeL_term_td， 代 码 中 的 注释 说 这 是 因为 USB 总 线 控制 器 所 在 的 Intel PIIX 45/1 
内 部 有 个 错误 ， 为 了 绕 过 这 个 错误 而 设 的 。 还 有 ， 在 skelqh[ ] 中 还 有 个 skelqh[3]， 即 skel_term_qh， 这 
是 为 回收 框架 中 尚未 用 完 的 时 间 而 设置 的 ， 读 者 以 后 会 看 到 其 作用 。 

这 样 ， 对 中 汤 、 控 制 和 成 块 等 三 种 交互 请 求 队列 的 初始 化 就 完成 了 。 下 面 是 对 框架 ， 即 1024 个 等 
时 交互 请 求 队列 的 初始 化 。 我 们 继续 往 下 看 (drivers/usb/uhcei.c)。 


[pci_module_init( ) > pci register driver( ) > pci announce device( ) > uhci_pci_probe( ) > setup uhci( ) 
> alloc_uhci( )] 


2238 

2239 /* 

2240 * Fill the frame list: make all entries point to 
2241 * the proper interrupt queue. 

2242 * 

2243 * This is probably silly, but it's a simple way to 
2244 * scatter the interrupt queues in a way that gives 
2245 * us a reasonable dynamic range for irq latencies. 
2246 */ 
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2247 for (i = 0; i < 1024; i++) { 

2248 struct uhci td *irq = &uhci->skel_intl_td; 
2249 

2250 if G & D { 

2251 irqt*; 

2252 if (i & 2) { 

2253 irq**; 

2254 if (6 & 4) ( 

2255 irqtt; 

2256 if G& 8) { 

2257 irqt+; 

2258 if (i & 16) { 

2259 irq**; 

2260 if Gi & 32) { 
2261 irqt*; 

2262 if (i & 64) 
2263 irqtt; 
2264 } 

2265 } 

2266 } 

2267 ) 

2268 ] 

2269 } 

2270 

2271 /* Only place we don’t use the frame list routines */ 
2272 uhci->fl—>frame{i] = virt to bus(irg); 
2213 ] 

2274 

2275 return uhci; 

2276 

2277 /* 

2278 * error exits: 

2279 */ 

2280 au free fl: 

2281 free page((unsigned long)uhci—f1); 
2282 au free uhci: 

2283 kfree(uhci); 

2284 

2285 return NULL; 

2286 ] 


框架 表 的 1024 个 表 项 代表 着 1024 个 1 堂 秒 框架 ， 每 个 表 项 都 是 一 个 uhci_td 结构 指针 ， 指 向 一 个 
等 时 交互 请 求 队列 ， 而 队列 中 的 最 后 一 个 uhci_td 结构 则 应 该 指向 一 个 中 断交 互 请 求 的 uhei td 结构 。 
然而 ， “开始 时 还 没有 等 时 安 互 请 求 ， 每 个 框架 的 等 时 交 扯 请 求 队列 赤 是 室 的 ， 所 以 此 时 栖 架 表 的 每 
个 表 项 都 应 该 直接 指向 中 断交 妆 请 求 队列 中 的 某 一 个 链 入 点 、 也 就 是 skeltd[ ] 中 的 某 个 元 素 。 可 是 ， 
skeltd[ ] 中 共有 10 个 uhci td 数据 结构 ， 应 该 指向 哪 一 个 呢 ? 我们 看 代码 ， 这 里 的 for 循 坏 是 很 有 意思 
. 436 . 


dax 设备 驱动 

的 。 对 于 框架 表 中 的 每 一 个 表 项 ， 先 都 假定 指向 skeltd[0], HU skel intl td (2248 行 )， 让 中断 交互 请 求 
skeltd[0] 在 每 个 框架 中 都 会 得 到 -次 执行 。 然 后 ， 如 果 表 项 的 框架 号 ( 即 数组 下 标 ) 为 奇数 (2250 行 )， 则 
把 指针 调整 为 指向 skeltd[11]。 这 样 ，skeltd[1] 就 会 每 隔 一 个 框架 得 到 次 执行 。 同 时 ， 前 面 已 经 看 证， 
skeltd[1] 的 指针 link 指向 skeltdl0]， 所 以 skeltd[0] 还 是 在 每 个 框架 中 都 会 得 到 执行 ， 所 以 ，skeltd[0] 是 
skel intl td, 而 skeltd[1] 则 是 skel_int2_td。 间 理 , 如 果 框 架 号 的 最 后 岗位 为 3, NHR skeltd[2], {Ë skeltd[2] 
每 隔 3 个 框架 就 会 得 到 一 次 执行 ， 所 以 是 skel_int4_td。 由 于 skeltdf2] 的 指针 link 指向 skeltd[1]， 所 以 
skeltd[1] 和 skeltdI0] 的 执行 保持 不 变 ， 余 类 排 。 最 后 ， 旭 果 框架 号 的 最 后 7 位 为 127， 则 指向 skeltd[7]， 
使 其 每 隔 127 个 框架 得 到 -次 执行 ， 所 以 是 skel_int128_td。 这 样 ，skeltd[ ] 中 的 各 个 uhci_td 结构 就 分 
别 会 在 每 1 毫秒 、2 毫秒 、4 毫秒 、… 、128 毫秒 中 得 到 一 次 执行 。 不 过 ， 我 们 在 前 面 看 到 ，skeltd[ ] 
中 各 个 uhci td 结构 的 “操作 码 ” 均 为 0， 即 “ 空 操作 ” 因而 实际 上 不 会 真 的 启动 -次 中 断交 互 ， 而 只 
是 用 来 起 到 类 似 于 队列 头 的 作用 。 假 定 有 个 USB 设备 ， 需 要 每 16 毫秒 对 其 启动 一 次 中 断交 互 ， 查 询 
其 状态 变化 ， 那 就 可 以 为 之 建立 一 个 中 断交 皇 请 求 ， 并 将 其 插入 skel_int16_td 与 skel int8 td 2/8], BI 
skeltd[4] 和 skeltd[3] 之 间 。 理 解 了 这 段 代码 ， 就 明白 为 什么 说 skeltd JAE PRISER RSI “FAR” 

了 。 赎 者 也 许 会 问 ， 为 什么 要 用 uhci td 结构 来 起 “类 似 于 队列 头 ” 的 作用 ， 而 不 是 站 接 就 用 队列 头 ， 

即 skelqh 数据 结构 呢 ? 这 一 点 后 面 会 专门 讲 到 。 

至 此 ,代表 着 USB 总 线 的 数据 结构 就 初始 化 完毕 了 ,我 们 回 到 前 面 setup_uhci( ) 的 代码 中 (2346 行 )。 
接着 ， 道 过 reset_hc() 往 USB 总 线 控制 器 的 命令 寄存 器 中 写 入 一 个 “全 局 总 清 ” 命 令 ， 以 侏 证 USB 总 
线 进 入 初始 状态 。 这 里 的 “he” 表示 “ 主 控制 器 ”(host controller 。 这 个 函数 很 简单 ， HRE 
drivers/usb/uhci.c FP: 





[pci, module, init( ) > pci register. driver( ) > pci announce, device( ) > uhci pci probe( ) > setup. uhci( ) 
» reset, hc( )] 


2087 static void reset he (struct uhci *uhci) 
2088 { 

2089 unsigned int io addr = uhci->io_addr; 
2090 

2091 /* Global reset for 50ms */ 

2092 outw(USBCMD GRESET, io addr + USBCMD) ; 
2093 wait ms(50); 

2094 outw(0, io addr + USBCMD); 

2095 wait ms(10); 

2006 — | 


创建 了 代表 着 USB 总 线 的 usb bus HORARIAS, EXERT usb register bus( ) 向 系统 登记 ， 其 代 
码 在 drivers/usb/usb.c FP: 


[pci module init( ) > pci_register_driver( ) > pci announce device( ) > uhci, pci. probe( ) > setup. uhci( ) 
> usb register bus( )] 


394 [ek 
395 * usb register bus - registers the USB host controller with the usb core 
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396 * (bus: pointer to the bus to register 
397 * 

398 */ 

399 void usb_register_bus (struct usb_bus *bus) 
400 { 

401 int busnum; 

402 

403 busnum = find next zero bit(busmap.busmap, USB MAXBUS, 1); 
404 if (busnum < USB MAXBUS) { 

405 set bit(busnum, busmap. busmap) ; 

406 bus->busnum = busnum; 

407 } else 

408 warn( too many buses”); 

409 

410 /* Add it to the list of buses */ 

411 list_add (&bus->bus_list, &usb bus list); 
412 

413 usbdevfs add bus (bus); 

414 

415 info("new USB bus registered, assigned bus number Xd", bus—>busnum) ; 
416 } 


内 核 中 有 个 usb_busmap 数据 结构 busmap， 里 面具 有 一 个 成 分 ， 也 叫 busmap， 是 用 于 USB 总 线 的 
位 图 。 此 外 ， 还 有 个 队列 usb_bus_list。 所 谓 登 记 就 是 从 位 图 中 分 配 - :个 标志 位 以 及 相应 的 总 线 号 ， 并 
将 代表 着 USB 总 线 的 usb_bus 数据 结构 链 入 队列 。 

前 面 在 reset_hc( ) 中 对 USB 总 线 进行 了 全 局 总 清 ,接着 还 要 通过 start he ) 进 . - 步 设置 USB 控制 器 ， 
这 个 函数 的 代码 在 drivers/usb/uhci.c P: 


[pci module. init( ) > pci_register_driver( ) > pci announce, device( ) > uhci pci probe( ) > setup. uhci( ) 
> usb register bus()] 


2098 static void start hc(struct uhci *uhci) 

2099 { 

2100 unsigned int io addr = uhci-^io addr; 

2101 int timeout - 1000; 

2102 

2103 /* 

2104 * Reset the HC - this will force us to get a 
2105 * new notification of any already connected 
2106 * ports due to the virtual disconnect that it 
2107 * implies. 

2108 */ 

2109 outw(USBCMD HCRESET, io addr + USBCMD); 

2110 while (inw(io addr + USBCMD) & USBCMD HCRESET) { 
2111 if (!~-timeout) { 

2112 printk(KERN ERR "uhci: USBCMD HCRESET timed out!\n”); 
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2113 break; 

2114 } 

2115 } 

2116 

2117 /* Turn on all interrupts */ 

2118 outw(USBINTR TIMEOUT | USBINTR RESUME ! USBINTR IOC | USBINTR SP, 
2119 io addr * USBINTR); 

2120 

2121 /* Start at frame 0 */ 

2122 outw(0, io addr + USBFRNUM); 

2123 outl(virt to bus(uhci-^fl), io addr + USBFLBASEADD) ; 

2124 

2125 /* Run and mark it configured with a 64-byte max packet */ 
2126 outw(USBCMD RS | USBCMD CF | USBCMD MAXP, io addr + USBCMD); 
23270 } 


这 里 一 方面 设置 USB PH PRA eS. MRETI 4 种 情况 下 向 主机 CPU 发 出 中 
断 请 求 : 
(1) USBINTR_TIMEOUT。 如 果 启 动 … 次 交互 以 后 昌 标 设备 没有 回应 ， 从 而 造成 超时 。 
(2) USBINTR_RESUME。 为 节约 能 源 ， 如 果 一 个 USB 设备 (包括 集中 器 ) 在 一 段 时 间 内 没有 发 生 
任何 交互 ， 就 进入 类 似 于 “冬眠 ”的 挂 起 (Suspend) 模 式 ， 有 设备 从 挂 起 模式 同 到 正常 运行 模 
式 时 ， 可 以 引起 eB. 
(3) USBINTR_IOC。 完 成 了 一 次 交互 (Interrupt-On-Completion)。 如 果 某 个 交互 请 求 坟 明 要 在 完成 
以 后 引起 中 断 ， 则 USB 控制 器 会 在 这 个 交互 所 在 的 框架 结束 之 时 发 出 中 断 请 求 。 
(4) USBINTR_SP， 从 目标 设备 接收 到 的 信和 包 短 十 预期 ， 称 为 “短信 包 ”(short-packet)。 
另 一 方面 ， 还 将 控制 器 的 “框架 号 寄存 器 ” 设 成 0， 使 控制 器 从 0 号 框 保 开始 ， 并 将 框架 表 的 基地 
址 设置 入 “框架 基地 址 寄存 占 ”。 最 后 ， 将 “命令 寄存 器 ”中 的 “启动 /停止 ”位 USBCMD_RS 设 成 1， 
USB 控制 器 就 开始 运行 了 。 当 然 ， 此 时 的 USB 总 线 存 逻辑 上 还 是 空 的 ， 因 而 实际 上 还 不 会 有 交互 ,也 
不 会 有 中 断 请 求 。 此 外 ， 虽 然 总 线 控制 器 已 开始 扫描 框架 表 ， 根 集中 器 却 尚 木 局 用 。 
USB 控制 器 的 中 断 服务 程序 起 ubci_interrupt( )， 向 系统 的 中 断 机 制 登记 了 中 断 服务 程序 (2358 行 ) 
以 后 (以 及 设置 USB 控制 器 的 PCI 配置 寄存 器 组 中 的 个 寄存 器 USBLEGSUP 以 后 )， 便 通过 
uhci start root. hub( ) 启 动 根 集 中 器 的 运行 (drivers/usb/uhci.c)。 


[pci module init( ) > pci register driver( ) > pci announce device( ) > uhci pci probe( ) > setup uhci( ) 
> uhci. start, root, hub( )] 


2307 int uhci start root hub (struct uhci *uhci) 


2308 { 

2309 struct usb device *dev; 

2310 

2311 dev = usb alloc dev(NULL, uhci->bus) ; 
2312 if (!dev) 

2313 return -1; 

2314 
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2315 uhci->bus—>root hub = dev; 
2316 usb_connect (dev) ; 
2317 
2318 if (usb new device(dev) != 0) { 
2319 usb free dev (dev); 
2320 
2321 return -1; 
2322 } 
2323 
2324 return 0; 
2325 } 


连接 在 USB 总 线 上 的 每 个 设备 、 包 括 根 集 中 器 、 都 需要 有 个 usb_device 数据 结构 作为 代表 ， 这 是 
对 USB 设备 的 抽象 ， 定 义 丁 include\linux\usb.h F: 


584 struct usb device { 


585 int devnum; /* Device number on USB bus */ 
586 int slow; /* Slow device? */ 
587 
588 atomic t refcnt; /* Reference count */ 
589 
590 unsigned int toggle[2]; /* one bit for each endpoint ([0] = IN, [1] = OUT) #/ 
591 unsigned int halted[2]; 
/* endpoint halts; one bit per endpoint # & direction; */ 
592 /* [0] = LN, [1] = OUT x/ 
593 int epmaxpacketin(16]; /* INput endpoint specific maximums */ 
594 int epmaxpacketout [16] ; /* OUTput endpoint specific maximums */ 
595 
596 struct usb device *parent; 
597 struct usb bus *bus; /* Bus we're part of */ 
598 
599 struct usb device descriptor descriptor;/* Descriptor */ 
600 struct usb config descriptor *config;  /* All of the configs */ 
601 struct usb config descriptor *actconfig;/* the active configuration */ 
602 
603 char **rawdescriptors; /* Raw descriptors for each config */ 
604 
605 int have langid; /* whether string langid is valid yet */ 
606 int string langid; /* language ID for strings */ 
607 
608 void *hcpriv; /* Host Controller private data */ 
609 
610 /* usbdevfs inode list */ 
611 struct list head inodes; 
612 struct list head filelist; 
613 
614 f* 
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615 * Child devices - these can be either new devices 

616 * (if this is a hub device), or different instances 

617 * of this same device. 

618 * 

619 * Each instance needs its own set of data structures. 
620 */ 

621 

622 int maxchild; /* Number of ports if hub */ 
623 struct usb device *children[USB MAXCHILDREN].; 

624 }; 


USB 总 线 上 的 每 个 设备 都 有 个 动态 分 配 的 设备 写 , 由 于 在 一 条 USB 总 线 上 的 设备 不 能 超过 127 个 ， 
所 以 设备 号 的 范围 为 1 一 127。0 表示 尚未 分 配 。 如 果 具 体 的 设备 是 个 集中 器 ， 则 通过 个 指针 数组 
children[ ] 指 向 连接 在 该 集中 器 上 的 设备 (usb_device 结构 )。 而 每 个 设备 (除根 集中 器 之 外 )， 则 通过 指针 
parent 指向 其 所 连接 的 集中 器 (usb_device 结构 )， 同 时 又 通过 指针 bus 指向 其 所 在 USB 总 线 的 usb. bus 
数据 结构 。 这 样 ， 最 终 所 有 的 usb device 结构 就 会 连接 成 个 山 状 的 结构 ， 反 映 出 一 条 USB 总 线 的 拓 
扑 图 形 。 此 外 ，usb_device 结构 中 有 个 重要 的 成 分 descriptor， 是 个 usb device descriptor 数据 结构 ， 定 
XF include/linux/usb.h P: 


218 /* Device descriptor */ 
219 struct usb device descriptor | 


220 u8 bLength; 

221 u8 bDescriptorType; 
222 . ul6 bedUSB; 

223 u8 bDeviceClass; 
224 u8 bDeviceSubClass; 
225 __u8 bDeviceProtocol; 
226 u8 bMaxPacketSize0; 
221 .. ul6 idVendor; 

228 .. ul6 idProduct; 

229 . ul6 bedDevice; 

230 u8 iManufacturer; 
231 __u8 iProduct; 

232 u8 iSerialNumber; 
233 __u8 bNumConfigurations; 


234  ] | attribute ((packed));: 


这 个 数据 结构 的 内 容 是 由 USB 设备 的 硬件 提供 的 ， 其 内 容 固化 在 设备 的 硬件 中 ， 可 以 通过 “次 控 
制 交互 从 设备 读 入 。 显 然 ， 其 内 容 与 PCI 设备 配置 宕 在 器 组 中 的 一 些 信 息 相 似 。 不 过 ，USB 控制 器 在 
PC] 总 线 上 ， 是 PCI 设备 ， 而 USB 设备 则 直接 或 间接 地 (通过 集中 器 ) 连 接 在 USB 控制 器 上 ， 其 本 身 并 
非 PCI 设备 。 至 于 usb device 结构 中 的 其 他 成 分 ， 则 读者 随 着 代码 的 阅读 自 会 明白 。 

像 USB 总 线 上 的 其 他 集中 器 一 样 , 根 集中 器 本 身 也 是 个 USB 设备 .所 以 要 为 其 分 配 一 个 usb_device 
结构 ， 并 让 相应 usb. bus 结构 中 的 指针 root. hub 指向 这 个 数据 结构 。 

然后 ， 还 要 通过 usb_connect( ) 为 这 个 设 务 间 动态 地 分 屿 一 个 USB 总 线 设备 写 《drivers/usb/usb.c)。 
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[pci module init( ) > pci_register_driver( ) > pci_announce_device( ) > uhci, pci. probe( ) > setup, uhci( ) 
> uhci start root. hub( ) > usb connect( )] 


1667 /* 

1668 * Connect a new USB device. This basically just initializes 

1669 * the USB device information and sets up the topology - it's 

1670 * up to the low-level driver to reset the port and actually 

1671 * do the setup (the upper levels don't know how to do that). 

1672 */ 

1673 void usb connect (struct usb device *dev) 

1674 { 

1675 int devnum; 

1676 // FIXME needs locking for SMP!! 

1677 /* why? this is called only from the hub thread, 

1678 * which hopefully doesn't run on multipie CPU's simultaneously 8-) 
1679 */ 

1680 dev~>descriptor. bMaxPacketSizeO = 8; /* Start off at 8 bytes */ 
1681 #ifndef DEVNUM ROUND ROBIN 

1682 devnum = find next zero bit(dev-»bus-»devmap. devicemap, 128, 1); 
1683 Helse — /* round robin alloc of devnums */ 

1684 /* Try to allocate the next devnum beginning at devnum next. */ 
1685 devnum = find next zero bit(dev-5bus-^devmap. devicemap, 128, devnum next) 
1686 if (devnum >= 128) 

1687 devnum = find next zero bit (dev-^bus-»devmap. devicemap, 128, 1): 
1688 

1689 devnum next = devnum + 1; 

1690 if (devnum next >= 128) 

1691 devnum next = 1; 

1692 Hendif /* round robin alloc of devnums */ 

1693 

1694 if (devnum < 128) { 

1695 set bit (devnum, dev—>bus—>devmap. devicemap); 

1696 dev->devnum = devnum; 

1697 } 

1698 } 


接 下 去 ， 就 旨 与 目标 设备 (这 里 足 根 集中 器 ) 建 并 起 实际 的 联系 了 ， 这 号 是 对 旧 标 设备 的 “ 枚 举 ”。 
它 是 一 个 颇 为 复杂 的 过 程 。-- 般 而 言 ， 当 把 -个 USB 设备 插入 一 个 USB 集中 器 的 某 个 “端口 ”时 ， 
集中 器 就 会 检测 到 设备 的 接 入 ， 从 而 在 下 一 次 受到 主机 通过 中 断交 互 查询 时 就 会 向 其 报告 。 集 中 器 的 
端口 在 没有 设备 连接 时 都 处 于 关闭 状态 ， 插 入 设备 以 后 也 个 会 自动 打开 ， 必 须 由 主机 通过 控制 交互 发 
出 命令 予以 打开 。 所 以 ， 得 到 集中 器 的 报告 以 后 ， 主 机 中 的 USB 蝶 动 程序 就 会 为 新 插 上 的 设备 调度 若 
十 个 控制 交互 ， 并 向 集中 器 发 出 打开 这 个 端口 的 命令 。 这样， 新 插入 的 设备 就 出 现在 USB 总 线 上 了 。 
要 在 主 控制 器 与 USB 设备 之 间 通 信 , USB 设备 就 必须 有 个 (在 总 线 上 ) 惟 一 的 地 址 。 所 有 的 USB 设备 在 
一 开始 时 部 使 用 “默认 ”地 址 o, 与 主机 中 的 USB 控制 器 建立 起 初始 遂 信 以 后 再 出 主机 (当然 ， 实 际 上 
是 驱动 软件 ) 指 定 “个 地 址 ， 以 后 就 一 直 使 用 这 个 指定 的 地 址 ， 直 到 断 开 与 总 线 的 连接 为 止 。 这 里 ， 读 
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者 很 自然 会 产生 一 个 问题 ; 如 果 连 接 在 总 线 上 的 所 有 USB 设备 在 一 开始 时 的 地 址 都 是 0, 者 主机 的 USB 


控制 
到 各 


器 在 初始 化 时 期 怎么 能 与 具体 的 月 标 设备 通信 呢 ? 其 实 很 简单 , 不管 有 多 少 个 USB 设备 同时 连接 
个 集中 器 上 ， 总 线 控制 器 总 是 打开 一 个 端口 就 指定 一 个 地 址 ， 然 后 再 打开 下 一 个 端口 ， 决 不 会 在 


尚未 为 已 打开 的 端口 所 连接 的 设备 指定 好 地 址 之 前 就 又 打开 另 - -个 端口 。 这 样 ， 在 同时 间 里 ，USB 


总 线 


枚 举 


上 最 多 只 会 有 一 个 设备 在 使 用 地 址 0。 

枚 举 过 程 中 主机 与 设备 间 的 信息 交换 不 仅仅 是 为 设备 指定 地 址 ， 总 的 来 说 有 下 面 这 一 些 步 又; 
(1) 为 设备 指定 地 址 。 

(2) 从 设备 读 入 其 usb_device_descriptor 数据 结构 。 

(3) 从 设备 读 入 其 所 有 的 “配置 ”描述 结构 。 

(4) 选择 或 改变 设备 的 配置 。 

根 设备 与 总 线 控制 器 的 连接 是 固定 的 ， 不 需要 通过 另 一 个 集中 器 的 报告 ， 所 以 直接 就 可 以 开始 其 
过 程 ， 这 是 由 usb_new_device( ) 完 成 的 ， 其 代码 在 drivers/usb/usb.c 中 。 我 们 分 段 阅读 。 


[pci_module_init( ) > pci register driver( ) > pci announce. device( ) > uhci pci probe( ) > setup. uhci( ) 
> uhci. start. root. hub( ) > usb. new. device( )] 


2079 
2080 
2081 
2082 
2083 
2084 
2085 
2086 
2087 
2088 
2089 
2090 
2091 
2092 
2093 
2094 
2005 
2096 
2097 
2098 
2099 
2100 
2101 
2102 
2103 
2104 
2105 
2106 
2107 


/* 
* By the time we get here, the device has gotten a new device ID 
* and is in the default state. We need to identify the thing and 
* get the ball rolling.. 
* 
* Returns 0 for success, != 0 for error. 
*/ 
int usb new device(struct usb device *dev) 
{ 
int err; 


/* USB v1.1 5.5.3 */ 

/* We read the first 8 bytes from the device descriptor to get to */ 
/* the bMaxPacketSizeO field. Then we set the maximum packet size */ 
/* for the control pipe, and retrieve the rest */ 
dev-^epmaxpacketin [0] = 8; 

dev—>epmaxpacketout [0] = 8; 


err = usb set address (dev) ; 
if (err < 0) { 
err("USB device not accepting new address=%d (error=%d)”, 
dev-^devnum, err); 
clear bit (dev->devnum, &dev->bus—>devmap. devicemap) ; 
dev->devnum = -1; 
return 1; 


} 


wait_ms (10) ; /* Let the SET ADDRESS settle */ 
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2108 err = usb get descriptor(dev, USB DT DEVICE, 0, &dev— descriptor, 8); 
2109 if (err < 8) { 

2110 if (err < 0) 

2111 err (“USB device not responding, giving up (error=%d)”, err); 
2112 else 

2113 err("USB device descriptor short read (expected 9i, got %i)”, 8, err) 
2114 clear bit(dev-»devnum, &dev—>bus—>devmap. devicemap); 

2115 dev->devnum > -1; 

2116 return 1; 

2117 } 

2118 dev->epmaxpacketin [0] = dev-^descriptor. bMaxPacketSize0: 

2119 dev—>epmaxpacketout[0] - dev-^descriptor. bMaxPacketSize0: 

2120 

2121 err = usb get device descriptor (dev) ; 

2122 if (err < sizeof(dev->descriptor)) | 

2123 if (err < 0) 

2124 err('unable to get device descriptor (error=%d)”, err); 

2125 else 

2126 err("USB device descriptor short read (expected %i, got %i)”, 
2127 sizeof(dev-^descriptor), err); 

2128 

2129 clear bit(dev-^devnum, &dev-»bus-»devmap. devicemap) : 

2130 dev-^devnum = -1; 

2131 return 1; 

2132 } 

2133 


USB 设备 内 部 有 者 干 用 本 与 主机 通信 的 “端点 ”(endpoinD， 每 个 端点 都 有 个 端点 号 ， 不 同类 型 的 
传输 使 用 不 同 的 端点 。 每 一 个 USB 设备 至 少 要 提供 用 于 控制 传输 的 控制 端点 ， 其 端点 号 为 0。 其 他 端 
点 则 视 基 体 设备 而 定 ， 例 如 扫描 器 就 不 会 有 等 时 传输 端点 ， 因 为 不 需要 。 控 制 端点 是 双向 的 ， 虐 可 用 
十 输入 传输 ， 也 可 用 十 输出 传输 。 在 每 次 传输 中 ， 通 信 的 一 方 总 是 主机 中 的 USB 主 控制 器 ， 而 另 一 方 
就 由 设备 号 和 端点 号 惟一 地 确定 ， 称 为 一 个 “管道 ”(pipe)j。 这 里 ， 首 先 将 把 目标 设备 〈 在 这 里 是 根 集 
Pas) 的 控制 端点 则 个 方向 上 上 的 信和 包 大 小 都 假定 为 8， 然后 就 通过 usb_set_address( ) 为 日 标 设备 指定 地 
hk(drivers/usb/usb.c). 


[pci_module_init( ) > pci register driver( ) > pci_announce_device( ) > uhci pci probe( ) > setup_uhci( ) 
> uhci start root. hub( ) > usb. new. device( ) > usb. set, address( )] 


1708 int usb set address (struct usb device *dev) 


1709 { 

1710 return usb control msg(dev, usb snddefctrl(dev), USB REQ SET ADDRESS, 
17H 0, dev->devnum, 0, NULL, 0, HZ * GET TIMEOUT); 

ie 3 


这 里 的 usb. control. msg( ) 专 门 用 来 调度 控制 传输 、 并 等 待 传 输 的 完成 ,我 们 将 在 后 面 讲述 具体 USB 
设备 的 操作 时 详细 介绍 这 个 限 数 ,现在 暂且 假定 调用 这 个 函数 就 可 以 让 USB 控制 器 把 个 控制 报 文 发 
.444 ， 


Se 
送 给 目标 设备 。 如 果 控制 传 输 顺 利 完成 就 返回 0， 否则 返回 一 个 负 的 出 错 代码 。 调 用 的 参数 表明 ， 使 用 
的 管道 是 “snddefctrl”， 即 默认 的 地 址 0 加 上 控制 端点 号 0， 交 互 的 方向 为 输出 。 此 外 ， 发 送 给 设备 的 
命令 码 是 USB_REQ_SET_ADDRESS， 即 设置 地 址 ， 而 所 设置 的 地 址 为 dev->devnum， 即 目标 设备 的 
设备 号 ; 没有 附加 数据 ; 允许 等 待 传输 完成 的 时 间 是 3 秒 ， 即 HZ*GET_TIMEOUT， 这 里 HZ 表 小 一 
Pb. ifj GET. TIMEOUT 则 定义 为 3。 

假定 目标 设备 顺利 地 完成 了 设置 地 址 的 操作 ， 经 过 一 个 短暂 的 延迟 (2106 行 ) 以 后 ， 就 可 以 使 用 新 
的 地 址 启动 男 一 次 控制 传输 ， 从 目标 设备 读 入 其 设备 描述 块 ， 邮 usb device descriptor 数据 结构 了 。 这 
是 由 usb_get_descriptor( ) 完 成 的 ， 其 代码 在 drivers/usb/usb.c +: 


[pci module init( ) > pci register driver( ) > pci_announce_device( ) > uhci pci probe( ) > setup uhci( ) 
> uhci start root. hub( ) > usb, new. device( ) > usb. get. descriptor ( )] 


1714 int usb get descriptor (struct usb device *dev, unsigned char type, 
unsigned char index, void *buf, int size) 


1715 { 

1716 int i = 5; 

1717 int result; 

1718 

1719 memset (buf, 0, size); // Make sure we parse really received data 

1720 

1721 while (i--) { 

1722 if ((result = usb control msg(dev, usb rcvctrlpipe(dev, 0), 

1723 USB REQ GET DESCRIPTOR, USB DIR IN, 

1724 (type << 8) + index, 0, buf, size, HZ * GET TIMEOUT)) > 0 |! 
1725 result -- -EPIPE) 

1726 break; /* retry if the returned length was 0; flaky device */ 
1721 } 

1728 return result; 

1729} 


这 X, (HINA “revetripipe”, BIE bs ARERIA 0. FARA. eH tr 
为 USB_REQ_GET_DESCRIPTOR， 邮 读 取 描述 块 。 可 是 ， 设 备 中 人 不仅 有 “设备 描述 块 ”"” 还 有 “接口 
描述 块 "“ 配 置 描述 块 ”等 等 ， 所 以 前 面 在 调用 时 指明 为 USB_DT_DEVICE， 即 设备 描述 块 。 有 关 的 
儿 个 常数 定义 于 include/linux/usb.h: 


44 /* 

45 * Descriptor types 

46 */ 

4T define USB DT DEVICE 0x01 
48 define USB DT CONFIG 0x02 
49 üdefine USB DT STRING 0x03 
50 &define USB DT INTERFACE 0x04 
51 define USB DT ENDPOTNT 0x05 


调用 参数 还 表明 , 只 从 设备 描述 结构 中 读 取 8 F B esu Y Pod RET TAN AREA dev->descriptor 
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以 后 ， 还 要 根据 来 自 设 备 的 数据 ， 调 整 控 制 交互 信和 的 最 大 容量 〈2118 一 2119 行 )。 然 后 ， 再 通过 
usb get device descriptor( ) 重 读 - -次 目标 设备 的 设备 描述 结构 。 其 代码 在 drivers/usb/usb.c P. 


[pci module init( ) > pci register. driver( ) > pci. announce. device( ) > uhci pci probe( ) > setup uhci( ) 
> uhci start root, hub( ) > usb. new. device( ) > usb, get. device. descriptor( )] 


1746 int usb get device descriptor (struct usb device *dev) 


1747 { 

1748 int ret = usb get descriptor(dev, USB DT DEVICE, 0, &dev—>descriptor, 
1749 sizeof (dev->descriptor) ) ; 
1750 if (ret >= 0) { 

1751 lel6 to cpus (&dev—->descriptor. bcdUSB) ; 
1752 lel6 to cpus(&dev-»descriptor. idVendor) ; 
1753 lel6 to cpus (&dev—->descriptor. idProduct) ; 
1754 lel6 to cpus (&dev—>descriptor. bcdDevice) ; 
1755 } 

1756 return ret; 

1757 ) 


这 一 次 读 入 的 是 整个 设备 描述 结构 。 那 么 ， 为 什么 先 要 按 8 个 学 节 先 读 一 次 呢 ? 这 是 因为 开始 时 
还 不 知道 对 方 所 支持 的 信和 包容 量 ， 这 个 信息 在 对 方 的 设备 描述 结构 的 开头 8 个 字 节 中 ; 然而 ，8 字 节 的 
信和 包容 量 是 所 有 设备 都 支持 的 ， 所 以 先 按 最 低 标 准 先 读 一 次 ， 读 入 了 设备 描述 结构 的 开头 8 个 字 节 以 
后 ， 就 知道 了 对 方 所 支持 的 最 大 信和 包容 量 ， 以 后 就 可 以 按 这 个 容量 传输 了 。 此 外 ， 从 设备 读 入 的 16 位 
WHALE “little ending” 的 格式 ， 所 以 要 把 它们 转换 成 主机 CPU 所 采用 的 格式 。 

读 入 设备 描述 结构 以 后 ， 接 着 还 要 读 入 有 关 设 备 配置 的 信息 。 我 们 继续 往 下 读 usb new device( ) 
的 代码 (drivers/usb/usb.c)。 


[pci module init( ) > pci register driver( ) > pci announce device( ) > uhci pci probe( ) > setup. uhci( ) 
> uhci start root hub( ) > usb new. device( )] 


2134 err = usb get configuration (dev); 

2135 if (err < 0) { 

2136 err (“unable to get device %d configuration (error=%d)”, 

2137 dev->devnum, err); 

2138 clear bit(dev-»devnum, &dev->bus—>devmap. devicemap) ; 

2139 dev->devnum = -1; 

2140 usb free dev (dev) ; 

2141 return 1; 

2142 } 

2143 

2144 /* we set the default configuration here */ 

2145 err = usb set configuration(dev, dev—>config[0]. bConfigurationValue) ; 
2146 if (err) { 

2147 err (“failed to set device %d default configuration (error=%d)”, 
2148 dev->devnum, err); 
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2149 clear bit(dev-»devnum, &dev—>bus—>devmap. devicemap) ; 

2150 dev->devnum = -1; 

2151 return 1; 

2152 } 

2153 

2154 dbg (“new device strings: Mfr=%d, Product=%d, SerialNumber=%d’, 
2155 dev->descriptor. iManufacturer, dev—>descriptor. iProduct, 


dev—>descriptor. iSerialNumber) ; 
2156 #ifdef DEBUG 


2157 if (dev->descriptor. iManufacturer) 

2158 usb show string(dev, “Manufacturer”, dev-^descriptor. iManufacturer) ; 
2159 if (dev— descriptor. iProduct) 

2160 usb show string(dev, “Product”, dev—->descriptor. iProduct) ; 

2161 if (dev->descriptor. iSerialNumber) 

2162 usb show string(dev, “SerialNumber”, dev-^descriptor. iSerialNumber) ; 
2163 Hendif 

2164 

2165 /* now that the basic setup is over, add a /proc/bus/usb entry */ 

2166 usbdevfs_add_device (dev) ; 

2167 

2168 /* find drivers willing to handle this device */ 

2169 usb find_drivers (dev) ; 

2170 

2171 /* userspace may load modules and/or configure further */ 

2172 call policy (“add”, dev); 

2173 

2174 return 0; 

2175. } 


设备 的 每 一 种 其 体 的 配置 都 由 一 个 usb_config_descriptor 数据 结构 加 以 描述 ， 定 义 十 


include/linux/usb.h: 


280 /* Configuration descriptor information:. */ 

281 struct usb config descriptor { 

282 ...u8 bLength |. attribute — ((packed)) ; 

283 __u8 bDescriptorType _ attribute ^ ((packed)); 
284 . ul6 wlotallength | attribute ((packed)) ; 

285 | u8 bNumInterfaces _ attribute | ((packed)); 
286 | u8 bConfigurationValue ^ attribute ^ ((packed)) ; 
287 u8 iConfiguration ^ attribute ^ ((packed)); 
288 . u8 bmAttributes | attribute | ((packed)):; 

289 u8 MaxPower . attribute ^ ((packed)) ; 

290 

291 struct usb interface *interface; 

292 

293 unsigned char *extra; /* Extra descriptors */ 
294 int extralen; 
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295 }; 


结构 中 指针 interface 以 前 的 部 分 (282 一 289 行 ) 与 直接 从 设备 读 取 的 “配置 描述 块 ”格式 相同 。 
Ii usb get configuration( ) 的 代码 在 drivers/usb/usb.c FP: 


[pci module init( ) » pci register driver( ) » pci announce, device( ) » uhci pci probe( ) > setup uhci( ) 
> uhci start root hub( ) > usb new. device( ) > usb get configuration( )] 


1926 int usb get configuration (struct usb device *dev) 


1927 d 

1928 int result; 

1929 unsigned int cfgno, length; 

1930 unsigned char buffer[8]; 

1931 unsigned char *bigbuffer; 

1932 struct usb config descriptor *desc - 

1933 (struct usb config descriptor *)buffer; 

1934 

1935 if (dev->descriptor. bNumConfigurations > USB MAXCONFIG) { 
1936 warn( too many configurations"); 

1937 return -EINVAL; 

1938 } 

1939 

1940 if (dev->descriptor. bNumConfigurations < 1) { 

1941 warn (“not enough configurations”) ; 

1942 return -EINVAL; 

1943 } 

1944 

1945 dev—>config = (struct usb config descriptor *) 

1946 kmalloc (dev->descriptor. bNumConfigurations * 

1947 sizeof(struct usb config descriptor), GFP KERNEL); 
1948 if (!dev->config) { 

1949 err (“out of memory”); 

1950 return —ENOMEM; 

1951 } 

1952 memset (dev—->config, 0, dev-^descriptor. bNumConfigurations * 
1953 sizeof (struct usb config descriptor)); 

1954 

1955 dev->rawdescriptors = (char **)kmalloc (sizeof (char *) * 
1956 dev—>descriptor. bNumConfigurations, GFP KERNEL); 

1957 if (!dev-^rawdescriptors) | 

1958 err (out. of memory”); 

1959 return —-ENOMEM; 

1960 } 

1961 

1962 for (cfgno = 0; cfgno € dev—->descriptor. bNumConfigurations; cfgnot+) { 
1963 /* We grab the first 8 bytes so we know how long the whole */ 
1964 /* configuration is */ 
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1965 
1966 
1967 
1968 
1969 
1970 


1971 
1972 
1973 
1974 
1975 
1976 
1977 
1978 
1979 
1980 
1981 
1982 
1983 
1984 
1985 
1986 
1987 
1988 
1989 
1990 
1991 
1992 
1993 
1994 
1995 
1996 
1997 
1998 
1999 
2000 
2001 
2002 
2003 
2004 
2005 
2006 
2007 
2008 
2009 
2010 
2011 
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result = usb get descriptor(dev, USB DT CONFIG, cfgno, buffer, 8); 
if (result < 8) ( 
if (result < 0) 
err('unable to get descriptor"); 
else { 
err ("config descriptor too short (expected Xi, got %i)”, 
8, result); 
result - -EINVAL; 
} 


goto err; 


} 


/* Get the full buffer */ 
length = lel6_to_cpu(desc->wTotalLength) ; 


bigbuffer = kmalloc(length, GFP KERNEL); 

if (!bigbuffer) { 
err('unable to allocate memory for configuration descriptors’) ; 
result = -ENOMEM; 
goto err; 


} 


/* Now that we know the length, get the whole thing */ 
result = usb get descriptor (dev, USB DT CONFIG, cfgno, bigbuffer, length); 
if (result < 0) { 

err( couldn't get all of config desc DOE: s 

kfree (bigbuf fer) ; 

goto err; 


} 


if (result < length) { 
err ("config descriptor too short (expected %i, got %i)”, length, result); 
result = -EINVAL; 
kfree (bigbuffer) ; 
goto err; 


} 
dev—>rawdescriptors[cfgno] = bigbuffer; 


result = usb parse configuration(dev, &dev->configlcfgno], bigbuffer); 
if (result > 0) 

dbg (“descriptor data left”); 
else if (result < 0) { 

result = -EINVAL; 

goto err; 


: 449 . 


Linux 内 核 源 代 码 情景 分 析 《〈 下 册 ) 


2012 return 0; 

2013 err: 

2014 dev->descriptor. bNumConfigurations = cfgno; 
2015 return result; 

2016  ] 


每 个 USB 设备 至 少 有 一 个 配置 描述 块 。 设 备 描述 块 中 的 字段 bNumConfigurations 说 明了 本 设备 有 
几 个 配置 措 述 块 ， 但 最 多 不 能 超过 USB_MAXCONFIG,， 即 8 个 。 根据 这 个 字段 的 数值 ， 可 以 为 目标 设 
备 分配 用 于 相应 描述 结构 的 空间 ， 并 让 目标 设备 的 usb_device 数据 结构 通过 其 指针 config 指向 这 块 空 
间 。 此 外 ，usb_device 数据 结构 中 还 有 个 指针 rawdescriptors， 应 该 指向 一 个 指针 数组 ， 该 数组 中 的 每 
一 个 元 素 部 指向 一 个 从 设备 读 入 的 配置 描述 块 ， 所 以 其 大 小 也 取决 于 配置 描述 块 的 个 数 。 做 好 了 这 些 
准备 以 后 ， 就 通过 一 个 for 循环 (1962 行 ) 从 设备 依次 读 入 各 个 配置 描述 块 。 配 置 描述 块 的 读 入 还 是 
由 usb_get_descriptor( ) 完 成 , 但 是 从 代码 中 可 以 看 出 现在 要 读 入 的 是 USB_DT_CONFIG。 每 次 先 读 入 8 
个 字 节 ， 读 入 的 信息 暂时 存放 在 buffer 中 。 根 据 读 入 信息 中 的 wTotalLength 可 以 知道 实际 的 大 小 ， 然 
后 再 分 配 足 够 大 的 空间 ， 再 调用 一 次 usb_get_descriptor( )， 把 整个 描述 块 读 进来 ， 并 将 其 起 始 地 址 放 在 
rawdescriptors 所 指 的 指针 数组 中 。 

每 个 配置 描述 块 是 作为 “个 整体 读 入 缓冲 区 的 。 配 置 描述 块 中 包含 着 若 于 个 “接口 描述 块 ” 而 每 
MEMRAM WAS EH On SR”, 各 种 次 层 描述 块 的 数量 则 因 有 具体 的 配置 而 异 ， 所 以 
配置 描述 块 的 大 小 并 非常 数 。 同 时 ， 这 些 描述 块 中 又 可 以 包含 - 些 由 基体 设备 的 制造 商 或 行业 协会 自 
行 定义 的 次 层 描 述 块 。 所 以 ， 每 读 入 一 个 配置 描述 块 以 后 ， 部 要 通过 usb_parse_configuration() 加 以 分 
析 辩 认 ， 从 配置 描述 块 中 分 解 出 各 个 次 层 描述 块 ， 并 为 这 些 描 述 块 建立 起 相应 的 数据 结构 ， 以 形成 对 
目标 设备 各 个 层次 的 描述 。 其 代码 在 drivers/usb/usb.c F: 


[pci module. init( ) > pci register driver( ) > pci_announce_device( ) > ühci pci probe( ) > setup uhci( ) 
> uhci start root hub( ) > usb new. device( ) > usb get configuration( ) > usb parse, configuration( )] 


1399 int usb parse configuration (struct usb device *dev, 
struct usb config descriptor *config, char *buffer) 


1400 { 

1401 int i, retval, size; 

1402 struct usb descriptor header *header; 

1403 

1404 memcpy(config, buffer, USB DT CONFIG SIZE); 
1405 lel6 to cpus (&config- wlotalLength) ; 

1406 size = config wTotalLength; 

1407 

1408 if (config->bNumInterfaces > USB MAXINTERFACES) | 
1409 warn ("too many interfaces”); 

1410 return -1; 

1411 } 

1412 

1413 config->interface = (struct usb interface *) 
1414 kmalloc(config-^bNumInterfaces * 

1415 sizeof (struct usb interface), GFP KERNEL); 
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1416 dbg (“kmalloc IF Xp, numif %i”, config-^interface, config- bNumInterfaces); 

1417 if (!config- interface) { 

1418 err('out of memory^); 

1419 return -1; 

1420 } 

1421 

1422 memset (config->interface, 0, 

1423 config->bNumInterfaces * sizeof (struct usb interface)); 

1424 

1425 buffer += config->bLength; 

1426 size -= config-^bLength; 

1427 

1428 for (i = 0; i < config bNumInterfaces; i++) { 

1429 int numskipped, len; 

1430 char *begin; 

1431 

1432 /* Skip over the rest of the Class Specific or Vendor */ 

1433 /* Specific descriptors */ 

1434 begin = buffer; 

1435 numskipped = 0; 

1436 while (size >= sizeof (struct usb descriptor header)) { 

1437 header = (struct usb descriptor header *) buffer; 

1438 

1439 if ((header—>bLength > size) || (header->bLength < 2)) { 

1440 err ("invalid descriptor length of %d”, header->bLength) ; 

1441 return -1; 

1442 } 

1443 > 

1444 /* If we find another descriptor which is at or below */ 

1445 /* us in the descriptor heirarchy then we're done */ 

1446 if ((header->bDescriptorType == USB DT ENDPOINT) | 

1447 (header-»bDescriptorType == USB DT INTERFACE) || 

1448 (header->bDescriptorType == USB DT CONFIG) || 

1449 (header-^»bDescriptorType == USB DT DEVICE)) 

1450 break; 

1451 

1452 dbg (“skipping descriptor Ox%X”, header->bDescriptorType) ; 

1453 numskipped++ ; 

1454 

1455 buffer += header->bLength; 

1456 size -= header-—>bLength; 

1457 } 

1458 if (numskipped) 

1459 dbg ("skipped *d class/vendor specific endpoint descriptors’, 
numskipped) ; 

1460 

1461 /* Copy any unknown descriptors into a storage area for */ 

1462 /* drivers to later parse */ 
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1463 len = (int) (buffer - begin); 

1464 if (!len) { 

1465 config-^extra = NULL; 

1466 config->extralen = 0; 

1467 } else { 

1468 config-^extra = kmalloc(len, GFP KERNEL); 
1469 if (!config-^extra) { 

1470 err(^couldn't allocate memory for config extra descriptors’): 
1471 config->extralen = 0; 

1472 return -1; 

1473 j 

1474 

1415 memcpy (config->extra, begin, len); 

1476 config-^extralen = len; 

1477 } 

1478 

1479 retval = usb parse_interface(dev, config->interface + i, buffer, size): 
1480 if (retval < 0) 

1481 return retval; 

1482 

1483 buffer += retval; 

1484 size — retval; 

1485 } 

1486 

1487 return size; 

1488 } 


参数 config 指向 一 个 usb. config, descriptor 数据 结构 ， 而 buffer 则 指向 刚 从 设备 读 入 的 “原始 ” 配 
置 描述 块 缓冲 [x 。 首 先 将 绥 冲 区 的 前 9 个 字 节 复制 到 usb config descriptor 结构 路 ， 这 里 的 
USB_DT_CONFIG_SIZE 定义 为 9。 配置 描述 块 中 的 bNumInterfaces 说 明 在 本 配置 中 设备 中 有 儿 个 “ 接 
口 ”。 志 请 -个 接口 ， 就 是 指 USB 设备 中 的 一 项 特定 的 功能 ， 也 就 是 逻辑 设备 。 我 们 可 以 在 逻辑 上 把 
每 个 具体 的 “接口 ”看 成 一 组 端点 的 集合 ， 就 好 像 把 传统 的 外 设 接口 看 成 一 组 寄存 器 或 存储 区 问 的 集 
合 一 样 。 但 是 ， 即 使 是 对 于 同一 个 接口 ， 即 同一 个 逻辑 设备 ， 也 还 是 可 以 有 几 种 不 同 的 “ 设 兽 ”可 供 
选用 ， 在 某 种 意义 上 可 以 看 作 是 同一 类 逻辑 设备 的 不 同 实 现 。 这 就 好 像 同 样 是 录音 机 却 仍 可 以 组 合成 
不 同 的 性 能 ， 将 各 个 按 扭 用 于 不 同 的 控制 对 像 。 当 然 ， 在 任何 特定 的 时 刻 ， 只 能 选用 其 中 一 种 。 所 以 ， 
在 内 人 存 中 为 每 一 个 逻辑 设备 建立 起 一 个 usb interface 数据 结构 。 这 种 数据 结构 定义 于 
include/linux/usb.h: 


269 struct usb interface | 


270 struct usb interface descriptor *altsetting; 

271 

272 int act altsetting; /* active alternate setting */ 

273 int num_altsetting; /* number of alternate settings */ 
274 int max altsetting; /* total memory allocated */ 
275 
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276 struct usb driver *driver; /* driver */ 
271 void *private data; 
278 ya 


结构 中 的 指针 altsetting 指向 一 个 usb. interface descriptor 数据 结构 的 数组 , 数组 中 的 每 个 元 素 都 龙 
来 白 设备 的 “接口 描述 块 *”， 代 表 荐 该 接口 的 PHA SRE”, 而 act_altsetting 则 说 明 当 前 选用 的 是 
其 中 的 哪 一 个 。 这 个 数据 结构 是 在 include/linux/usb.h 中 定义 的 : 


251 /* Interface descriptor */ 

252 struct usb interface descriptor | 

253 __u8 bLength . attribute | ((packed)); 

254 __u8 bDescriptorType attribute — ((packed)); 
255 . u8 bInterfaceNumber ^ attribute _ ((packed)); 
256 __u8 bAlternateSetting | attribute __ ((packed)); 
251 | u8 bNumEndpoints | attribute _ ((packed)); 

258 | u8 blnterfaceClass attribute | ((packed)); 
259 |. u8 bInterfaceSubClass | attribute ((packed)); 
260 __u8 bInterfaceProtocol | attribute _ ((packed)); 
261 | u8 ilnterface  . attribute _ ((packed)); 

262 

263 struct usb endpoint descriptor *endpoint; 

264 

265 unsigned char *extra; /* Extra descriptors */ 

266 int extralen; 

261 E 


指针 endpoint VARTA FRIK EL br icd IE IK £81 H In] bInterfaceNumber fit bAlternateSetting 
STR. 4 CRPEREUNJVARISI) "EU REH, We BREE GEARY Bi re Be LE, ix 
些 描述 块 都 有 相同 的 “接口 号 ” (A “KES” Hes. ATRL “KES” A 
0。 所 以 ， 在 一 连 串 的 接口 描述 块 中 ， 每 个 “设置 号 ”为 0 的 描述 块 都 标志 着 一 个 接口 的 开始 。… 个 接 
口 至 少 包 含 一 个 设置 。 在 配置 描绘 块头 部 中 说 明了 本 配置 有 几 个 接口 ， 但 是 这 并 不 说 明 有 几 个 接口 描 
述 块 ， 所 以 才 需 要 “parse”， 即 分 析 辩 认 。 

知道 了 目标 设备 中 有 几 个 接口 ， 就 可 以 为 这 些 接口 的 usb_interface 结构 分 对 足够 的 空间 (1413 (7). 
然后 通过 A for 循环 (1428 行 )， 依 次 从 已 经 读 入 缓冲 区 的 信息 中 找到 属 十 各 个 接口 的 描述 块 。 找 到 了 
一 个 接口 描述 的 开头 以 后 ， 就 通过 usb_parse_interface( ) 进 一 步 分 析 和 辨认 出 这 个 接口 的 所 有 描述 块 ， 
其 代码 也 在 drivers/usb/usb.c 中 。 这 个 函数 比较 长 ， 我 们 得 要 分 段 阅读 。 


[pci module, init( ) > pci_register_driver( ) > pci_announce_device( ) > uhci pci probe( ) > setup_uhci( ) 
> uhci start root hub( ) > usb. new. device( ) > usb, get configuration( ) > usb parse, configuration( ) 
» usb parse, interface( )] 


1247 static int usb parse interface (struct usb device *dev, 
struct usb interface *interface, unsigned char *buffer, int size) 


1248 { 
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int i, len, numskipped, retval, parsed = 0; 
struct usb descriptor header *header; 
struct usb interface descriptor *ifp; 
unsigned char *begin; 


interface->act altsetting = 0; 
interface->num_altsetting = 0; 
interface—>max_altsetting = USB_ALTSETTINGALLOC; 


interface—>altsetting = 


kmalloc (sizeof (struct usb interface descriptor) * interface->max_altsetting, 


GFP KERNEL) ; 


if (linterface->altsetting) { 
err (“couldn't kmalloc interface~>altsetting”) ; 
return -1; 


} 


while (size > 0) { 
if (interface->num_altsetting >= inlerface->max altsetting) | 
void *ptr; 
int oldmas; 


oldmas = interface->max_altsetting; 
interface—max_altsetting += USB ALTSETTINGALLOC; 
if (interface—max_altsetting > USB MAXALTSETTING) { 
warn(”too many alternate settings (max %d)”, 
USB_MAXALTSETTING) ; 
return -1; 


ptr = interface—>altsetting: 
interface—-altsetting = kmalloc( 
sizeof (struct usb interface descriptor) * interface—>max_altsetting, 
GFP_KERNEL) ; 
if (linterface—^»altsetting) { 
err ("couldn't kmalloc interface—>altsetting”) ; 
interface-^altsetting = ptr; 
return -1; 
} 
memcpy (interface->altsetting, ptr, 
sizeof(struct usb interface descriptor) * oldmas); 


kfree (ptr) ; 
} 


ifp = interface>altsetting + interface—>num_altsetting; 
interface->num_altsettingt+; 
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memcpy(ifp, buffer, USB DT INTERFACE SIZE); 


/* Skip over the interface */ 
buffer += ifp-^bLength; 
parsed += ifp-^bLength; 

size -= ifp->bLength; 


begin = buffer; 
numskipped = 0; 


/* Skip over any interface, class or vendor descriptors */ 
while (size >= sizeof(struct usb_descriptor_header)) { 


} 


header = (struct usb descriptor header *) buffer; 


if (header->bLength < 2) { 


err('invalid descriptor length of %d”, header—>bLength) ; 


return -1; 


) 


/* If we find another descriptor which is at or below */ 

/* us in the descriptor heirarchy then return */ 

if ((header->bDescriptorType == USB DT INTERFACE) || 
(header— bDescriptorType == USB DT ENDPOINT) || 
(header— bDescriptorType == USB DT CONFIG) || 
(header—>bDescriptorType == USB DT DEVICE)) 
break; 


numskipped-**; 
buffer += header-—>bLength; 


parsed t= header->bLength; 
size -= header—>bLength; 


if (numskipped) 


dbg ("skipped *d class/vendor specific interface descriptors’, 
numski pped) ; 


/* Copy any unknown descriptors into a storage area for */ 
/* drivers to later parse */ 

len = (int) (buffer - begin); 

if (llen) { 


ifp->extra = NULL; 
ifp-^extralen = 0; 


} else { 


ifp->extra = kmalloc(len, GFP_KERNEL) ; 
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1339 if (lifp>extra) { 

1340 err(”couldn’ t allocate memory for interface extra descriptors”): 
1341 ifp-^extralen = 0; 

1342 return ~l; 

1343 } 

1344 memcpy (ifp->extra, begin, len); 

1345 ifp->extralen = len; 

1346 } 

1347 


f£ usb parse configuration( )+, RI WATE ABC PREM, A usb interface 结构 分 配 了 
空间 ， 可 是 还 没有 为 usb_interface_descriptor AMAL I). — RE Rd Li RSNA 4 MEU, 
这 里 的 常数 USB ALTSETTINGALLOC 定义 为 4。 代 码 中 先 按 4 个 usb interface descriptor 结构 分 配 空 
间 , 然后 通过 一 个 while 循 坏 从 前 面 读 日 日 标 设备 的 缓冲 区 中 寻找 和 抽取 有 关 的 信息 。 当 一 个 接口 中 有 
多 于 4 个 设置 的 时 候 ， 人 允许 再 增加 4 个 (1271 行 )， 所 以 要 重新 分 配 一 块 连续 的 空间 。 这 里 的 常数 
SB ALTSETTINGALLOC 也 定义 为 4， 再 多 就 不 允许 了 。 

在 while 循环 中 ， 首 先 从 缓冲 区 中 复制 一 个 接口 描述 块 ， 并 相应 地 谢 整 指针 buffer 和 和 parsed， 以 及 
剩余 部 分 的 大 小 。 然 后 就 来 分 析 处 理 这 个 描述 块 所 提供 的 信息 。 

每 个 接口 描述 块 的 开头 是 两 个 字 节 的 usb descriptor header 数据 结构 ， 说 明了 描述 块 的 大 小 与 类 
型 ， 定 义 十 include/linux/usb.h: 


212 /* All standard descriptors have these 2 fields in common */ 
213 struct usb descriptor header | 

214 u8 bLength; 

215 ..u8 bDescriptorType; 

216 ) _ attribute ((packed)):; 


如 果 描 述 块 的 类 型 为 USB DT INTERFACE. USB DT ENDPOINT, USB_DT_CONFIG, Wk 
USB DT DEVICE 这 4 42. ~ MÆ 个 USB 标准 的 描述 块 ， 否则 就 把 它 跳 过 ， 继续 往 卜 看 下 一 个 描 
RH 1320~ 1324 行 ， 以 及 1304 行 )。 被 跳 过 的 描述 鼎 都 是 非 USB 标准 的 ， 一 般 是 山 其 体 厂 商 或 行业 
(如 数字 照相 机 行业 等 等 自行 定义 的 。 对 丁 这 些 非 USB 标准 的 摘 述 块 ， :方向 要 通过 dbg( FAR 
t: 秀一 方面 ， 更 重要 的 是 ， 要 分 配 缓冲 区 将 这 些 描述 块 保存 下 来 (1332 一 1346 行 )， 以 备 将 来 由 具体 
设备 的 驱动 程序 作 进 一 步 的 分 析 ， 并 使 当前 usb interface descriptor 数据 结构 中 的 指针 extra 指向 这 块 
缓冲 区 。 

至 此 ， 我 们 已 经 从 原始 缓冲 区 中 找到 了 一 个 USB 标准 的 描述 块 ， 下 而 吴 要 根据 这 个 描述 块 的 类 型 
来 决定 怎样 继续 往 下 分 析 了 。 我 们 继续 看 usb_parse_interface( ) 的 代码 (drivers/usb/usb.c)。 


Luhci_pci_probe( ) > setup_uhci( ) > uhci_start_root_hub( ) > usb_new_device( ) > usb, get configuration( ) 
> usb_parse_configuration( ) > usb_parse_interface( )] 


1348 /* Did we hit an unexpected descriptor? */ 
1349 header = (struct usb descriptor header *)buffer; 
1350 if ((size >= sizeof(struct usb descriptor header)) && 
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1351 ((header->bDescriptorType == USB DT CONFIG) || 
1352 (header->bDescriptorType == USB DT DEVICE))) 
1353 return parsed; 

1354 

1355 if (ifp->bNumEndpoints > USB MAXENDPOINTS) 1 

1356 warn(/^too many endpoints”); 

1357 return -1; 

1358 } 

1359 

1360 ifp-^endpoint = (struct usb_endpoint_descriptor *) 
1361 kmalloc(ifp-^bNumEndpoints * 

1362 sizeof (struct usb endpoint descriptor), GIP KERNEL): 
1363 if (lifp-^endpoint) { 

1364 err ("out of memory”); 

1365 return -1; 

1366 ] 

1367 

1368 memset(ifp-^endpoint, 0, ifp->bNumEndpoints * 

1369 sizeot (struct usb endpoint descriptor)); 

1370 

1371 for (i = 0; i < ifp—bNumEndpoints; i++) { 

1372 header = (struct usb descriptor header *) buffer; 
1373 

1374 if (header bLength > size) { 

1375 err ("ran out of descriptors parsing”) ; 
1376 return ~l; 

1377 } 

1378 

1379 retval = usb parse endpoint (dev, ifp >endpoint + i, buffer, size); 
1380 if (retval < 0) 

1381 return retval; 

1382 

1383 buffer += retval; 

1384 parsed += retval; 

1385 size -= retval; 

1386 ) 

1387 

1388 /* We check to see if it's an alternate to this one */ 
1389 ifp = (struct usb interface descriptor *) buffer; 
1390 if (size < USB DT INTERFACE SIZE || 

1391 ifp->bDescriptorType !- USB DT INTERFACE | | 
1392 !ifp->bAlternateSett ing) 

1393 return parsed; 

1394 } 

1395 

1396 return parsed; 

1397 } 
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如 果 原 始 缓 冲 区 中 下 … 个 描述 块 的 类 型 是 USB_DT_CONFIG 或 USB. DT. DEVICE, 那 就 说 明 对 一 
个 新 的 配置 或 设备 的 描述 开始 了 ， 当 前 配置 中 己 经 再 没有 更 多 的 接口 ， 所 以 便 返 回 此 时 在 原始 缓冲 区 
中 的 位 置 (1353 行 )， 供 更 高 层 的 函数 继续 往 下 分 析 。 和 否则 ， 如 果 下 一 个 描述 块 的 类 型 是 
USB.DT INTERFACE 或 USB_DT_ENDPOINT， 便 找到 了 对 下 一 个 接口 或 端点 的 描述 块 。 在 每 一 个 接 
口 描述 块 的 后 面 是 若干 端点 描述 块 。 

根据 已 经 读 入 usb. interface descriptor 数据 结构 的 信息 ， 可 以 知道 当前 “设置 ” 中 有 几 个 端点 ， 从 
而 为 这 些 端点 的 usb, endpoint, descriptor 数据 结构 分 配 空间 (1360 行 )。 这 种 数据 结构 是 对 端点 的 抽象 ， 
定义 于 include/linux/usb.h: 


236 /* Endpoint descriptor */ 
237 struct usb endpoint descriptor { 


238 ..u8 bLength ..attribute  ((packed)); 
239 ..u8 bDescriptorType _ attribute | ((packed)); 
240 ..u8 bEndpointAddress | attribute . ((packed)); 
241 __u8 bmáttributes . attribute _ ((packed)); 
242 __ul6 wMaxPacketSize ^ attribute ^ ((packed)); 
243 . u8 binterval . attribute ^ ((packed)); 
244 . .u8 bRefresh . attribute ( (packed) ) ; 
245 ..u8 bSynchAddress . attribute  ((packed)); 
246 

247 unsigned char *extra; /* Extra descriptors */ 
248 int extralen; 

249]; 


每 “个 端点 都 有 个 固定 的 端点 号 ， 在 不 同 的 配置 中 一 个 端点 可 以 属于 不 同 的 接口 ， 但 是 其 端点 号 
不 会 改变 。 另 方面， 各 个 端点 的 最 大 信和 包容 量 、 中 断 传输 的 应 有 周期 等 等 参数 也 各 不 相同 。 

然后 ， 就 是 通过 “个 for 循环 依次 辨认 和 抽取 各 个 端点 描述 块 了 。 同 样 ， 每 个 端点 描述 块 的 开头 也 
是 由 一 个 usb descriptor header 数据 结构 说 明了 描述 块 的 大 小 。 对 端点 描述 块 的 分 析 是 由 
usb parse endpoint( ) 完 成 的 ， 其 代码 在 drivers/usb/usb.c "P: 


[uhci, pci, probe( ) > setup, uhci( ) > uhci start root hub( ) > usb new. device( ) > usb, get. configuration( ) 
> usb, parse configuration( ) > usb parse interface( ) > usb parse endpoint( )] 


1161 static int usb parse endpoint (struct usb device *dev, 
struct usb endpoint descriptor *endpoint, unsigned char *buffer, int size) 


1162 { 

1163 struct usb_descriptor header *header; 

1164 unsigned char *begin; 

1165 int parsed = 0, len, numskipped; 

1166 

1167 header = (struct usb descriptor header *) buffer: 

1168 

1169 /* Everything should be fine being passed into here, but we sanity */ 
1170 /* check JIC */ 


- 458 . 


第 8 章 设备 驱动 


BEENDEN. MM i. B. 


1171 if (header—>bLength > size) { 
1172 err("ran out of descriptors parsing”); 
1173 return -1; 
1174 } 
1175 
1176 if (header->bDescriptorType != USB DT ENDPOINT) | 
1177 warn( 
"unexpected descriptor OxXX, expecting endpoint descriptor, type Ox%X”, 
1178 endpoint—>bDescriptorType, USB_DT_ENDPOINT) ; 
1179 return parsed; 
1180 } 
1181 
1182 if (header->bLength == USB DT ENDPOINT AUDIO SIZE) 
1183 memcpy (endpoint, buffer, USB DT ENDPOINT AUDIO SIZE): 
1184 else 
1185 memcpy (endpoint, buffer, USB DT ENDPOINT, SIZE); 
1186 
1187 lel6 to cpus (kendpoint->wMaxPacketSize) ; 
1188 
1189 buffer += header-^bLength; 
1190 size -= header->bLength; 
1191 parsed += header->bLength; 
1192 
1193 /* Skip over the rest of the Class Specific or Vendor Specific */ 
1194 /* descriptors */ 
1195 begin - buffer; 
1196 numskipped = 0; 
1197 while (size >= sizeof(struct usb descriptor header) ) { 
1198 header = (struct usb descriptor header *) buffer; 
1199 
1200 if (header bLength < 2) { 
1201 err(“invalid descriptor length of %d”, header->bLength) ; 
1202 return -1; 
1203 } 
1204 
1205 /* If we find another descriptor which is at or below us */ 
1206 /* in the descriptor heirarchy then we're done */ 
1207 if ((header->bDescriptorType == USB DT ENDPOINT) | 
1208 (header->bDescriptorType == USB DT INTERFACE) | | 
1209 (header->bDescriptorType == USB_DT_CONFIG) | | 
1210 (header->bDescriptorType == USB DT DEVICE)) 
1211 break; 
1212 
1213 dbg( skipping descriptor Ox%X”, 
1214 header->bDescriptorType) ; 
1215 numsk ipped++ ; 
1216 
1217 buffer += header-^bLength; 
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1218 size -= header—>bLength; 

1219 parsed += header->bl.ength; 

1220 } 

1221 if (numskipped) 

1222 dbg (skipped %d class/vendor specific endpoint descriptors”, numskipped); 
1223 

1224 /* Copy any unknown descriptors into a storage area for drivers */ 
1225 /* to later parse */ 

1226 len = (int) (buffer - begin); 

1227 if (llen) ( 

1228 endpoint-^extra = NULL; 

1229 endpoint-^extralen = 0; 

1230 return parsed; 

1231 } 

1232 

1233 endpoint—>extra = kmalloc(len, GFP KERNEL); 

1234 

1235 if (!endpoint->extra) { 

1236 err(^couldn't allocate memory for endpoint extra descriptors”); 
1237 | endpoint extralen = 0; 

1238 return parsed; 

1239 } 

1240 

1241 memcpy (endpoint—>extra, begin, len); 

1242 endpoint->extralen = len; 

1243 

1244 return parsed; 

1245 } 


这 里 所 期 竺 的 是 端点 描述 块 ， 所 以 如 果 撕 述 央 的 类 型 不 是 USB_DT_ENDPOINT， 就 六 即 返 回 ， 让 
岛 层 的 函数 继续 往 下 分 析 。 一 般 端 点 描述 块 的 人 小 是 7 个 字 节 ， 但 如 果 是 用 十 音频 设备 的 端点 则 有 9 
个 宁 节 ,把 描述 块 开 头 的 7 个 或 9 个 字 节 复制 到 usb endpoint descriptor 数据 结构 中 , 并 相应 推进 buffer 
和 parsed， 调 整 还 剩 下 的 size 以 后 ， 对 -一 个 端点 描述 块 的 处 理 就 结束 了 。 但 是 ， 在 端点 描述 块 这 dz 
上 也 会 有 非 标准 的 、 由 家 或 有 关 行 业 自 行 定义 的 描述 块 ， 所 以 也 要 跳 过 这 些 描述 块 ， 并 像 前 面 看 到 
ROME 方面 通过 dbg() 提 出 报告 ， 一 方面 将 这 些 描述 块 复制 下来， 留待 将 来 由 具体 的 设备 驱动 程序 加 
以 分 析 。 

加 到 usb_parse_interface( ) 的 代码 中 ， 在 穷尽 了 一 个 (接口 ) 设 置 的 所 有 端点 描述 块 以 后 ， 就 完成 了 
对 这 个 设置 的 处 理 。 如 果 原 始 缓冲 区 中 还 有 足够 的 内 容 ， 下 一 个 描述 大 义 赴 个 接口 描述 块 ， 就 可 以 回 
到 while 循 坏 (1265 行 ) 的 开头 ， 继 续 扫 描 原始 绥 冲 |x 中 剩 下 的 内 容 ， 处 理 下 -个 设置 了 。 

处 理 完 一 个 配置 的 所 有 接口 以 后 , 使 从 usb_parse_configuration( ) 返 问 到 usb_get_configuration( )']!, 
继续 读 入 和 处 理 下 一 个 配置 ， 直 到 完成 对 设备 的 所 有 陀 置 的 处 理 。 最 后 ， 返回 到 usb. new. device( ) 的 
代码 中 (2135 行 )， 下 一 - 步 是 通过 usb. set configuration( ) A EREAR EL SRR 0 号 配置 ， REM 
兴 的 配置 。 这 个 函数 的 代 倘 在 drivers/usb/usb.c 中; 
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[uhci, pci. probe( )>setup_uhci( ) > uhci start root hub( ) > usb_new_device( ) > usb_set_configuration ( )] 


1884 int usb set configuration (struct usb device *dev, int configuration) 
1885 d 


1886 int i, ret; 

1887 struct usb config descriptor *cp = NULL; 

1888 

1889 for (i-0; i«dev— descriptor. bNumConfigurations; i++) { 

1890 if (dev->config[il. bConfigurationValue == configuration) { 

1891 cp = &dev—>configli]; 

1892 break; 

1893 } 

1894 } 

1895 if (ep) { 

1896 warn(“selecting invalid configuration %d”, configuration); 

1897 return -EINVAL; 

1898 ) 

1899 

1900 if ((ret = usb control msg(dev, usb sndctrlpipe(dev, 0), 

1901 USB REQ SET CONFIGURATION, 0, configuration, 0, NULL, 0, HZ * SET TIMEOUT) 
) <0) 

1902 return ret; 

1903 

1904 dev->actconfig = cp; 

1905 dev-^toggle[0] = 0; 

1906 dev-^toggle[1) = 0; 

1907 usb set maxpacket (dev) ; 

1908 

1909 return 0; 

1910.) 


至 此 ， 作 为 PCI 设备 ， 并 且 作 为 USB 控制 器 的 枚 举 与 初始 化 已 经 完成 了 。 BÆ, USB 主 控制 器 必 
须 与 总 线 的 根 集中 器 配合 才能 进行 有 意义 的 操作 。 根 集中 器 是 USB 主 控制 器 的 “大 门 ” 而 .上 : 述 过 程 
尚未 触及 对 根 集 中 器 的 初始 化 , 事实 上 , 根 集中 器 和 USB 总 线 控制 器 在 物理 上 总 是 集成 在 同一 设备 中 ， 
LA -设备 的 两 个 不 同 “ 接 口 ”。 另 一 方面 , 根 集中 器 又 是 USB 集中 器 的 一 种 , eet LITE USB 
集中 器 并 无 不 同 ，-- RH] USB 集中 器 的 驱动 模块 。 所 以 对 根 集中 器 的 初始 化 只 有 在 安装 了 USB R 
中 器 的 驱动 模块 以 后 才能 进行 。 然 而 ， 对 USB 控制 器 的 枚 举 与 初始 化 跟 USB 集中 器 驱动 模块 的 安装 
是 两 个 独立 的 事件 ， 并 无 保 让 何者 在 先 ， 何 者 在 后 。 所 以 ， 就 有 了 黄种 可 能 的 情况 和 对 策 。 

如 果 USB 控制 器 的 枚 举 与 初始 化 在 先 ， 则 只 好 推迟 USB 集中 器 的 初始 化 。 到 安装 USB 集中 器 的 
驱动 模块 的 时 候 ， 可 以 让 它 来 “认领 ”已 经 枚 举 的 根 集中 器 ， 然 后 对 其 进行 初始 化 。 对 于 根 集中 冉 ， 
这 是 可 能 性 最 大 的 情况 。 

如 果 USB 集中 器 的 驱动 模块 安装 在 先 ， 则 安装 时 认领 不 到 USB 集中 器 ， 因 而 无 事 可 做 。 然 后 ， 
在 完成 了 USB 总 线 控制 器 的 枚 举 与 初始 化 ， 并 检测 到 一 个 具体 USB 集中 器 的 存在 时 ， 就 设法 找到 其 
驱动 模块 ， 再 通过 该 驱动 模块 完成 其 初始 化 。 根 集中 器 是 特殊 的 USB 集中 器 ， 它 的 存在 是 个 需要 检测 
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的 ， 有 USB 总 线 控制 器 就 必 有 根 集中 器 ， 但 是 一 般 的 集中 器 就 不 同 了 。 实 际 上 ， 一 般 USB 设备 的 枚 
举 与 其 体 驱动 模块 的 安装 更 加 随机 ， 因 为 USB 总 线 允 许 “ 热 插入 ” 随时 可 以 把 设备 插 上 拔 下 。 


所 以 ， 现 在 就 通过 usb find drivers( ) 来 找 找 ， 看 USB 集中 器 的 驱动 模块 是 台 已 经 安装 。 这 个 函数 


的 代码 在 drivers/usb/usb.c F: 


[uhci pci probe( ) > setup_uhci( ) > uhci, start. root, hub( ) > usb new. device( ) > usb. find. drivers( )] 


833 
834 
835 
836 
837 
838 
839 
840 
841 
842 
843 
844 
845 
846 
847 
848 
849 
850 
851 
852 
853 
854 
855 
856 
857 
858 


859 
860 
861 
862 
863 
864 
865 
866 


/* 
* This entrypoint gets called for each new device. 
* 
* All interfaces are scanned for matching drivers. 
*/ 
static void usb_find_drivers (struct usb_device *dev) 
{ 
unsigned ifnum; 
unsigned rejected = 0; 
unsigned claimed = 0; 


for (ifnum = 0; ifnum < dev->actconfig->bNumInterfaces; ifnum++) { 
/* if this interface hasn't already been claimed */ 
if (lusb interface claimed(dev-^actconfig-^interface + ifnum)) { 
if (usb find interface driver(dev, ifnum)) 
rejectedt+; 
else 
claimedt+; 


} 


if (rejected) 
dbg (“unhandled interfaces on device”); 


if (!claimed) { 
warn ( 

"USB device *d (vend/prod Ox%x/0x%x) is not claimed by any active driver.”, 
dev—>devnun, 
dev-^descriptor. idVendor, 
dev->descriptor. idProduct) : 

#ifdef DEBUG 
usb_show_device (dev) ; 
Hendif 
} 
} 


对 于 USB 主 控制 器 设备 的 每 一 个 接口 〈 其 中 之 一 必定 是 根 集中 器 )， 只 旧 尚 未 被 认领 ， 就 道 过 
usb find interface driver( ) 扫 描 已 经 安装 的 驱动 模块 队列 并 进行 比 对 。 其 代码 在 同一 文件 中 : 
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[uhci pci probe( ) > setup. uhci( ) > uhci_start_root_hub( ) > usb new. device( ) > usb find drivers( ) 
» usb find interface driver( )] 


623 /* 

624 * This entrypoint gets called for each new device 

625 * 

626 * We now walk the list of registered USB drivers, 

627 * looking for one that will accept this interface. 

628 * 

629 * "New Style” drivers use a table describing the devices and interfaces 
630 * they handle. Those tables are available to user mode tools deciding 
631 * whether to load driver modules for a new device. 

632 * 

633 * The probe return value is changed to be a private pointer. This way 
634 * the drivers don’t have to dig around in our structures to set the 
635 * private pointer if they only need one interface. 

636 * 

637 * Returns: 0 if a driver accepted the interface, -1 otherwise 

638 */ 

639 static int usb find interface driver (struct usb device *dev, unsigned i fnum) 
640 { 

641 struct list head *tmp; 

642 struct usb interface *interface; 

643 void *private; 

644 const struct usb device id *id; 

645 struct usb driver *driver; 

646 int i; 

647 

648 if ((!dev) || (ifnum >= dev->actconfig—>bNumInterfaces)) { 

649 err('bad find interface driver params”) ; 

650 return -1; 

651 } 

652 

653 interface = dev—>actconfig—>interface + ifnum; 

654 

655 if (usb interface claimed (interface) ) 

656 return -1; 

657 

658 private = NULL; 

659 for (tmp = usb driver list.next; tmp != &usb driver list;) | 

660 

661 driver = list entry(tmp, struct usb driver, driver list); 
662 tmp = tmp->next; 

663 

664 down (&driver- >serialize) ; 

665 id = driver-^id table; 

666 /* new style driver? */ 

667 if Gd) 4 
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668 for (i = 0; i < interface->num_altsetting; i++) { 
669 interface—ract altsetting = i; 

670 id = usb match id(dev, interface, id); 

671 if (id) ( 

672 private = driver—>probe (dev, ifnum, id) : 
673 if (private !- NULL) 

674 break; 

675 } 

676 } 

677 /* if driver not bound, leave defaults unchanged */ 
678 if (private == NULL) 

679 interface->act_altsetting = 0; 

680 } 

681 else /* “old style” driver */ 

682 private = driver->probe(dev, ifnum, NULL): 

683 

684 up (&driver—>serialize) ; 

685 if (private) { 

686 usb driver claim interface(driver, interface, private); 
687 return 0; 

688 } 

689 } 

690 

691 return -1; 

692 } 


每 个 已 安装 的 驱动 模块 都 有 个 “ 比 对 表 ”， 说 明 洒 模块 适用 于 哪些 或 什么 样 的 设备 ， 可 以 通过 
usb match, id( ) 与 具体 设备 提供 的 数据 比 对 。 我 们 将 在 后 面 结合 扫描 器 的 驱动 列 出 这 个 函数 的 代码 。 比 
对 成 功 ， 即 找到 了 适用 的 张 动 模块 以 后 ， 就 对 目标 设备 《接口 》 执行 由 驱动 模块 通过 冰 数 指针 probe 
提供 的 操作 ， 完 成 日 标 设备 〈 接 凯 ) 的 初始 化 。 

在 我 们 这 个 情景 中 ,假定 USB 集中 器 的 驱动 模块 尚未 安装 ， 所 以 只 好 和 哲 绥 ， 等 待 驱动 模块 的 安装 
或 USB 集中 器 初始 化 的 进行 。 不 过 ，usb_new_device( ) 的 代码 中 还 调用 了 一 个 函数 call_policy(), BB 
及 专 为 “ 热 插入 ”而 设计 的 一 种 机 制 。 其 大 致 的 作用 和 过 程 是 让 call policy( ) 构 筑 一 个 命令 行 
"[sbin/hotplug usb” 以 及 必要 的 环境 变量 ,然后 创建 起 - -个 内 核 线程 ， 再 让 这 个 线程 天 级 成 为 一 个 进 
程 ， 并 执行 工具 软件 /sbin/hotplug 以 装 入 USB 集中 器 的 驱动 模块 。 限 于 篇 幅 ， 我 们 这 里 就 从 略 了 。 


不 管 是 合 出 于 call policy( ) 的 问 接 启 动 ， 我 们 假定 USB 总 线 的 驱动 模块 或 迟 或 早 都 会 得 到 安装 。 
安装 USB 总 线 的 叔 动 模块 时 ， 就 会 执行 其 初始 化 程序 usb_init( )。 其 代码 在 drivers/usb/usb.c 中 : 


2243 static int — init usb_init (void) 


2244 { 

2245 usb major init( ) 
2246 usbdevfs init( ); 
2247 usb hub init( ); 
2248 
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2249 return 0; 
2250 } 


就 像 别 的 设备 驱动 程序 一 样 ， 首 先 要 占 系 统 登记 ， 这 是 由 usb_major_init( ) 完 成 的 。 其 代码 在 
drivers/usb/usb.c 中 : 


[usb_init( ) > usb_major_init( )] 


2208 int usb major init (void) 


2200 { 

2210 if (devfs register chrdev(USB MAJOR, “usb”, &usb fops)) { 
2211 err ("unable to get major %d for usb devices", USB MAJOR); 
2212 return —EBUSY; 

2213 } 

2214 

2215 usb_devfs handle = devfs_mk_dir(NULL, “usb”, NULL); 

2216 

2217 return 0; 

2218 } 


对 这 段 代 码 已 经 没有 什么 可 说 的 了 。 此 外 ， 上 面 2246 fT usbdevfs init OB EHI R Ala devfs 特殊 文 
件 系统 登记 , 读者 可 参阅 “设备 文件 系统 devfs ”一 节 。 所 以 ,usb_init( ) 中 关键 的 操作 就 是 usb_hub_init( )。 
这 个 函数 的 代 公 在 drivers/usb/hub.c F: 


[usb init( ) > usb_hub_init( )] 


786 int usb hub init (void) 


787 { 

788 int pid; 

789 

790 if (usb register(&hub driver) < 0) ( 

791 err(“Unable to register USB hub driver”): 
792 return -1; 

193 } 

794 

795 pid = kernel thread(usb hub thread, NULL, 
796 CLONE FS | CLONE FILES ! CLONE SIGHAND) ; 
797 if (pid >= 0) { 

798 khubd pid = pid; 

199 

800 return Q; 

801 } 

802 

803 /* Fall through if kernel thread failed */ 
804 usb deregister(&hub driver); 

805 err ("failed to start usb hub thread"); 
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806 
807 return -1; 
808 } 


首先 通过 usb. register( ) 登 记 一 个 USB 设备 驱动 模块 .每 一 种 USB 设备 都 有 -个 usb_driver 数据 结 
Hj, USB 集中 器 的 usb. driver 数据 结构 是 hub_driver， 定 义 于 drivers/usb/hub.c: 


775 static struct usb driver hub driver = { 


776 name: “hub”, 

777 probe: hub_probe 

778 ioctl: hub ioct!, 

779 disconnect: hub_disconnect, 
780 id table: hub_id_table, 
781 N 


我 们 将 在 后 面 以 扫描 器 为 实例 讲述 USB 设备 的 初始 化 时 ， 详 细 介绍 usb_register( )， 这 早先 简略 地 
说 明 一 下 。 所 有 的 USB 设备 都 采用 相间 的 主 设备 号 USB_MAJOR， 而 不 同类 的 USB 设备 则 由 次 设备 
号 区 分 。 内 核 中 有 个 以 次 设备 号 为 下 标的 usb, driver 结构 指针 数组 usb_minors[ ]， 登记 时 就 根据 有 具体 
usb. driver 结构 中 提供 的 次 设备 号 将 其 起 始 地 址 填 入 这 个 数组 中 。 上 面 hub_driver 的 定义 中 没有 列 出 其 
次 设备 号 ， 实 际 上 表示 USB 集中 器 的 次 设备 号 为 0。 此 外 ， 内 核 中 还 有 个 USB WARS 
usb driver list， 登 记 时 把 usb, driver 结构 通过 其 队列 头 driver list 挂 入 这 个 队列 。 然 后 ， 还 要 对 已 经 枚 
举 的 所 有 USB 设备 的 usb_device 结构 进行 一 趟 扫描 ， 让 新 登记 的 驱动 模块 “认领 ”应 该 由 它 驱动 的 设 
备 《〈 或 接口 )》， 如 果 找 到 了 就 对 其 执行 一 次 由 驱动 模块 提供 的 probe 操作 。 在 我 们 现在 这 个 情景 
已 经 枚 举 的 USB 设备 只 有 一 个 ， 那 就 是 根 集中 器 ， 所 以 对 其 调用 由 hub driver 提供 的 probe 函数 
hub_probe( )。 其 代码 在 drivers/usb/hub.c 中 《下 面 的 调用 路 径 中 跳 过 了 几 个 函数 ， 后 面 还 会 介绍 ) 。 


[usb_init( ) > usb hub init( ) > usb_register( ) > usb scan devices( ) > usb, check support( ) 
» usb find interface driver( ) » hub probe( )] 


238 static void *hub_probe(struct usb device *dev, unsigned int 1, 
239 const struct usb device id *id) 

240 

241 { 

242 struct usb interface descriptor *interface; 

243 struct usb endpoint descriptor *endpoint; 

244 struct usb hub *hub; 

245 unsigned long flags; 

246 

247 interface = &dev->actconfig—>interface[il]. altsetting|0]; 
248 

249 /* Some hubs have a subclass of 1, which AFAICT according to the */ 
250 /* specs is not defined, but it works */ 

251 if ((interface-»bInterfaceSubClass != 0) && 

252 (interface->bInterfaceSubClass != 1)) { 

253 err('invalid subclass (%d) for USB hub device #%d”, 
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254 interface->bInterfaceSubClass, dev—>devnum) ; 

255 return NULL; 

256 } 

257 

258 /* Multiple endpoints? What kind of mutant ninja-hub is this? */ 

259 if (interface->bNumEndpoints != 1) ( 

260 err ("invalid bNumEndpoints (Xd) for USB hub device #%d”, 

261 interface-»bNumEndpoints, dev-^devnum); 

262 return NULL; 

263 ) 

264 

265 endpoint = &interface-^endpoint [0]; 

266 

267 /* Output endpoint? Curiousier and curiousier.. */ 

268 if (!(endpoint—->bEndpointAddress & USB DIR IN)) 1 

269 err ("Device #%d is hub class, but has output endpoint?", 

270 dev—>devnum) ; 

271 return NULL; 

272 ] 

273 

214 /* lf it’s not an interrupt endpoint, we'd better punt! */ 

215 if ((endpoint—>bmAttributes & USB ENDPOINT XFERTYPE MASK) != 
USB ENDPOINT XFER INT) | 

216 err('Device #%d is hub class, but has endpoint other than interrupt?", 

271 dev-?devnum) ; 

218 return NULL; 

279 } 

280 

281 /* We found a hub */ 

282 info("USB hub found”) ; 

283 

284 hub = kmalloc (sizeof (#hub), GFP KERNEL); 

285 if (!hub) { 

286 err("couldn' t kmalloc hub struct”); 

287 return NULL; 

288 ) 

289 

290 memset (hub, 0, sizeof (*hub)) ; 

291 

292 INIT LIST HEAD (&hub->event_list) ; 

293 hub->dev = dev; 

294 

295 /* Record the new hub’s existence */ 

296 spin lock irqsave(&hub event lock, flags); 

297 INIT LIST HEAD(&hub-^hub list); 

298 list add(&hub—hub list, &hub list); 

299 spin unlock irqrestore(&hub event lock, flags); 

300 
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301 if (usb hub configure(hub, endpoint) >= 0) 

302 return hub; 

303 - 
304 err (“hub configuration failed for device #%d”, dev->devnum) ; 
305 à 
306 /* free hub, but first clean up its list. */ 
307 spin lock irqsave(&hub event lock, flags); 

308 

309 /* Delete it and then reset it */ 

310 list del(&hub-^event list); 

311 INIT LIST HEAD(&hub-^event list); 

312 list del(&hub-^hub list); 

313 INIT LIST HEAD(&hub-^hub list); 

314 

315 spin unlock irqrestore(&hub event lock, flags); 
316 

317 kfree (hub) ; 

318 

319 return NULL; 

320  ] 


参数 dev 指向 具体 设备 (在 这 里 古 根 集中 器 ) 的 usb_device 数据 结构 ，i 表明 当前 处 理 的 接口 号 。 当 
设备 中 有 多 个 接口 时 ， 对 每 个 接口 都 会 调用 一 次 相应 的 probe 函数 。 参 数 id 则 指向 一 个 用 于 比 对 、 认 
领 的 usb. device id 数据 结构 ， 甲 面 有 设备 驱动 异 块 所 适用 的 设备 类 型 、 制 造 广 商 、 产 品 编号 等 等 信息 。 
由 于 具体 probe 函数 的 执行 实际 上 是 针对 接口 ( 即 逻辑 设备 ) 的 , 所 以 先 根据 接口 号 从 设备 的 当前 配置 中 
取得 指向 基体 接口 描述 信息 的 指针 interface. 在 凋 用 这 个 函数 之 前 ， 己 经 对 设备 进行 了 比 对 ， 根 据 其 设 
备 类 型 、 制 造 厂商 等 等 信息 初步 认定 是 个 USB 集中 器 ， 这 才 调 用 hub probe( ) 的 。 但 是 ， 这 里 还 要 再 
进一步 作 一 些 检验 。USB 集中 器 的 子 设备 类 型 号 应 该 是 0 或 1， 除 默认 的 控制 端点 以 外 应 该 只 有 一 个 
"PHA A Ati, 251—279 行 对 这 些 特征 加 以 检验 。 如 果 通 过 了 所 有 这 些 检验 ， 就 最 后 认定 了 这 是 
个 USB 集中 器 。 虽 然 usb_device 数据 结构 中 包含 了 昌 标 设备 作为 一 般 USB 设备 所 共有 的 各 种 信息 ， 
作为 具体 的 USB 集中 器 设备 还 有 附加 的 、 反 映 此 种 设备 特性 的 信息 , 以 及 运行 所 需 的 一 些 字段 或 成 分 ， 
所 以 还 些 为 其 分 配 一 个 usb hub 数据 结构 。 这 种 数据 结构 定义 于 drivers/usb/hub.h: 


93 struct usb hub ( 


94 struct usb device *dev; 
95 
96 struct urb *urb; /* Interrupt polling pipe */ 
97 
98 char buffer[(USB MAXCHILDREN + 1 + 7) / 8]; 
/* add 1 bit for hub status change */ 
99 /* and add 7 bits to round up to byte boundary */ 
100 int error; 
101 int nerrors; 
102 
103 struct list head hub list; 
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104 

105 struct list head event list; 

106 

107 /* Number of ports on the hub */ 

108 int nports; 

109 

110 struct usb hub descriptor *descriptor; 
lli o}; 


结构 中 有 个 位 图 buffer[ ]， 除 其 中 一 位 用 作 总 的 状态 改变 标志 位 以 外 ， 每 一 位 部 对 应 着 USB 集中 
器 于 的 一 个 端口 ， 反 映 着 该 端口 的 状态 ， 字 段 nperts 则 说 明 端口 的 数量 。 指 针 descriptor 指向 一 个 
usb. hub, descriptor 数据 结构 ， 定 义 于 同一 文件 中 : 


77 / Hub descriptor */ 
78 struct usb hub descriptor | 


19 = u8 bLength; 

80 __u8 bDescriptorType; 

81 __u8 bNbrPorts; 

82 __ul6 wHubCharacteristics; 

83 ..u8 bPwrOn2PwrGood; 

84 __u8 bHubContrCurrent; 

85 

86 /* DeviceRemovable and PortPwrCtrlMask want to be variable-length 

87 bitmaps that hold max 256 entries, but for now they’ re ignored */ 
88 __u8 bitmap[0]; 


89 } attribute | ((packed)); 


显然 ， 这 些 信息 只 能 来 自 设备 本 身 。 此 外 ， 对 USB 集中 器 的 初始 化 还 应 该 包括 为 道 过 周期 性 的 中 
断 传输 查询 其 状态 变化 作出 安排 。 所 以 ， 在 对 usb hub 结构 进行 一 些 初 步 的 初始 化 以 后 ， 便 道 过 
usb_hub_configure( ) 进 一 步 完 成 其 初始 化 。 其 代码 在 drivers/usb/hub.c FP : 


[usb_init( ) > usb_hub_init( ) > usb_register( ) > usb. scan devices( ) > usb check support( ) 
> usb. find. interface. driver( ) > hub, probe( ) > usb hub  configure( )] 


125 static int usb_hub_configure (struct usb hub *hub, 
struct usb endpoint descriptor *endpoint) 


126 { 

127 struct usb device *dev = hub->dev; 

128 struct usb hub status hubstatus; 

129 char portstr[USB MAXCHILDREN + 1]; 

130 unsigned int pipe; 

131 int i, maxp, ret; 

132 

133 hub->descriptor = kmalloc(HUB DESCRTPTOR MAX SIZE, GIP KERNEL) ; 
134 if (!hub- descriptor) { 

135 err("Unable to kmalloc %d bytes for hub descriptor”, 
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HUB DESCRIPTOR MAX SIZE); 


136 return -1; 

137 ) 

138 

139 /* Request the entire hub descriptor. */ 

140 ret = usb get hub descriptor(dev, hub->descriptor, HUB DESCRIPTOR MAX SIZE); 
141 /* <hub->descriptor> is large enough for a hub with 127 ports; 
142 * the hub can/will return fewer bytes here. */ 

143 if (ret < 0) { 

144 err (“Unable to get hub descriptor (err = %d)”, ret); 

145 kfree (hub->descriptor) ; 

146 return -1; 

147 } 

148 

149 hub-^nports = dev—>maxchild = hub->descriptor->bNbrPorts: 

150 info("%d port%s detected”, hub->nports, (hub->nports == 1) ? "^ : 78”); 
151 

152 if (hub->descriptor-—>wHubCharacteristics & HUB CHAR COMPOUND) 
153 dbg( part of a compound device"); 

154 else 

155 dbg( standalone hub^); 

156 

157 switch (hub-^descriptor-^wHubCharacteristics & HUB CHAR LPSM) { 
158 case 0x00: 

159 dbg ("ganged power switching ^); 

160 break; 

161 case 0x01: 

162 dbg ("individual port power switching”) ; 

163 break; 

164 case 0x02: 

165 case 0x03; 

166 dbg ("unknown reserved power switching mode"); 

167 break; 

168 } 

169 

170 switch (hub->descriptor—>wHubCharacteristics & HUB CHAR OCPM) { 
171 case 0x00: 

172 dbg (“global over-current protection”); 

173 break; 

174 case 0x08: 

175 dbg ("individual port over-current protection”); 

176 break; 

177 case 0x10: 

178 case Ox18: 

179 dbg (“no over-current protection"); 

180 break; 

181 } 

182 
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201 
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dbg (“power on to power good time: %dms”, hub->descriptor->bPwrOn2PwrGood * 2); 
dbg (“hub controller current requirement: %dmA”, 
hub->descriptor—>bHubContrCurrent) ; 


for (i = 0; i < dev->maxchild; i++) 
portstr[i] - 
hub-^descriptorObitmap[((i + D / 8] & (1 << ((i + 1) $8) ? 
"RDO: R; 
portstr[dev-»maxchild] = 0; 


dbg("port removable status: %s”, portstr); 


ret = usb get hub status(dev, &hubstatus) ; 

if (ret < 0) { 
err('Unable to get hub status (err = Xd)", ret); 
kfree (hub—>descriptor) ; 
return -1; 


} 
lel6 to cpus (&hubstatus. wHubStatus) ; 


dbg(^local power source is %s”, 
(hubstatus. wHubStatus & HUB STATUS LOCAL POWER) ? 
"lost (inactive)” : "good^); 
dbg ("*sover-current condition exists”, 
(hubstatus. wHubStatus & HUB STATUS OVERCURRENT) ? ^" : “no ^); 


/* Start the interrupt endpoint */ 
pipe = usb rcvintpipe (dev, endpoint—>bEndpointAddress) ; 
maxp = usb_maxpacket (dev, pipe, usb _pipeout (pipe) ) ; 


if (maxp > sizeof (hub->buffer) ) 
maxp = sizeof (hub~>buffer) ; 


H 


hub->urb = usb alloc urb (0); 

if (!huburb) { 
err ("couldn t allocate interrupt urb"); 
kfree (hub->descriptor) ; 
return -1l; 


} 


FILL INT_URB(hub->urb, dev, pipe, hub->buffer, maxp, hub irq, 
hub, endpoint-»b]Interval); 

ret = usb submit urb(hub-^urb); 

if (ret) { 
err('usb submit urb failed (Wd)^, ret); 
kfree(hub-^descriptor):; 
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227 return -1; 

228 } 

229 

230 /* Wake up khubd */ 
231 wake up(&khubd wait); 
232 

233 usb hub power on(hub); 
234 

235 return 0; 

236 } 


首先 为 usb. hub descriptor 数据 结构 分 配 空间 ， 再 通过 usb get hub descriptor( )/A 5| a8 XA rss 
的 信息 ， 即 集中 器 描述 块 。 这 个 函数 的 代码 在 drivers/usb/hub.c 中 : 


[usb_init( ) > usb hub init( ) > usb_register( ) > usb_scan_devices( ) > usb check support( ) 
> usb find interface driver( ) > hub. probe( ) > usb hub configure( ) > usb. get hub. descriptor( )] 


41 static int usb get hub descriptor (struct usb device *dev, void *data, int size) 
42 { 

43 return usb control msg(dev, usb rcvctrlpipe(dev, 0), 

44 USB REQ GET DESCRIPTOR, USB DIR IN | USB RT HUB, 

45 USB DT HUB << 8, 0, data, size, HZ); 

46 } 


可 见 ， 所 需 的 信息 是 通过 --- 次 控制 传输 从 集中 器 读 入 的 。 读 入 了 集中 器 描述 块 以 后 。 就 知道 了 这 
个 集中 器 有 几 个 端口 , 也 知道 了 它 的 其 它 一 些 特性 。 例如 , 一 个 集中 器 可 以 是 一 个 单纯 的 USB 集中 器 ， 
也 可 以 起 个 复合 设备 中 的 部分; 集中 器 可 以 是 自 带 由 源 的 , 也 可 以 通过 USB 电缆 从 主机 吸取 电流 ; 
端口 上 可 以 带 有 过 电流 保护 ， 也 可 以 人 不 带 。 个 过 我 们 在 这 里 对 这 些 特性 不 感 兴 

接着 ， 上 骨 通 过 usb_get hub_status( ) 启 动 一 次 控制 传输 ， 进 一 步 从 集中 峰 读 入 状态 信息 
(drivers/usbhub.c)， 以 获取 有 关 其 电源 供应 的 当前 状况 。 


[usb_init( ) > usb hub init( ) > usb_register( ) > usb_scan_devices( ) > usb_check_support( ) 
> usb_find_interface_driver( ) > hub. probe( ) > usb_hub_configure( ) > usb. get hub status( )] 


66 static int usb get hub status (struct usb device *dev, void *data) 
67 { 

68 return usb control msg(dev, usb rcvctrlpipe(dev, 0), 

69 USB REQ GET STATUS, USB DIR IN | USB RT HUB, 0, O, 

10 data, sizeol(struct usb hub status), IZ): 

71 } 


当然 ， 我 们 对 电源 也 不 感 兴 
F 面 是 对 中 断 父 五 的 安排 ， 这 才 是 关键 性 的 。 对 才 USB 集中 器 ， 要 为 其 安排 一 个 或 者 说 “调度 ” 
一 个 周期 性 的 中 断 传 输 (每 全 中 断 传 输 中 上 只有， 个 交 所 )， 使 USB 总 线 控制 器 能 周期 地 查询 其 状态 ， 让 
它 有 机 会 报 各 各 个 端 所 的 状态 必 化 。 
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首先 要 通过 usb alloc urb( ) 分 配 一 个 “USB 传输 请 求 岂 ”， 即 usb 数据 结构 。 再 通过 安 操 作 
FILL_INT_URB() 设 置 好 这 个 数据 结构 ,设置 的 内 容 包括 对 方 的 设备 地 址 与 端点 号 , 用 米 接 收 信息 的 组 
冲 [区 hub->bufter,， 指 向 具体 usb. hub 数据 结构 的 指针 hub， 以 及 当 接 收 到 来 自 集 中 器 的 信息 以 后 需要 执 
行 的 “中 断 服务 程 序 ” hub_irq( )、 查 询 的 周期 等 等 。 最 后 通过 usb submit urb( ) 提 交 这 个 请 求 ， 就 是 椒 
据 urb 数据 结构 的 内 容 创建 一 个 父 互 请 求 ， 即 uhei td 数据 结构 ， 并 根据 查询 周期 将 其 链 入 skeltd[ JT 
某 两 个 元 素 之 间 。 这 样 ，USB 总 线 控制 器 便 会 周期 性 地 执行 这 个 交 并 请 求 ， 对 日 标 集中 器 通过 中 断交 
TITE d. 

至 此 ,通过 usb. register( ) 对 根 集 中 内 的 枚 举 与 初始 化 已 基本 完成 ,我 们 随 着 CPU EE usb. hub init( ) 
的 代码 中 。 

阅读 过 本 章 “PCI AR” ” 节 的 读者 可 能 已 经 注意 到 了 ，PCI 总 线 和 USB 总 线 的 枚 举 过 程 有 明显 
的 不 同 。PCI 总 线 的 枚 举 过 程 是 对 总 线 上 所 有 设备 的 枚 举 ， 并 朋 赴 个 递归 的 过 程 。 而 对 于 USB 总 线 ， 
则 至 仿 只 看 人 到 了 根 集 中 内 的 “ 枚 举 ”， 吉 未 见 有 进 … 步 对 连接 在 集中 器 上 的 设备 的 榴 举 。 虽 然 USB 总 
线 的 结构 也 有 递归 性 (多 级 集中 器 )， 但 匡 不 见 有 递归 的 操作 。 这 实际 上 反映 了 二 者 的 一 个 重要 的 区 别 。 
对 于 PCI 总 线 ， 昌 然 在 一 些 特 殊 的 系统 中 对 一 些 特殊 的 部 件 (需要 特殊 的 硬件 结构 ) 也 有 “ 热 捕 入 ”的 要 
K, 但 基本 的 假设 是 PCI 设备 企 系 统 加 虫 之 朋 就 已经 静态 地 连接 在 总 线 上 . 而 对 USB 总 线 却 恰 好 相反 ， 
基本 的 假设 是 “ 热 插入 ”， 即 多 数 USB 设备 都 会 在 系统 加 电 以 后 动态 地 训 入 或 离开 系统 。 在 最 为 一 般 
的 情况 上 下， 系统 初始 化 时 USB 总 线 上 除根 集中 器 外 没有 任何 设备 ， 而 事先 有 设备 连 在 USB BAER 
倒是 特例 。 

所 以 ， 对 于 根 集中 器 “后 面 ”的 设备 的 枚 举 ， 是 项 寄 要 “细水长流 ”的 任务 。USB 集中 器 的 驱 
功 模 块 为 此 创建 了 个 内 核 线程 khubd， 专 门 处 埋 集 中 央 的 状态 安 化 。 每 当 将 个 USB 设备 插入 集中 
器 时 ， 集 中 澳 在 下 一 次 受到 USB EAS ASCE} We MS AINSI AERA A cee. Mill USB 
主 控制 器 在 当前 框架 结束 时 会 向 CPU 发 出 一 个 中 断 请 求 。 和 而 USB 总 线 的 和 中断 服 务 程 序 ， 则 会 根据 在 
该 框架 内 完成 的 交 世 请 求 ， 从 而 urb 数据 结构 的 内 容 、 调 用 具体 设备 的 中 断 服务 程序 (以 后 读者 会 见 
TD 。 对 于 集中 器 的 中 断交 五 ， 这 个 中 断 服务 程 序 是 hub_irq( )。 其 代码 企 drivers/usb/hub.c P: 


80 static void hub irq(struct urb *urb) 


81 { 

82 struct usb hub *hub = (struct usb hub *)urb->context; 
83 unsigned long flags; 

84 

85 /* Cause a hub reset after 10 consecutive errors */ 
86 if (urb status) { 

87 if (urb-^status -- -ENOENT) 

88 return; 

89 

90 dbg (“nonzero status in irq %d”, urb->status) ; 
91 

92 if (C-hub—mnerrors < 10) | hub->error) 

93 return; 

94 
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95 
96 
97 
98 
99 
100 
101 
102 
103 
104 
105 
106 
107 
108 
109 
110 


根据 urb 数据 结构 的 内 容 可 以 找到 目标 集中 器 的 usb_hub 结构 。 如 果 urb-»status 为 0， 就 表示 中 断 
交互 正常 完成 ， 并且 集中 器 的 状态 有 了 变化 (如 果 集 中 器 的 状态 无 变化 , 则 集中 器 返回 NAK, 此 时 USB 
控制 器 不 会 将 该 中 交互 描述 块 路 的 TD_CTRL_ACTIVE 位 清 0， 也 不 会 向 CPU AI RIER., WA). 
只 要 khubd 已 经 在 运行 ， 就 把 日 标 集中 器 的 usb, hub 结构 通过 其 队列 头 event. list EA khubd 的 等 待 队 


} 


Linux 内 核 源 代码 情景 分 析 CPD 


hub->error = urb-^status; 


} 


hub->nerrors = 0; 


/* Something happened, let khubd figure it out */ 
if (waitqueue active(&khubd wait)) ( 
/* Add the hub to the event queue */ 
spin lock irqsave(&hub event lock, flags): 
if (list empty(&hub-^event list)) { 
list add(&hub-^event list, &hub event list); 
wake up(&khubd wait); 
} 


spin unlock irqrestore(&hub event lock, flags); 


Fij hub_event_list， 然 后 唤醒 khubd. 


线程 khubd 是 在 usb_hub init( ) 中 (795 行 ) 通 过 kernel. thread( ) 创 建 的 , 其 执行 代码 usb_hub_thread( ) 


在 drivers/usb/hub.c "P: 


142 
143 
144 
145 
146 
747 
748 
749 
750 
Tol 
752 
753 
754 
755 
756 
757 
758 
759 
760 
761 
762 


static int usb_hub_thread (void *__hub) 


{ 
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lock kernel( ); 


/* 
* This thread doesn't need any user-level access, 
* so get rid of all our resources 


*/ 
daemonize( ); 


/* Setup a nice name */ 
strcpy(current-?comm, “khubd”) ; 


/* Send me a signal to get me die (for debugging) */ 
do { 
usb hub events( ); 
interruptible sleep on(&khubd wait); 
) while (!signal pending(current)) ; 


dbg("usb hub thread exiting”) ; 
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763 
764 up and exit(&khubd exited, 0); 
165 } 


代码 中 的 do-while 循环 实际 上 是 个 无 限 循环 ， 只 要 不 向 这 个 线程 发 送信 号 ， 就 会 一 直 循 环 下 去 。 
在 循环 体 中 ， 先 通过 usb_hub_events( ) 检 查 和 处 理 各 个 集中 器 (现在 还 只 有 根 集中 器 ) 的 状态 变化 ， 然 后 
就 睡眠 (建议 读者 思考 一 让， 在 循环 中 为 什么 处 理 在 先 而 睡眠 在 后 ) ， 直 到 被 唤醒 而 再 次 执行 
usb, hub, events( )。 这 个 函数 的 代码 在 drivers/usb/hub.c 中 : 


[usb hub thread( ) > usb hub events( )] 


622 static void usb hub events (void) 


623 { 

624 unsigned long flags; 

625 struct list_head *tmp; 

626 struct usb device *dev; 

627 struct usb hub *hub; 

628 struct usb hub status hubsts; 

629 unsigned short hubstatus, hubchange; 

630 int i, ret; 

631 

632 /* 

633 * We restart the list everytime to avoid a deadlock with 
634 * deleting hubs downstream from this one. This should be 
635 * safe since we delete the hub from the event list. 

636 * Not the most efficient, but avoids deadlocks. 

637 */ 

638 while (1) { 

639 spin lock irqsave(&hub event lock, flags); 

640 

641 if (list empty(&hub event list)) 

642 goto he unlock; 

643 

644 /* Grab the next entry from the beginning of the list */ 
645 tmp = hub_event_list. next; 

646 

647 hub = list entry(tmp, struct usb hub, event list); 
648 dev = hub->dev; 

649 

650 list_del (tmp) ; 

651 INIT LIST HEAD (tmp) ; 

652 

653 spin unlock irqrestore(&hub event lock, flags); 

654 

655 if (huboerror) | 

656 dbg("resetting hub %d for error %d”, dev->devnum, hub->error) ; 
657 
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if (usb hub reset(hub)) { 
err('error resetting hub %d - disconnecting”, dev~>devnum) ; 
usb_hub_disconnect (dev) ; 
continue; 


hub->nerrors = 0; 
hub->error = 0; 


for (i = 0; i € hub->nports; i++) { 
struct usb port status portsts; 
unsigned short portstatus, portchange; 
ret = usb get port status(dev, i + 1, &portsts); 
if (ret < 0) { 
err (“get port status failed (err = %d)”, ret); 
continue; 


} 


portstatus = lel6 to cpu(portsts. wPortStatus) ; 
portchange = lel6_to_cpu(portsts. wPortChange) ; 


if (portchange & USB PORT STAT C CONNECTION) { 
dbg( port %d connection change”, i + 1); 


usb hub port connect change(dev, i, &portsts); 

} else if (portchange & USB PORT STAT C ENABLE) { 
dbg ("port %d enable change, status %x”, i + 1, portstatus); 
usb clear port feature(dev, i + 1, USB PORT FEAT C ENABLE); 


/* 
* EM interference sometimes causes bad shielded USB devices to 
* be shutdown by the hub, this hack enables them again. 
* Works at least with mouse driver. 
*/ 
if (!(portstatus & USB PORT STAT ENABLE) && 
(portstatus & USB PORT STAT CONNECTION) && 
(dev-^children[1])) | 
err( 
"already running port %i disabled by hub (EMI?), re-enabling...”, 
i + 1); 
usb hub port connect change(dev, i, &portsts); 


} 


if (portchange & USB PORT STAT C SUSPEND) { 
dbg( port %d suspend change”, i + 1); 
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704 usb clear port feature(dev, i + 1, USB PORT FEAT C SUSPEND); 
705 } 
‘706 
107 if (portchange & USB PORT STAT C OVERCURRENT) | 
708 err (“port %d over-current change”, i + 1); 
709 usb clear port feature(dev, i + 1, 
USB PORT FEAT C OVER CURRENT); 
710 usb hub power on (hub) ; 
711 } 
712 
713 if (portchange & USB PORT STAT C RESET) | 
714 dbg("port %d reset change”, i + 1): 
715 usb clear port feature(dev, i + 1, USB PORT FEAT C RESET); 
716 ) 
717 | /* end for i */ 
718 
719 /* deal with hub status changes */ 
720 if (usb get hub status(dev, &hubsts) < 0) 
721 err('get hub status failed”); 
722 else 1 
123 hubstatus = lel6 to cpup(&hubsts. wHubStatus) ; 
724 hubchange = lel6 to cpup(&hubsts. wHubChange) ; 
725 if (hubchange & HUB CHANGE LOCAL POWER) | 
726 dbg ("hub power change”) ; 
727 usb clear hub feature (dev, C HUB LOCAL POWER) ; 
128 } 
729 if (hubchange & HUB CHANGE OVERCURRENT) { 
730 dbg (“hub overcurrent change”): 
731 wait ms(500); /* Cool down */ 
732 usb clear hub feature(dev, C HUB OVER CURRENT); 
733 usb hub power on(hub); 
734 } 
735 } 
736 } /* end while (1) */ 
737 
738 he_unlock: 
739 spin unlock irgrestore(&hub event lock, flags); 
140 } 


道 过 -个 while 循环 , khubd 依次 摘 下 并 处 理 挂 在 hub. event. list 中 的 等 一 个 usb. hub 数据 结构 。 如 
果 hub-»error 非 0， 就 表示 已 经 连续 出 错 10 次 以 上 ， 所 以 通过 usb hub reset( ) 由 相应 的 集中 崔 发 出 一 
个 reset 命令 ， 让 它 “ 重 新 做 人 ”。 如 果 连 这 也 失败 ， 那 就 要 通过 usb hub disconnect( ) 断 开 其 连接 。 

然后 , 通过 A for 循环 检 贷 和 处 理 集中 器 的 每 个 端 由 因为 至 此 只 知道 集中 器 的 状态 发 生 了 变化 ， 
但 并 不 知道 具体 的 情况 ， 那 槛 通过 控制 传输 进一步 查询 、 所 以 ， 对 于 集中 器 的 等 个 端口 ， 遂 过 
usb_get_port_status( ) 司 动 一 次 控制 余 互 读 入 其 状态 信息 。 其 代码 见 drivers/usb/hub.c: 


.477 . 


Linux 内 核 源 代码 情景 分 析 〔 下 类》 


[usb_hub_thread( ) > usb hub events( ) > usb get. port, status( )] 


T3 static int usb get port status (struct usb device *dev, int port, void *data) 
74 { 


75 return usb control msg(dev, usb rcvctrlpipe(dev, 0), 

76 USB REQ GET STATUS, USB DIR IN | USB RT PORT, 0, port, 
77 data, sizeof (struct usb hub status), HZ); 

78 .] 


如 果 具 体 端 口 的 状态 信息 表明 其 设备 连接 状态 发 生 了 变化 ， 那 就 要 作出 进 “ 步 的 处 理 和 反应 ， 这 
是 通过 usb hub port connect change( ) 完 成 的 。 这 个 函数 的 代码 在 drivers/usb/hub.c H: 


[usb_hub_thread( ) > usb_hub_events( ) > usb_hub_port_connect_change( )] 


519 static void usb hub port connect change (struct usb device *hub, int port, 


520 struct usb port status *portsts) 

521 { 

522 struct usb_device *dev; 

523 unsigned short portstatus, portchange; 

524 unsigned int delay = HUB_SHORT_RESET_TIME; 

525 int 1; 

526 char *portstr, *tempstr; 

527 

528 portstatus = lel6 to cpu(portsts-^wPortStatus); 

529 portchange = lel6 to cpu(portsts-^wPortChange); 

530 dbg("port 9d, portstatus Xx, change *x, %s”, port + 1, portstatus, 

531 portchange, portstatus & (1 << USB PORT FEAT LOWSPEED) ? 
"1.5 Mb/s” : “12 Mb/s”); 

532 

533 /* Clear the connection change status */ 

534 usb clear port feature(hub, port + 1, USB PORT FEAT C CONNECTION); 

535 

536 /* Disconnect any existing devices under this port */ 

537 if (hub->children[port]) 

538 usb disconnect (&hub->children[port]) ; 

539 

540 /* Return now if nothing is connected */ 

541 if (!(portstatus & USB PORT STAT CONNECTION)) { 

542 if (portstatus & USB PORT STAT ENABLE) 

543 usb hub port disable(hub, port); 

544 

545 return; 

546 } 

547 

548 down(&usb addressO sem); 

549 

550 tempstr = kmalloc(1024, GFP KERNEL) ; 
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portstr = kmalloc(1024, GFP KERNEL); 


for (i = 0; i < HUB PROBE TRIES; i++) { 


struct usb device *pdev, *cdev; 


/* Allocate a new device struct */ 

dev = usb alloc dev(hub, hub->bus) ; 

if (!dev) { 
err ('couldn' t allocate usb_device”) ; 
break; 


j 
hub->children[port] = dev; 


/* Reset the device */ 

if (usb hub port reset(hub, port, dev, delay)) { 
usb free dev (dev); 
break; 

} 


/* Find a new device ID for it */ 
usb connect (dev) ; 


/* Create a readable topology string */ 
cdev 7 dev; 
pdev = dev-?parent; 
if (portstr && tempstr) { 
portstr[0] = 0; 
while (pdev) { 
int port; 


for (port = 0; port < pdev—>maxchild; port++) 
if (pdev->children[port] == cdev) 
break; 


strcpy(tempstr, portstr); 
if (!strlen(tempstr)) 
sprintf(portstr, “%d”, port + 1); 
else 
sprintf(portstr, "Wd/*s", port + 1, tempstr); 


cdev = pdev; 
pdev = pdev-?parent; 
] 
info("USB new device connect on bus%d/%s, assigned device number %d”, 
dev->bus—>busnum, portstr, dev-^devnum); 
} else 
info (“USB new device connect on bus%d, assigned device number ‘d”, 
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599 dev—>bus->busnum, dev-^devnum): 
600 
601 /* Run it through the hoops (find a driver, etc) */ 
602 if (lusb new device(dev)) 
603 goto done; 
604 
605 /* Free the configuration if there was an error */ 
606 usb free dev(dev); 
607 
608 /* Switch to a long reset time */ 
609 delay = HUB LONG RESET TIME; 
610 } 
611 
612 hub: >children[port] = NULL; 
613 usb hub port disable(hub, port); 
614 done: 
615 up(&usb addressO, sem) ; 
616 if (portstr) 
617 k£ree(portstr); 
618 if (tempstr) 
619 kfree(tempstr); 
620 ] 
从 设备 读 入 的 信息 中 包括 两 个 16 位 状态 标志 字 ， 一 个 表示 端口 当前 的 状态 ，- 
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生 了 变化 。 在 drivers/usb/hub.h 中 定义 了 一 些 有 关 的 常数 ， 


40 
41 
42 
43 
44 
45 
46 
4T 
48 
49 
50 
51 
52 
03 
54 


/* wPortStatus bits */ 


#define 
#define 
#define 
#define 
#define 
#define 
#define 


USB_PORT_STAT_CONNECTION 0x0001 
USB_PORT_STAT_ENABLE 0x0002 
USB PORT STAT_SUSPEND 0x0004 
USB PORT STAT OVERCURRENT — 0x0008 
USB PORT STAT RESET 0x0010 
USB PORT STAT POWER 0x0100 
USB PORT STAT LOW SPEED 0x0200 





/* wPortChange bits */ 


#define 
#define 
#define 
#define 
#define 


USB PORT STAT C CONNECTION 0x0001 
USB PORT STAT C ENABLE 0x0002 
USB PORT STAT C SUSPEND 0x0004 
USB PORT STAT € OVERCURRENT 0x0008 
USB PORT STAT C RESET 0x0010 


-个 表示 哪些 状态 发 


对 于 连接 状态 发 生 了 变化 的 端 岂 ， 先 通过 usb clear port. feature( ) 局 动 一 次 对 上 月 标 集中 器 的 控制 伟 
输 ， 清 除 该 端口 的 状态 信息 (drivers/usb/usb.c)。 


[usb_hub_thread( ) usb hub, events( ) > usb hub port connect change( ) > usb clear port feature ( )] 
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54 static int usb clear port feature (struct usb device *dev, ini port, int feature) 
55 d 


56 return usb control msg(dev, usb sndctrlpipe(dev, 0), 
51 USB REQ CLEAR FEATURE, USB RT PORT, feature, port, NULL, 0, HZ); 
58  ] 


然后 ， 如 果 usb device 数据 结构 中 的 children[port] 非 0， 就 点 调用 usb, disconnect(. Wi F iz L1 E. 
的 连接 ， 这 个 函数 的 代码 在 drivers/usb/usb.c HH: 


[usb hub thread( ) > usb_hub_events( ) > usb_hub_port_connect_change( ) > usb. disconnect( )] 


1619 /* 

1620 * Something got disconnected. Get rid of it, and all of its children. 
1621 */ 

1622 void usb disconnect(struct usb device **pdev) 

1623 { 

1624 struct usb device * dev = *pdev; 

1625 int i; 

1626 

1627 if (!dev) 

1628 return; 

1629 

1630 *pdev = NULL; 

1631 

1632 info("USB disconnect on device %d”, dev-^devnum); 

1633 

1634 if (dev->actconfig) { 

1635 for (i = 0; i < dev—->actconfig—>bNumInterfaces; i++) { 
1636 struct usb interface *interface ~ &dev—actconfig—interface[i]; 
1637 struct usb driver *driver = interface-^driver; 

1638 if (driver) { 

1639 down (&driver—>serialize) ; 

1640 driver—>disconnect (dev, interface—>private_ data); 
1641 up (&driver-^serialize): 

1642 usb driver release interface(driver, interface); 
1643 } 

1644 } 

1645 } 

1646 

1647 /* Free up all the children.. */ 

1648 for (i = 0; i < USB MAXCHTLDREN; iit) { 

1649 struct usb device **child = dev-^children + i; 

1650 if (*child) 

1651 usb disconnect (child); 

1652 } 

1653 

1654 /* Let policy agent unload modules etc */ 
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1655 call policy (“remove”, dev); 

1656 

1657 /* Free the device number and remove the /proc/bus/usb entry */ 
1658 if (dev->devnum > 0) { 

1659 clear bit (dev->devnum, &dev—>bus—>devmap. devicemap) ; 
1660 usbdevfs remove device (dev) ; 

166] ) 

1662 

1663 /* Free up the device itself */ 

1664 usb free dev (dev); 

1665 ) 


我 们 把 这 个 函数 留 给 读者 自己 阅读 。 

初 看 之 下 这 似乎 有 点 奇怪 ， 我 们 并 没有 检查 这 个 端口 连接 状态 的 变化 到 底 是 朝 什么 方向 的 变化 ， 
怎么 能 任 hub->children[port] 非 0 就 决定 断 开 它 的 连接 昵 (537 行 )? 其 实 这 正 是 这 段 代码 的 精炼 之 处 如 
果 连 接 状态 的 变化 是 从 无 到 有 ， 那 么 hub->children[port] 应 该 是 0， 所 以 实际 上 不 会 调用 这 个 函数 。 万 
~~ hub-»children[port]dE 0， 就 说 明 这 是 “漏网 之 鱼 ”， 所 以 应 该 将 其 清除 。 反 过 来 ， 如 果 连 接 状 态 的 
变化 是 从 有 到 无 ， 那 么 这 就 更 是 我 们 所 需要 做 的 。 

进一步 ， 如 果 端 口 状态 表明 无 连接 C541 行 ) ， 而 端口 又 处 于 开通 状态 (542 行 ) ， 那 就 要 通过 
usb_hub_port_disable() 启 动 另 一 次 控制 传输 ， 将 日 标 端口 封闭 ， 然 后 就 返 加 了 (545112 . 

如 果 CPU 执行 到 了 548 行 ， 那 就 说 明 所 发 生 的 变化 是 从 大 到 有 ， 人 也 就 是 在 个 USB 设备 插入 了 这 
个 端口 。 这 以 后 的 操作 ， 如 usb_alloc_dev( )、usb_hub_port_reset( )、usb_connect( ) 和 usb new. device( ) 
等 ， 就 都 是 前 面 已 经 看 到 过 的 了 ， 这 就 是 对 新 设备 的 枚 举 过 程 。 注 意 这 里 对 usb_new_device( )JfdEX 
归 调 用 。 如 果 新 的 设备 又 是 个 集中 器 , 那么 usb_new_device( ) 会 通过 usb_find_drivers( ) 找 到 集中 器 的 驱 
动 模块 ， 并 执行 其 probe 函数 。 而 集中 器 驱动 模块 的 probe 函数 又 会 为 新 的 集中 器 调度 好 中 断交 互 , 因 
而 khubd 又 会 对 新 的 集中 器 执行 usb_hub_events( )。 如 果 不 是 集中 器 呢 ， 那 就 此 看 具体 设备 的 驱动 模块 
是 备 已 经 安装 。 如 果 该 设备 的 驱动 模块 已 经 安装 ,， 孝 人 么 usb_new_device( ) 通 过 usb_find_drivers( ) 同 样 会 
找到 其 驱动 模块 ， 并 执行 其 probe 函数 。 反 之 ， 如 果 该 设备 的 驱动 模块 尚未 安装 ， 那 就 要 到 安装 其 驱 
动 模块 时 再 来 认领 并 执行 其 probe 函数 。 下 面 我 们 将 结合 扫描 器 的 驱动 说 明 这 个 过 程 。 

回 到 usb hub events( ) 的 代码 中 , 对 每 个 端 各 还 要 检查 和 处 理 其 他 一 些 状态 变化 并 作出 处 理 ,。 最 后 ， 
还 要 检查 整个 集中 器 的 电源 状态 并 作出 反应 (720 一 735 行 )。 不 过 ， 那 些 就 不 是 我 们 在 这 里 所 关心 的 了 ， 
有 兴趣 或 需要 的 读者 可 自行 阅读 。 


8.9.3 USB 设备 的 初始 化 


我 们 以 扫描 器 为 实例 来 说 明 一 般 USB 设备 的 初始 化 过 程 。 

首先 ， 每 种 USB 设备 都 要 有 个 usb driver 数据 结构 ， 这 是 对 USB 设备 的 最 高 层次 上 的 抽象 。 以 我 
们 在 前 小 节 中 看 到 USB 集中 器 为 例 ， 其 usb_driver 数据 结构 是 hub_driver。 这 种 数据 结构 的 定义 在 
include/linux/usb.h 中 : 
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384 struct usb driver { 


385 const char *name; 

386 

387 void *(*probe)( 

388 struct usb device *dev, /* the device */ 

389 unsigned intf, /* what interface */ 

390 const struct usb device id *id /* from id table */ 
391 ) ; 

392 void (#disconnect) (struct usb device *, void *); 

393 

394 struct list head driver list; 

395 

396 struct file operations *fops; 

397 int minor; 

398 

399 struct semaphore serialize; 

400 

401 /* ioctl — userspace apps can talk to drivers through usbdevfs */ 
402 int (*ioctl) (struct usb device *dev, unsigned int code, void *buf); 
403 

404 /* support for "new-style^ USB hotpiugging 

405 * binding policy can be driven from user mode too 

406 */ 

407 const struct usb device id *id table; 

408 

409 /* suspend before the bus suspends; 

410 * disconnect or resume when the bus resumes */ 

411 // void (suspend) (struct usb device *dev) ; 

412 // void (*resume) (struct usb device *dev); 

413 o 


扫描 器 的 usb. driver 结构 是 scanner. driver, XE X F drivers/usb/scanner.c: 


953 static struct 
954 usb driver scanner driver = { 


955 name: "usbscanner^, 

956 probe: probe scanner, 

957 disconnect: disconnect scanner, 

958 fops: &usb scanner fops, 

959 minor: SCN BASE MNR, 

960 id table: NULL, /* This would be scanner device ids, but we 
961 need to check every USB device, in case 

962 we match a user defined vendor/product ID. */ 
963 }; 


结构 中 的 成 分 probe 和 disconnect 是 两 个 函数 指针 ， 分 别 指向 probe scanner( ) 利 
disconnect_scanner( )。 顾 名 思 义 ， 前 着实 际 上 用 于 扫描 器 的 初始 化 ， 后 者 则 用 于 断 开 与 扫描 器 的 连接 。 
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指针 fops 则 指向 扫描 器 设备 的 file_operations 数据 结构 usb_scanner_fops, 也 定义 于 drivers/usb/scanner.c; 


942 static struct 
943 file operations usb scanner fops = { 


944 read: read scanner, 

945 write: write scanner, 
946 Hifdef SCN TOCTL 

947 ioctl: ioctl scanner, 
948 #endif /* SCN IOCTL */ 

949 open: open scanner, 

950 releasc: close scanner, 
951 4}; 


此 外 ，scanner_driver 中 还 有 个 字段 minor, KRKRAHHRBOKESS, IE EG 
SCN_BASE_MNR。 这 个 常数 定义 于 drivers/usb/scannerh: 


84 Hdefine SCN MAX MNR 16 /* We re allocated 16 minors */ 
85 define SCN BASE MNR 48 /* USB Scanners start at minor 48 */ | 


Dire bb, TAHIR SA 48 开始 ， 系 统 中 最 多 可 以 有 16 台 扫描 器 。 : 
像 其 他 设备 - - 样 ， 作 为 USB 设备 的 扫描 器 也 需要 先 向 系统 登记 ， 这 就 起 扫描 器 驱动 模块 初始 化 过 | 
程 要 完成 的 操作 。drivers/usb/scanner.c P s X. T HRS HIKA A usb, scanner. init( ). 


971 int __init 

972 usb_scanner_init (void) 

973 { 

974 if (usb register(&scanner driver) < 0) 
975 return -1; 

976 

971 info("USB Scanner support registered. ^); 
978 return 0; 

979  ] 

980 

981 module init(usb scanner init); 


eX 2X usb register( ) 的 代码 在 drivers/usb/usb.c FP: 


usb. scanner. init( ) > usb, register( )] 


85 int usb register(siruct usb driver *new driver) 

86 { 

87 if (new driver->fops !- NULL) ( 

88 if (usb minors[new driver—>minor/16]) { 

89 err (error registering %s driver”, new driver—>name) : 
90 return -EINVAL; 

91 } 
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92 usb minors[new driver->minor/16] - new driver; 
93 ] 

94 

95 info('registered new driver %s”, new driver-^name); 
96 

97 init_MUTEX (&new_driver- >serialize) ; 

98 

99 /* Add it to the list of known drivers */ 

100 list_add_tail (&new_driver—>driver_list, &usb driver list); 
101 

102 usb_scan_devices( ); 

103 

104 return 0; 

105 } 


内 核 中 为 USB 设备 设立 了 一 个 usb_driver 结构 指针 数组 usb_minors[ ]， 其 大 小 为 16， 每 个 具体 
usb. driver 结构 的 次 设备 号 除 以 16 便 决 定 了 它 在 数组 中 的 位 置 。 每 登记 一 个 具体 的 usb driver 结构 以 
后 ， 数 组 中 相应 的 指针 就 指向 了 这 个 数据 结构 。 由 此 可 见 ，USB 设备 的 次 设备 号 实际 上 分 成 了 两 截 ， 
其 高 4 位 起 着 类 似 于 主 设 备 号 的 作用 ， 而 其 低 4 位 则 是 真正 的 “次 设备 号 ”。 这 样 ， 系 统 中 可 以 同时 
存在 16 种 不 同 的 USB 设备， 出 每 种 设备 (如 扫描 器 ) 最 多 可 以 有 16 台 。 这 当然 只 是 权宜 之 计 ， 将 来 随 
着 devfs 的 采用 应 该 会 有 更 好 的 解决 。 

为 了 保证 应 用 进程 对 USB 设备 操作 的 眶 不 性 ，usb_driver 数据 络 构 中 有 个 内 核 信 号 量 serialize， 代 
码 中 对 其 进行 了 初始 化 。 

内 核 中 有 两 个 USB 层次 上 的 队列 。 -个 是 usb bus 结构 的 队列 usb bus list. 53-1 & usb driver 
结构 的 队列 usb_driver_list。 所 有 USB 设备 驱动 模块 的 usb_driver 结构 帮 链 接 在 这 个 队列 中 ， 新 驱动 模 
块 的 usb, driver 结构 就 挂 在 usb driver list 的 尾部 。 

然后 ， 通 过 usb_scan_devices( ) 打 描 所 有 USB 总 线 上 的 所 有 设备 ， 让 科 个 USB 设备 驱动 模块 都 试 
着 来 “认领 ”与 其 对 口 的 设备 。 就 拟 描 器 的 驱动 模块 而 言 ， 就 起 要 计 它 认领 已 经 枚 举 的 扫 播 活 设 备 。 
函数 usb_scan_devices( ) 的 代码 在 drivers/usb/usb.c FP: 


[usb scanner init( ) > usb. register( ) > usb_scan_devices( )] 


107 /六 六 

108 * usb scan devices - scans all unclaimed USB interfaces 

109 * 

110 * Goes through all unclaimed USB interfaces, and offers them to all 
111 * registered USB drivers through the 'probe' function. 

112 * This will automatically be called after usb register is called. 
113 * lt is called by some of the USB subsystems after one of their subdrivers 
114 * are registered. 

115 */ 

116 ^ void usb scan devices (void) 

117 { 

118 struct list head *tmp; 
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119 
120 
121 
122 
123 
124 
125 
126 
127 


通过 


Linux AYRE CP AD 


tmp = usb bus list. next; 
while (tmp != &usb bus list) { 
struct usb_bus *bus = list_entry(tmp, struct usb_bus, bus_list); 


tmp = tmp-?next; 
usb check support (bus~>root_hub) ; 


} 


这 个 消 数 扫描 队列 usb. bus. list PIN: -个 usb bus 数据 结构 ， 也 就 是 系统 中 的 每 -条 USB 总 线 ， 
一 个 函数 usb_check_support ) 检 查 该 总 线 上 已 经 枚 举 的 设备 。 其 代 僻 在 drivers/usb/usb.c 中 : 


[usb_scanner_init( ) > usb_register( ) > usb scan devices( ) > usb_check_support( )] 


434 
435 
436 
437 
438 
439 
440 
441 
442 
443 
444 
445 
446 
447 
448 
449 
450 
451 
452 
403 
454 
455 
456 
457 
458 


/* 
* This function is for doing a depth-first search for devices which 
* have support, for dynamic loading of driver modules. 


*/ 
static void usb check support (struct usb device *dev) 
{ 
int i; 
if (dev) { 
err ("null device being checked!!!^): 
return; 
} 


for (i=0; i<USB MAXCHILDREN; i++) 
if (dev->children{i]) 
usb check support (dev->children[i]) ; 


if (!dev-^actconfig) 
return; 


/* now we check this device */ 
if (dev-^devnum > 0) 
for (i = 0; i < dev actconfig-»bNumInterfaces; i++) 
usb find interface driver(dev, i); 


j 
每 条 USB 总 线 的 “ 根 ” 是 个 USB 集中 器 ， 那 就 是 根 集中 器 。 主 机 的 USB 控制 器 般 都 与 根 集 


中 器 集成 在 “起 。 根 集中 器 也 是 由 usb device 数据 结构 代表 的 ， 在 USB 总 线 初始 化 时 建立 起 它 的 数据 


结构 


USB. 


集中 


。 每 个 USB 集中 器 可 以 连接 若干 USB 设备 ， 其 数量 取决 于 具体 的 集中 器 ， 但 是 最 多 不 超过 
MAXCHILDREN, 目前 这 个 常数 定义 为 16。 连 接 在 USB 集中 器 上 的 USB 设备 本 身 又 可 以 是 .USB 
器 ， 所 以 代码 中 对 下 接 的 集中 器 递归 调用 usb_check_support( )， 进 行 深度 优先 的 搜索 ， 一 直到 不 
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m :个 USB HRCA T MEF RE, eA "ERST, 其 usb device 结构 中 的 
Ei devnum 就 是 一 个 正 数 ， 此 时 结构 中 的 指针 actconfig 指向 一 个 usb_config_descriptor 数据 结构 。 我 们 
已 经 在 前 儿 个 小 节 中 看 到 这 种 数据 结构 的 定义 。 

这 个 结构 中 的 字段 bNumlnterfaces 表示 相应 的 USB 设备 中 有 着 几 个 逻辑 设备 , 从 而 有 几 个 “接口 ”。 
指针 interface 指向 一 个 usb interface 数据 结构 数组 ， 其 定义 也 已 在 前 几 个 小 节 中 看 到 过 ， 数 组 的 大 小 
则 取决 于 bNumInterfaces. 

每 一 个 接口 可 以 包含 若干 “端点 ”(endpoinb， 对 于 主机 来 说 ， 每 个 端点 就 是 一 个 通信 的 对 象 。 不 
管 是 什么 样 的 USB 设备， 至 少 要 有 :个 公用 的 端点 用 于 控制 以 及 枚 举 的 日 的 ， 这 个 端点 的 “端点 号 ” 
固定 为 0。 除 此 之 外 , 每 一 个 接口 还 可 以 有 附加 的 、 专 有 的 端点 。 端 点 号 0 所 代表 的 通信 对 每 是 双 问 的 ， 
既 可 以 收 也 可 以 发 ， 而 其 他 端点 号 所 代表 的 通信 对 象 则 都 是 单 向 的 。 这 个 数据 结构 中 的 字段 
bNumEndpoints 说 明了 本 接口 中 有 儿 个 端点 ， 而 指针 endpoint 则 指向 个 usb endpoint. descriptor 结构 
数组 ， 每 个 usb_endpoint_descriptor 都 代表 着 “个 端点 ， 其 定义 见 采 小节。 

从 代表 着 具体 USB 总 线 的 usb_bus 结构 到 代表 着 具体 设备 (包括 集中 器 ) 的 usb_device 结构 ， 再 到 
usb. config. descriptor 结构 ， 最 后 是 usb, interface 结构 和 usb. endpoint. descriptor 结构 ， 止 好 反映 了 USB 
的 各 个 结构 层次 。 这 些 数据 结构 木 身 以 及 互相 间 的 联系 ， 都 是 在 USB 总 线 初 始 化 时 ， 或 者 后 来 当 USB 
总 线 上 的 设备 连接 有 变化 时 的 枚 举 阶段 建立 的 。 枚 举 阶段 所 获取 的 这 些 信息 反映 了 当前 USB 总 线 上 各 
个 设备 (端点 ) 的 客观 存在 ， 但 起 尚未 与 具体 的 设备 驱动 程序 挂 上 钓 。 所 以 ， 在 具体 设备 (类 型 ) 的 初始 化 
中 要 在 这 些 数 据 结构 中 找到 对 门 的 数据 结构 并 加 以 “认领 ”(claim)。 

函数 usb_find_interface_driver( ) 逐 个 地 检查 数组 中 的 每 个 usb, interface 数据 结构 ， 看 看 相应 有 逻辑 设 
备 的 类 型 是 否 相 符 ， 如 果 相 符 就 加 以 初始 化 。 其 代码 在 drivers/usb/usb.c H: 





[usb. scanner. init( ) > usb register( ) > usb, scan, devices( ) > usb. check support( ) 
> usb. find. interface driver( )] 


623 /* 

624 * This entrypoint gets called for each new device. 

625 * à 

626 * We now walk the list of registered USB drivers, 

621 * looking for one that will accept this interface. 

628 * 

629 * "New Style" drivers use a table describing the devices and interfaces 
630 * they handle. Those tables are available to user mode tools deciding 
631 * whether to load driver modules for a new device. 

632 * 

633 * The probe return value is changed to be a private pointer. This way 
634 * the drivers don't have to dig around in our structures to set the 
635 * private pointer if they only need one interface. 

636 * 

637 * Returns: 0 if a driver accepted the interface, -l otherwise 

638 */ 


639 static int usb find interface driver (struct usb device *dev, unsigned ifnum) 
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640 d 

641 struct list head *tmp; 

642 struct usb interface *interfacc; 

643 void *private; 

644 const struct usb device id *id; 

645 struct usb driver *driver; 

646 int i; 

647 

648 if ((!dev) || (ifnum >= dev—>actconfig—bNumlnterfaces)) { 
649 err(^bad find interface driver params”); 

650 return -1; 

651 } 

652 

653 interface = dev->actconfig >interface + ifnum: 

654 

655 if (usb interface claimed (interface) ) 

656 return -1; 

657 

658 private = NULL; 

659 for (tmp = usb driver list.next; tmp != &usb driver list:) { 
660 

661 driver - list entry(tmp, struct usb driver, driver list); 
662 tmp = tmp->next; 

663 

664 down (&driver—>serialize) : 

665 id = driver-^id table; 

666 /* new style driver? */ 

667 if (id) { 

668 for (i = 0; i < interface—>num altsetting; i++) { 
669 interface-^act altsetting = i; 

670 id = usb match id(dev, interface, id); 

671 if (id) { 

672 private = driver -probe (dev, ifnum, id) ; 

673 if (private != NULL) 

674 break; 

675 } 

676 } 

677 /* if driver not bound, leave defaults unchanged */ 
678 if (private == NULL) 

679 interface->act_altsetting = 0; 

680 } : 

681 else /* "old style^ driver */ 

682 private = driver probe(dev, ifnum, NULL); 

683 

684 up (&driver-^serialize); 

685 if (private) { 

686 usb_driver claim_interface(driver, interface, private); 
687 return 0; 
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688 } 

689 } 

690 

691 return -1; 
602  ) 


这 里 的 参数 dev 指向 一 个 USB 设备 的 usb device 数据 结构 ， 以 接口 号 为 下 标 ， 就 可 以 在 其 数组 
interface[ ] 中 找到 具体 接口 ， 即 逻辑 设备 的 usb interface 结构 。 如 果 这 个 结构 中 的 指针 driver 已 经 指向 
一 个 usb driver 数据 结构 ， 则 该 接口 已 被 认领 。 否 则 ， 就 在 usb driver list 队列 中 扫描 已 经 登记 的 
usb driver 数据 结构 ， 逐 个 地 通过 usb. match. id( ) 将 其 id 表 跟 设 备 上 的 每 个 接口 比 对 。 这 个 函数 的 代码 
在 drivers/usb/usb.c 中 ; 


[usb_scanner_init( ) > usb register( ) > usb scan devices( ) > usb_check_support( ) 
> usb find interface driver( ) > usb match, id( )] 


505 /* usb match id searches an array of usb device id's and returns 
506 the first one that matches the device and interface. 

507 

508 Parameters: 

509 “id” is an array of usb device id's is terminated by an entry 
510 containing all zeroes. 

511 

512 "dev" and "interface" are the device and interface for which 
513 a match is sought. 

514 

515 If no match is found or if the "id^ pointer is NULL, then 

516 usb match id returns NULL. 

517 

518 

519 What constitutes a match: 

520 

521 A zero in any element of a usb, device id entry is a wildcard 
522 (i.e., that field always matches). For there to be a match, 
523 *every* nonzero element of the usb device id must match the 
524 provided device and interface in. The comparison is for equality, 
525 except for one pair of fields: usb match id.bcdDevice [lo,hi] define 
526 an inclusive range that dev~>descriptor. bcdDevice must be in 
527 

528 If interface->altsettings does not exist (i.e., there are no 
529 interfaces defined), then bInterface Class, SubClass, Protocol} 
530 only match if they are all zeroes 

531 

532 

533 What constitutes a good "usb device id"? 

534 

535 The match algorithm is very simple, so that intelligence in 


. 489 . 


536 
537 
538 
539 
540 
341 
042 
043 
044 
045 
546 
547 
548 
549 
550 
551 
552 
553 
554 
555 
556 
557 
558 
550 
560 
561 
562 
563 
964 
565 
566 
567 
568 
569 
570 
571 
572 
973 
574 
975 
576 
577 
578 
579 
380 
581 
382 
983 


*/ 


Linux 内 核 源 代码 情景 分 析 ( HM 


driver selection must come from smart driver id records. 
Unless you have good reasons to use another selection policy, 
provide match elements only in related groups: 


* device specifiers (vendor and product IDs; and maybe 
a revision range for that product); 

* generic device specs (class/subclass/protocol); 

* interface specs (class/subclass/protocol). 


Within those groups, work from least specific to most specific 
For example, don't give a product version range without vendor 
and product IDs. 


"driver info" is not considered by the kernel matching algorithm, 
but you can create a wildcard ^matches anything" usb device id 
as your driver's "modules. usbmap" entry if you provide only an 
id with a nonzero "driver info^ field 


const struct usb device id * 
usb match id(struct usb device *dev, struct usb interface *interface 


{ 
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const struct usb device id *id) 
struct usb interface descriptor *intf - 0; 


/* proc connectinfo in devio.c may call us with id == NULL. */ 
if (id -- NULL) 
return NULL; 


/* lt is important to check that id->driver info is nonzero, 
since an entry that is all zeroes except for a nonzero 
id->driver_ info is the way to create an entry that 
indicates that the driver want to examine every 
device and interface. */ 

for (; id~>idVendor || id->bDeviceClass || id->bInterfaceClass | 

id driver info; ide) 1 


if ((id-^»match flags & USB DEVICE ID MATCH VENDOR) && 
id->idVendor !- dev-^descriptor. idVendor) 
continue; 


if ((id-^match flags & USB DEVICE ID MATCH PRODUCT) && 
id->idProduct != dev-^descriptor. idProduct) 
continue; 


/* No need to test id->bedDevice lo !- 0, since 0 is never 
greater than any unsigned number. */ 
if ((id->match flags & USB DEVICE ID MATCH DEV LO) && 
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584 (id->bedDevice_lo > dev-»descriptor. bedDevice) ) 

585 continue; 

586 

587 if ((id->match_flags & USB DEVICE ID MATCH DEV HI) && 

588 (id-»bedDevice hi < dev->descriptor. bedDevice) ) 

589 continue; 

590 

591 if ((id~>match_flags & USB DEVICE ID MATCH DEV CLASS) && 
592 (id-»bDeviceClass != dev->descriptor. bDeviceClass)) 

593 continue; 

594 

595 if ((id-match flags & USB DEVICE ID MATCH DEV SUBCLASS) && 
596 (id->bDeviceSubClass!= dev—->descriptor. bDeviceSubClass)) 
597 continue; 

598 

599 if ((id->match flags & USB DEVICE ID MATCH DEV PROTOCOL) && 
600 (id->bDeviceProtocol !- dev-»descriptor. bDeviceProtocol)) 
601 continue; 

602 

603 intf = &interface-^altsetting [interface->act altsetting] ; 
604 

605 if ((id->match_flags & USB DEVICE ID MATCH INT CLASS) && 
606 (id->bInterfaceClass !- intf—bInterfaceClass)) 

607 continue; 

608 

609 if ((id- match flags & USB DEVICE ID MATCH INT SUBCLASS) && 
610 (id-»bInterfaceSubClass != intf—bInterfaceSubClass) ) 
611 continue; 

612 

613 if ((id->match_flags & USB_DEVICE_ID_MATCH_INT_PROTOCOL) && 
614 (id->bInterfaceProtocol != intf—binterfaceProtocol)) 
615 continue; 

616 

617 return id; 

618 } 

619 

620 return NULL; 

621 } 


登记 的 每 个 usb_driver 结构 都 应 该 有 个 id 表 ， 说 明 该 驱动 程序 《模块 ) 适 用 于 哪 一 些 设备 。 所 谓 
id 表 十 个 usb, device id 结构 数组 ， 这 种 数据 结构 定义 十 include/linux/usb.h: 


347 struct usb device id { 


348 /* This bitmask is used to determine which of the following fields 
349 * are to be used for matching. 

350 */ 

351 __ul6 match_flags; 
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352 
353 
354 
355 
356 
357 
358 
359 
360 
361 
362 
363 
364 
365 
366 
367 
368 
369 
370 
371 
372 
373 
374 
375 
376 
377 
378 
379 
380 
381 
382 


阅读 


每 个 usb_device_id 结构 描述 着 一 个 驱动 程序 可 以 适用 的 对 象 , 包括 由 谁 制造 、 制 造 商 的 产品 编号 、 
设备 的 类 型 、 接 口 的 类 型 等 等 特征 信息 。 同 时 ， 结 构 中 还 有 个 位 图 match_flags， 说 明 必须 有 哪些 特征 
信息 都 相符 才 可 以 把 一 个 设备 及 接口 认定 为 与 给 定 驱 动 程序 相符 。 如 果 usb_match_id( ) 返 回 非 0， 就 说 
明 找 到 了 适用 于 目标 设备 的 驱动 程序 。 然 后 ， 就 可 以 让 这 个 驱动 模块 的 probe 函数 来 进行 该 设备 的 初 
始 化 了 。 对 于 扫描 器 ， 其 probe 函数 为 probe_scanner( )， 它 的 代码 在 drivers/usb/scanner.c H, $8414 


o 


A 
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/* 

* vendor/product codes are checked, if vendor is nonzero 
* Range is for device revision (bedDevice), inclusive; 

* zero values here mean range isn't considered 


*/ 


. ul6 idVendor; 
|. ul6 idProduct; 

. ul6 bedDevice lo, bcdDevice hi; 

/* 

* if device class !- 0, these can be match criteria; 
* but only if this bDeviceClass value is nonzero 

*/ 
__u8 bDeviceClass; 
.. ug bDeviceSubClass; 
.. u8 bDeviceProtocol; 

/* 

* if interface class != 0, these can be match criteria; 


* but only if this bInterfaceClass value is nonzero 


*/ 


.. ug bInterfaceClass; 
__u8 bInterfaceSubClass; 
u8 binterfaceProtocol:; 


/* 
* for driver's use; not involved in driver matching. 
*/ 


unsigned long driver info; 


[usb scanner init( ) > usb register( ) > usb. scan devices( ) > usb check, support ) 
> usb find interface driver( ) > probe scanner( )] 


626 
627 
628 
629 


static void * 
probe scanner(struct usb device *dev, unsigned int ifnum, 


{ 
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const struct usb device id *id) 


630 
631 
632 
633 
634 
635 
636 
637 
638 
639 
640 
641 
642 
643 


644 
645 
646 
647 
648 
649 
650 
651 
652 
653 
654 
655 
656 
657 
658 
659 
660 
661 
662 
663 
664 
665 
666 
667 
668 
669 
670 
671 


672 
613 
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struct scn usb data *scn; 
struct usb interface descriptor *interface; 
struct usb endpoint descriptor *endpoint; 


int ep cnt; 
int ix; 


kdev t scn minor; 


char valid device = 0; 
char have bulk in, have bulk out, have intr; 


if (vendor != -1 && product != -D { 
info( 
"probe scanner: User specified USB scanner — Vendor:Product - %x:%x”, 
vendor, product); 


) 


dbg( "probe scanner: USB dev address: p^, dev); 
dbg( "probe scanner: ifnum:%u”, ifnum) ; 


/* 

* i. Check Vendor/Product 

* 2. Determine/Assign Bulk Endpoints 
* 3. Determine/Assign Intr Endpoint 


*/ 


M 
* 


There doesn't seem to be an imaging class defined in the USB 

Spec. (yet). If there is, HP isn't following it and it doesn't 
look like anybody else is either. Therefore, we have to test the 
Vendor and Product ID's to see what we have. Also, other scanners 
may be able to use this driver by specifying both vendor and 
product ID s as options to the scanner module in conf. modules. 


NOTE: Just because a product is supported here does not mean that 
applications exist that support the product. It's in the hopes 
that this will allow developers a means to produce appiications 
that will support USB products. 


* X 0 * X X* X KF KF X HF KH K OF 


Until we detect a device which is pleasing, we silently punt. 


* 
N 


for (ix = 0; 
ix < sizeof (scanner device ids) / sizeof (struct usb device id); 
ix++) { 
if ((dev->descriptor. idyendor == scanner device ids [ix]. idVendor) && 
(dev-^ descriptor. idProduct == scanner device ids [ix]. idProduct)) { 
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674 valid device = 1; 

675 break; 

676 } 

677 } 

678 if (dev->descriptor. idYendor == vendor &&  /* User specified */ 
679 dev-^descriptor. idProduct == product) { /* User specified */ 
680 valid device = 1; 

681 } 

682 

683 if (!valid device) 

684 return NULL; /* We didn't find anything pleasing */ 
685 

686 /* 

687 * After this point we can be a little noisy about what we are trying to 
688 * configure. 

689 */ 

690 

691 if (dev-»descriptor. bNumConfigurations != 1) { 

692 info( probe scanner: Only one device configuration is supported. ”) 
693 return NULL; 

694 } 

695 

696 if (dev-^config[0].bNumInterfaces != 1) | 

697 info( probe scanner: Only one device interface is supported. "); 
698 return NULL; 

699 } 

700 

701 interface = dev-^config[0]. interface lifnum]. altsetting; 

702 endpoint = interface[ifnum]. endpoint; 

703 


首先 将 目标 设备 跟 扫描 器 的 id X scanner_device_ids 加 以 核对 。 然 后 ， 使 指针 interface 指向 目标 接 
口 的 usb, interface. descriptor 数据 结构 。 这 个 结构 中 的 指针 endpoint 指向 一 个 端点 描述 结构 数组 ， 结 构 
中 的 另 个 字段 bNumEndpoints 则 记录 着 这 个 数组 的 大 小 ， 即 本 接 世 的 端点 数量 。 数 组 中 的 每 一 个 
usb endpoint descriptor 结构 都 代表 着 目标 设备 中 的 一 个 端点 。 下 面 ， 就 要 对 这 些 端 点 进行 验证 ， 我 们 
继续 往 下 看 probe, scanner( ) 的 代码 (drivers/usb/scanner.c)。 


[usb scanner init( ) > usb, register( ) > usb_scan_devices( ) > usb. check, support( ) 
> usb find interface driver( ) > probe scanner( )] 


704 /* 

705 * Start checking for two bulk endpoints OR two bulk endpoints *and* one 
706 * interrupt endpoint. If we have an interrupt endpoint go ahead and 
707 * setup the handler. FIXME: This is a future enhancement... 

708 */ 

709 
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710 dbg(“probe_scanner: Number of Endpoints:%d”, (int) interface->bNumEndpoints) ; 
111 

712 if ((interface->bNumEndpoints !- 2) && (interface->bNumEndpoints != 3)) { 
713 info('probe scanner: Only two or three endpoints supported. ^); 
114 return NULL; 

715 } 

716 

717 ep cnt = have bulk in = have bulk out = have intr = 0; 

718 

719 while (ep cnt < interface->bNumEndpoints) | 

120 

721 if (!have bulk in && IS EP. BULK_IN(endpoint[ep_ent])) { 

122 ep_cnttt; 

723 have bulk_in = ep_cnt; 

724 dbg ("probe scanner: bulk in_ep:%d”, have bulk in); 

125 continue; 

126 } 

727 

728 if (!have bulk out && IS EP BULK OUT(endpoint[ep cnt])) { 

729 ep ent*t; 

130 have bulk out - ep cnt; 

731 dbg ("probe scanner: bulk out ep: Xd", have bulk out); 

132 continue; 

733 ) 

134 

135 if (!have intr && IS EP INTR(endpoint[ep cnt])) | 

736 ep_cnttt; 

737 have_intr = ep cnt; 

738 dbg (“probe scanner: intr_ep:%d”, have intr); 

739 continue; 

740 } 

741 info("probe scanner: Undetected endpoint. Notify the maintainer. ”) ; 
742 return NULL;/* Shouldn’ t ever get here unless we have something weird */ 
743 } 

744 

745 

746 /* 

TAT * Perform a quick check to make sure that everything worked as it 

748 * should have. 

749 */ 

750 

751 switch(interface->bNumEndpoints) { 

752 case 2: 

753 if (!have bulk in || !have bulk out) { 

754 info("probe scanner: Two bulk endpoints required. "); 

755 return NULL; 

756 } 

757 break; 
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758 case 3: 
759 if (!have bulk in || !have bulk out || !have intr) ( 
760 info( "probe scanner: \ 
Two bulk endpoints and one interrupt endpoint required. ^"): 
761 return NULL; 
762 } 
763 break; 
764 default: 
765 info(’probe scanner: V 


Endpoint determination failed. Notify the maintainer. ^); 
766 return NULL; 


767 } 
768 
769 
除 控制 端点 外 ， 打 描 器 的 接口 上 还 应 该 有 输出 和 输入 两 个 成 块 传输 端点 。 此 外 可 能 还 有 一 个 中 断 


传输 端点 。 这 里 用 到 的 几 个 宏 操 作 均 定义 于 drivers/usb/scanner.h rf: 


59 #define IS EP BULK(ep) ((ep).bmAttributes — USB ENDPOINT XFER BULK ? 1 : 0) 
60 "define 1S EP BULK IN(ep) (TS EP BULK (ep) && \ 

( (ep). bEndpointAddress & USB ENDPOINT DTR MASK) == USB DIR IN) 
61 &define IS EP BULK OUT(ep) (TS EP BULLK(ep) && V 

((ep). bEndpointAddress & USB ENDPOINT DIR MASK) -- USB DIR OUT) 
62 #define IS EP INTR(ep) ((ep).bmAttributes == USB ENDPOINT XFER INT ? 1 : 0) 


每 个 端点 部 有 个 单字 节 的 地 址 ， 上 其 低 4 位 为 端点 号 ， 最 高 位 则 指明 其 方向 ， 所 以 检查 端点 地 址 的 
最 高 位 就 可 以 知道 抉 状 端点 的 方向 为 输出 或 输入 。 当 然 ， 这 个 方向 位 对 十 双向 的 端点 没有 意义 。 此 外 ， 
端点 偿 有 个 属性 字 节 ， 其 最 低 两 位 表明 端点 的 类 型 。 有 关 的 常数 均 定义 丁 include/linux/usb.h: 


72 #define USB ENDPOINT NUMBER MASK OxOf /* in bEndpointAddress */ 
73 #define USB ENDPOINT DIR MASK 0x80 
74 
75 #define USB ENDPOINT XFERTYPE MASK 0x03 /* in bmAttributes */ 
76 #define USB ENDPOINT XFER CONTROL 0 
77 #define USB_ENDPOINT XFER_TSOC 1 
78 #define USB ENDPOINT XFER BULK 2 
79 #define USB ENDPOINT XFER INT 3 











确 兴 了 扫描 器 的 接口 上 共有 适当 数量 的 端点 以 后 ， 划 为 这 个 扫描 器 分 卫 一 个 次 设备 全 和 一 个 
scn usb data 数据 结构 。 这 种 数据 结构 定义 于 drivers/usb/scanner.h: 


87 struct sen usb data { 


88 siruct usb device *scn dev; 

89 struct urb scn irq; 

90 unsigned int ifnum; /* Interface number of the USB device */ 

91 kdev t scn minor; /* Scanner minor - used in disconnect( ) */ 
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92 unsigned char button; /* Front panel buffer */ 

93 char isopen; /* Not zero if the device is open */ 

94 char present; /* Not zero if device is present */ 

95 char *obuf, *ibuf; /* transfer buffers */ 

96 char bulk in ep, bulk out ep, intr ep: /* Endpoint assignments */ 

97 wait queue head t rd wait q; /* read timeouts */ 

98 struct semaphore gen lock; /* lock to prevent concurrent reads or writes */ 
E E 


结构 和 中 的 指针 obuf 和 ibuf 分 别 指 站 用 于 该 扫描 器 的 输出 和 输入 缓冲 区 ， 所 以 要 为 之 分 配 空间 。 


[usb, scanner. init( ) > usb register( ) > usb scan devices( ) > usb check support( ) > 
usb find interface driver( ) > probe. scanner( )] 


770 /* 

771 * Determine a minor number and initialize the structure associated 
772 * with it. The problem with this is that we are counting on the fact 
773 * that the user will sequentially add device nodes for the scanner 
774 * devices. */ 

775 

776 for (scn_minor - 0; sen minor € SCN MAX MNR; sen minor) { 

TIT if (!p scn table[scn minor]) 

778 break; 

779 } 

780 

781 /* Check to make sure that the last slot isn’t already taken */ 

782 if (p_sen_table[scn_minor]) { 

783 err (“probe_scanner: No more minor devices remaining. ^); 

784 return NULL; 

785 } 

786 

187 dbg(/probe scanner: Allocated minor:%d”, scen minor); 

788 

789 if (!(sen = kmalloc (sizeof (struct sen usb data), GFP KERNEL))) { 
790 err (“probe scanner: Out of memory. ^); 

791 return NULL; 

792 } 

793 memset (scn, 0, sizeof(struct scn usb data)); 

794 dbg (“probe scanner (%d): Address of scn:*p^, scn minor, sen); 
795 

796 


其 他 宁 段 也 需要 根据 点 有 的 信息 加 以 设置 。 特 别 地 ， 如 果 设 备 上 县 有 中 断 端 点 ， 则 要 为 这 个 端点 调 
度 - -个 周期 性 的 中 断 传输 ， 建 立 起 对 打 描 器 的 定期 查询 (drivers/usb/scanner.c)。 


[usb scanner init( ) > usb_register( ) > usb_scan_devices( ) > usb check support( ) 
> usb find interface driver( ) > probe, scanner( )] 
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/* Ok, if we detected an interrupt EP, setup a handler for it */ 


if (have intr) { 
dbg("probe scanner(*d): Configuring IRQ handler for intr EP:%d”, 
scn minor, have intr); 
FILL INT URB(&scn-^scn irq, dev, 
usb rcvintpipe(dev, have intr), 
&scn->button, 1, irq scanner, sch, 
// endpoint[(int)have intr]. bInterval); 
250) ; 


if (usb submit _urb(&scn->scn_irq)) | 

err(/probe scanner (%d): Unable to allocate INT URB.^, scn minor); 
kfree (sen) ; 
return NULL; 


/* Ok, now initialize all the relevant values */ 


if (!(sen-^»obuf = (char *)kmalloc(OBUF SIZE, GFP KERNEL))) { 
err('probe scanner (%d): Not enough memory for the output buffer.^, 
scn minor); 
kfree(scn) ; 
return NULL; 
} 


dbg (“probe_scanner (%d) : obuf address:%p”, sen minor, scn—obuf) ; 


if (!(scn- ibuf = (char *)kmalloc(IBUF SIZE, GFP KERNEL))) { 
err('probe scanner(Xd): Not enough memory for the input buffer. ^, 
scn minor); 
kfree(scn-^obuf) ; 
kfree (sen) ; 
return NULL; 
} 


dbg(”probe_scanner (%d): ibuf address:%p”, scn minor, scn-^ibuf); 


scn-»bulk in ep = have bulk in; 
scn-»bulk out ep = have bulk out; 
scn-^intr ep = have intr; 
scn->present = 1; 

scn-?scn dev = dev; 
scn->scn_minor = scn_minor; 
scn->isopen = 0; 


init MUTEX (&(scn-^gen lock)); 


return p.scn table[scn minor] = sen; 
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我 们 把 为 扫描 器 调度 中 断 传输 的 过 程 搓 一 下 。 暂 旦 假定 probe_scanner( ) 的 操作 已 经 完成 ， 建 立 了 
扫描 器 的 usb interface descriptor 数据 结构 ， 并 为 之 建立 了 scn_usb_data 数据 结构 。 四 到 
usb find interface driver( ) 的 代码 中 ， 下 “ 步 是 通过 usb_driver_claim_interface( ) 正 式 “认领 ”这 个 设备 
(接口 ) (drivers/usb/usb.c)。 





[usb scanner. init( ) > usb register( ) > usb scan devices( ) > usb_check_support( ) 
> usb. find. interface driver( ) > usb. driver claim, interface( )] 


461 /* 

462 * This is intended to be used by usb device drivers that need to 
463 * claim more than one interface on a device at once when probing 
464 * (audio and aem are good examples). No device driver should have 
465 * to mess with the internal usb interface or usb device structure 
466 * members 

467 */ 


468 void usb_driver_claim_interface (struct usb_driver *driver, 
struct usb_interface *iface, void* priv) 


469 | 

470 if (liface || !driver) 

471 return; 

472 

473 dbg("%s driver claimed interface %p”, driver-^name, iface); 
474 

475 iface-^driver = driver; 

476 iface-»private data = priv; 

477 } /* usb driver claim interface( ) */ 





总 之 ， 所 谓 “ 认 领 ” 就 是 使 一 个 usb_interface_descriptor 数据 结构 与 相应 设备 的 usb. driver 结构 挂 
EE). EE, 从 具体 设备 的 数据 结构 出 发 , 就 可 以 找到 其 设备 驱动 程序 了 。 就 这 样 , 当 usb scan devices( ) 
完成 了 对 所 有 USB 设备 的 扫描 时 ， 对 扫描 器 设备 的 登记 和 初始 化 就 洛 成 了 。 最 后 ， 以 次 设备 号 中 的 低 
4 位 为 下 标的 指针 数组 p_scn_table[ ] 纪 录 着 指向 每 个 具体 sen. usb. data 结构 的 地 址 。 


89.4 USB 设备 的 驱动 


要 对 一 台 扫描 器 操作 时 ， 首 先 也 要 通过 系统 调用 open ) 打 开设 备 文件 。 所 有 的 USB 设备 都 有 相同 
的 主 设备 号 USB_MAJOR， 而 根据 次 设备 号 划分 有 具体 的 设备 及 其 类 型 。 所 以 ， 根 据 设 备 文件 节点 提供 
的 主 设备 号 ，CPU 首先 找 色 USB 总线 的 file operations 数据 结构 usb_fops， 从 中 得 到 用 于 open 操作 的 
函数 指针 ， 这 个 指针 指向 usb_open( )。 其 代码 在 drivers/usb/usb.c 中 : 


2177 static int usb open(struct inode * inode, struct file * file) 
2178 ( 

2179 int minor = MINOR(inode-^i, rdev) ; 

2180 struct usb driver *c = usb minors[minor/16]; 
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2181 int err = —ENODEV; 

2182 struct file_operations *old_fops, *new_fops = NULL; 
2183 

2184 /* 

2185 * No load-on-demand? Randy, could you ACK that it's really not 
2186 * supposed to be done? — AV 

2187 */ 

2188 if Gc || ! (new fops = fops get(c-^fops))) 

2189 return crr; 

2190 old fops = file—f op; 

2191 file->f op = new fops; 
2192 /* Curiouser and curiouser... NULL ~>open( ) as “no device” ? */ 
2193 if (file->f op-^open) 

2194 err = file-^f op-Popen(inode, file); 

2195 if (err) { 

2196 fops put(file-^f op); 

2197 file-^f op = fops get(old fops); 

2198 } 

2199 fops put(old fops); 

2200 return err; 

220 ] 


然后 ， 进 一 步 根据 次 设备 号 从 指针 数组 usb_minors[ ] 中 找到 扫描 器 的 usb, driver 结构 。 我 们 知道 ， 
file 结构 中 的 指针 f_op 应 该 指出 向 目标 设备 的 file operations 数据 结构 ，2188 行 引 用 的 fops_get( AE 
XF include/linux/fs.h WERE: 


860 #define fops_get (fops) \ 


861 (((fops) && (fops)-^owner) \ 
862 ? ( try inc mod count((fops)-^owner) ? (fops) : NULL ) \ 
863 : (fops)) 


打 描 器 的 file operations 结构 是 usb_scanner_fops， 其 函数 指针 open 指向 open. scanner( )， 这 个 函 
数 的 代码 在 drivers/usb/scanner.c FP: 


[usb_open( ) > open_scanner( )] 


345 static int 
346 open_scanner (struct inode * inode, struct file * file) 


347 { 

348 struct scn usb data *scn; 
349 struct usb device *dev; 
350 

351 kdev t scn minor; 

352 

353 int err-0; 

354 
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0 


355 lock kernel ( ); 

356 

357 scn minor = USB SCN MINOR (inode) ; 

358 

359 dbg('open scanner: scn_minor:%d”, scn minor); 

360 

361 if (!p scn table[scn minor]) | 

362 err('open scanner(&d): Unable to access minor data”, sen minor); 
363 err = -ENODEY; 

364 goto out error; 

365 } 

366 

367 sen = p_scn_tablie[scn_minor]}; 

368 

369 dev = scn->scn_dev; 

370 

371 if (!dev) { 

372 err (“open_scanner (%d): Scanner device not present”, scn minor); 
373 err = -ENODEV; 

374 goto out error; 

375 } 

376 

377 if (!senOpresent) { 

378 err (“open_scanner (%d): Scanner is not present”, scn minor); 
379 err = —ENODEV; 

380 goto out error; 

381 ) 

382 

383 if (scn->isopen) { 

384 err (“open scanner (%d): Scanner device is already open’, scn minor); 
385 err - —EBUSY; 

386 goto out error; 

387 ] 

388 

389 init waitqueue head(&scn-?rd wait q): 

390 

391 scn-»isopen = 1; 

392 

393 file private data = sen; /* Used by the read and write metheds */ 
394 

395 MOD INC USE COUNT; 

396 

397 out error: 

398 

399 unlock kernel ( ); 

400 

401 return err; 

402 | 
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我 们 把 这 个 函数 留 给 读者 。 有 关 p_scn_table| ] 的 作 几 可 参阅 前 一 小 节 中 probe_scannerO 的 代码 。 

打开 了 扫描 器 设备 ， 就 可 以 对 其 进行 读 / 写 ， 从 此 以 后 的 拘 作 有 着 两 个 层次 上 的 内 容 。 其 一 是 取决 
于 具体 设备 ， 即 扫描 器 本 身 的 操作 ， 例 如 “开启 光源 入 “设置 对 比 度 兴 “设置 扫描 精度 ”" “开始 扫 描 ” 
等 等 ， 其 二 是 USB 总 线 的 操作 ， 即 如 何 实现 主机 与 目标 设备 之 间 的 信息 传输 ， 使 对 具体 设备 的 操作 得 
以 实现 。 如 果 拿 内 核 与 应 用 软件 之 间 的 关系 作 一 个 比拟 ， 则 前 者 可 以 比 作 应 用 软件 ， 而 后 者 可 以 比 作 
A. 前 者 是 目的 , 后 者 是 手段 和 基础 设施 。 就 一 般 的 设备 而 言 , 这 二 者 都 是 在 内 核 中 实现 的 , 对 USB 
设备 的 驱动 当然 也 可 以 把 这 二 者 都 放 在 内 核 中 实现 。 可 是 ， 对 一 些 速度 要 求 不 高 、 操 作 不 很 频繁 、 与 
内 核 中 其 他 成 分 关系 又 不 大 的 设备 ， 把 前 者 放 在 用 户 空间 也 有 好 处 。 拿 扫描 器 米 说 ， 不 同 厂 商 、 不 同 
型 号 的 扫描 器 在 具体 的 操作 上 可 能 有 相当 的 区 划 ， 放 在 用 户 空间 中 实现 可 以 提供 更 大 的 灵活 性 。 所 以 ， 
对 扫描 器 本 身 的 操作 是 在 进程 这 层次 上 实现 的 ， 而 内 核 只 提供 对 # 描 器 操作 的 手段 。 我 们 在 这 里 的 
目的 并 不 任 于 打 j 措 器 本 身 ， 而 在 于 驱动 USB 设备 的 手段 及 基础 设施 ， 就 好 像 本 书 的 题材 不 在 于 各 种 应 
用 软件 ， 而 在 于 使 这 些 应 用 软件 得 以 运行 的 手段 及 基础 设施 一 样 。 

一 般 来 说 ， 从 系统 的 角度 米 看 ， 对 设备 的 操作 无 非 是 两 方面 的 信息 交换 ，- -方面 是 控制 /状态 信息 
的 传输 ， 男 一 方面 是 数据 的 传输 ， 常 常 分 别称 为 “控制 道道 ”(control path) 和 “数据 通道 ”(data path). 
至 于 以 何 种 方式 实现 这 丙种 通道 ， 则 存在 着 一 些 灵 活性 。 例 如 ， 对 于 扫描 器 的 数据 通道 - 般 都 是 通过 
“成 块 "(bulk) 方 式 传输 的 。 这 是 因为 对 扫描 器 的 输入 显然 没有 实时 此 求 , 不 需要 通过 “等 时 (isochronous) 
方式 传输 。 对 于 控制 道道 则 更 无 采用 等 时 传输 的 理由 。 但 是 ， 在 采用 控制 传输 还 是 成 块 传输 方式 来 伟 
递 控制 /状态 信息 这 一 点 上 ， 如 果 有 具体 的 设备 允许 并 提供 了 相应 的 于 段 ， 却 还 是 可 以 推 殴 的 。 扫 描 器 就 
是 这 样 ， 现 代 的 扫描 器 大 多 支持 “扫描 器 语言 "， 使 得 通过 数据 道道 也 可 以 实现 控制 目的 (类 似 于 终端 
设备 的 Escape 序列 )。 如 前 所 述 ， 控 制 传输 的 优先 级 别 比 成 块 传输 高 ， 而 且 人 在 USB 总 线 上 保留 了 -一 定 
的 带宽 用 于 控制 传输 ， 所 以 比较 可 靠 。 但 是 ， 若 采用 成 块 方式 传输 则 可 以 简化 程序 设计 ， 因 为 那样 就 
可 以 不 加 区 分 地 一 律 采 用 成 块 方式 传输 。 从 表面 上 看 ， 这 样 会 使 控制 /状态 信息 的 传输 降低 优先 级 别 并 
得 不 到 保障 ， 林 是 对 于 扫描 器 这 样 的 设备 其 实 并 无 多 大 区 唱 。 试 得 ， 如 果 USB 总 线 的 负 信 已 经 大 到 不 
能 保证 传输 数据 的 地 步 ， 那 么 提 商 控制 /状态 信息 的 优先 级 别 ， 以 此 来 保证 能 启动 打 描 还 有 多 人 意义 ? 
所 以 ,在 扫描 器 的 设备 驱动 代码 中 有 个 条 件 编译 控制 SCN_IOCTL。 如 果 选 择 了 这 个 选项 ， 则 应 用 进程 
须 通过 系统 调用 ioctl ) 传 递 控制 /状态 信息 ， 而 通过 read( Ywrite( ) 读 / 写 数据 ， 否则 便 一 律 通 过 
read( )/write( ) 对 扫描 器 操作 。 我 们 在 这 里 假定 选择 通过 ioctl ) 传 递 控制 /状态 信息 ， 上 月 的 是 让 读者 由 此 
可 以 看 到 控制 传输 的 实例 。 扫 描 器 的 ioctl( ) 函 数 为 ioctl_scanner( )。 其 代码 在 drivers/usb/scanner.c 中 


863 #ifdef SCN IOCTL 
864 static int 
865 ioctl scanner(struct inode *inode, struct file *file, 


866 unsigned int cmd, unsigned long arg) 
867 { 

868 struct usb device *dev; 

869 

870 int result; 

871 

872 kdev t scn_minor; 

873 

874 scn minor = USB SCN MINOR (inode); 
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if (lp scn table[sen minor]) { 
err('ioctl scanner(*d): invalid scn_minor”, scn minor); 
return -ENODEY; 

} 


dev = p scn_table[scn_minor]—>scn_dev; 


switch (cmd) 


{ 
case PV8630 IOCTL INREQUEST : 
{ 
struct { 
_ u8 data; 
_ u8 request; 
. ul6 value; 
.. ul6 index; 
} args; 


if (copy from user(&args, (void *)arg, sizeof(args))) 
return -EFAULT; 


result = usb control msg(dev, usb rcvctrlpipe(dev, 0), 
args. request, USB TYPE VENDOR | 
USB RECIP DEVICE|USB DIR IN, 
args. value, args. index, &args. data, 
1, HZ*5); 


dbg( ^ioctl scanner(*d): inreq: args. data:%x args. value: \ 
%x args. index:%x args. request:%x\n’", 


scn minor, args. data, args. value, args. index, args. request) ; 


if (copy to user((void *)arg, &args, sizeof (args) ) ) 
return -EFAULT; 


dbg(/iocti scanner (%d): inreq: result:%d\n”, sen minor, result); 


return result; 
) 
case PV8630 IOCTL OUTREQUEST : 
{ 
struct { 
__u8 request; 
. ul6 value; 
__ul6 index; 
} args; 


if (copy from user(&args, (void *)arg, sizeof (args))) 
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921 return -EFAULT; 
922 
923 dbg( ioctl scanner(*d): outreq: args. value:%x args. index: V 


%x args. request: xn, 
scn minor, args.value, args.index, args.request); 

924 
925 result - usb control msg(dev, usb sndctrlpipe(dev, 0), 
926 args.request, USB TYPE VENDOR| 
927 USB RECIP DEVICE|USB DIR OUT, 
928 args.value, args.index, NULL, 
929 0, HZ*5); 
930 
931 dbg(^ioctl scanner(9*d): outreq: result: 9dWn^, scn minor, result): 
932 
933 return result; 
934 } 
935 default: 
936 return -ENOIOCTLCMD; 
937 } 
938 return 0; 
939 } 
940 Hendif /* SCN IOCTL */ 


驱动 程序 的 设计 者 为 扫描 器 的 iocu( ) BR fEGE X T  PV8630 IOCTL INREQUEST 和 
PV8630 IOCTL OUTREQUEST 两 种 命令 ， 前 者 用 于 从 扫 摘 器 读 入 状态 信息 ， 后 者 用 于 向 扫描 器 发 出 
控制 命令 。 二 者 都 通过 usb_control_msg( ) 完 成 信息 的 传递 。 比 较 一 下 897 和 925 行 ， 可 以 看 出 所 不 同 
的 有 两 点 。 首 先是 第 二 个 参数 ， 一 为 usb_rcvctrlpipe(dev, 0), <Æ usb sndctrlpipe(dev, 0); 还 有 就 是 第 
5 个 参数 中 的 标志 位 USB. DIR IN 和 USB_DIR_OUT。 先 看 第 二 个 参数 ， 这 里 引用 的 两 个 宏 操 作 均 定 
X. F include/linux/usb.h: 


700 #define PIPE CONTROL 2 
745 #define usb sndctrlpipe (dev, endpoint) \ 
((PIPE CONTROL << 30) | | create pipe (dev, endpoint) ) 
146 Hdefine usb rcvcirlpipe (dev, endpoint) X 
((PIPE CONTROL << 30) create pipe(dev, endpoint) | USB DIR IN) 


XX RJ create pipe( ) 是 个 inline 函数 ， 也 是 在 include/llinux/usb.h 中 定义 的 : 


734 static inline unsigned int __create_pipe(struct usb device *dev, 
unsigned int endpoint) 

135 { 

736 return (dev->devnum << 8) | (endpoint << 15) | (dev->slow << 26); 

737 } 


这 些 操作 为 本 次 传输 构筑 起 一 个 32 位 长 字 ， 以 后 将 用 作 传 令 (token) 信 和 包 的 主体 。 这 个 长 宁 的 最 高 
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两 位 表示 传输 的 类 型 , 中 部 是 7 位 的 设备 地 址 加 上 4 位 的 端点 号 。 其 bit26 表示 对 方 是 否 低速 设备 , bit7 
为 1 则 表示 方向 为 输入 。 
常数 USB DIR. OUT 和 USB_DIR_IN 也 定义 于 include/linux/usb.h: 


38 /* 

39 * USB directions 

40 */ 

41 #define USB DTR OUT 0 

42 define USB DIR IN 0x80 


此 外 ， 同 一 文件 中 为 等 时 、 成 块 以 及 中 断 管道 也 定义 了 相应 的 宏 操作 以 及 常数 。 


747 #define usb_sndisocpipe(dev, endpoint) \ 


((PIPE ISOCHRONOUS << 30) | | create pipe(dev, endpoint)) 
748 define usb rcvisocpipe(dev, endpoint) ^ 
((PIPE ISOCHRONOUS << 30) | | create pipe(dev,endpoint) | USB DIR IN) 


749 #define usb sndbulkpipe(dev, endpoint) 
((PIPE BULK << 30) | | create pipe (dev, endpoint)) 
750 &define usb rcvbulkpipe(dev, endpoint) \ 


((PIPE BULK << 30) | | create pipe(dev,endpoint) | USB DIR IN) 
751 define usb sndintpipe (dev, endpoint) \ 
((PIPE INTERRUPT << 30) | __create_pipe (dev, endpoint) ) 
752 &define usb revintpipe (dev, endpoint) \ 
((PIPE INTERRUPT << 30) | | create pipe(dev, endpoint) | USB DIR IN) 


698 define PIPE ISOCHRONOUS 0 
699 #define PIPE_INTERRUPT 1 
700 define PIPE CONTROL 2 
701 #define PIPE BULK 3 


再 看 第 4 个 参数 ， 其 中 的 USB_RECIP_DEVICE 等 常数 也 定义 于 include/linux/usb.h FP: 


21 /* 

22 x USB types 

23 */ 

24 Hdefine USB TYPE STANDARD (0x00 «4 5) 
25 #define USB TYPE CLASS (0x0I << 5) 
26 #define USB TYPE VENDOR (0x02 << 5) 
27 #define USB TYPE RESERVED (0x03 << 5) 
28 

29 /* 

30 * USB recipients 

3l */ 

32 define USB RECIP MASK Ox1f 

33 define USB RECIP DEVICE 0x00 
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34 #define USB RECIP INTERFACE 0x01 
35 #define USB_RECIP ENDPOINT 0x02 
36 #define USB RECIP OTHER 0x03 


常数 USB RECIP DEVICE 表示 传输 的 终极 对 象 是 设备 ， 而 不 是 接口 ， 也 不 是 端点 本 身 。 
USB TYPE, VENDOR 则 表示 在 日 标 设备 中 要 访问 的 寄存 器 是 由 设备 制造 商定 义 的 ， 而 不 属于 标准 的 
USB 寄存 器 。 作 为 对 比 ， 读 者 可 以 回 到 前 一 小 节 看 一 下 枚 举 阶 段 对 usb_control_msg( ) 的 调用 ， 在 那里 
第 4 个 参数 常常 是 0 或 USB_DIR_IN， 这 就 是 因为 USB. TYPE STANDARD 和 USB. RECIP. DEVICE 
的 定义 都 弟 0，USB_DIR_OUT 也 是 0。 

虽然 我 们 在 这 里 是 结合 具体 的 设备 扫 撒 器 读 usb, control msg( ) 的 代 人 码 ， 这 却 是 个 通用 的 、 属 于 基 
础 设施 一 类 的 函数 。 在 前 一 小 节 中 ， 我 们 就 看 到 在 USB 设备 枚 举 的 过 程 中 频繁 地 调用 这 个 函数 从 设备 
读 取 各 种 信息 。 这 个 函数 的 代码 在 drivers/usb/usb.c P; 


[ioctl_scanner( ) > usb control msg( )] 


1065 /** 
1066 * usb control msg - Builds a control urb, sends it off and waits for completion 
1067 * (dev: pointer to the usb device to send the message to 
1068 * (pipe: endpoint "pipe" to send the message to 
1069 * (request: USB message request value 
1070 * @requesttype: USB message request type value 
1071 * (value: USB message value 
1072 * (index: USB message index value 
1073 * (data: pointer to the data to send 
1074 * (size: length in bytes of the data to send 
1075 * @timeout: timo to wait for the message to complete before 

timing out (if 0 the wait is forever) 
1076 * 
1077 * This function sends a simple control message to a specified endpoint 
1078 * and waits for the message to complete, or timeout. 
1079 * 
1080 * If successful, it returns 0, othwise a negative error number. 
1081 * 
1082 * Don t use this function from within an interrupt context, like a 
1083 * bottom half handler. If you need a asyncronous message, or need to send 
1084 * a message from within interrupt context, use usb submit urb( ) 
1085 */ 
1086 int usb control msg(struct usb device *dev, unsigned int pipe, 

. u8 request, | u8 requesttype, 

1087 . ul6 value, __ul6 index, void *data, ^ ul6 size, int timeout) 
1088 ( 
1089 devrequest *dr - kmalloc(sizeof(devrequest), GFP KERNEL); 
1090 int ret; 
1091 
1092 if (ldr) 
1093 return -ENOMEM; 
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1094 

1095 dr->requesttype = requesttype; 
1096 dr->request = request; 

1097 dr->value = cpu to lel6p(&value); 
1098 dr-^index = cpu to lel6p(&index); 
1099 dr->length = cpu to lel6p(&size); 
1100 

1101 //dbg("usb control msg"); 

1102 

1103 ret - usb internal control msg(dev, pipe, dr, data, size, timeout); 
1104 

1105 kfree (dr) ; 

1106 

1107 return ret; 

1108} 


参数 dev 指向 月 标 设备 的 usb_device 数据 结构 。pipe 是 个 32 MEGS, We E t I9 32 
AKF dmm ret KS AS B/E ER), HAS OTE SLA ER, 
以 及 设备 是 否 为 全 速 (或 低速 )。 此 外 ，regquesttype 是 个 8 位 字 节 ， 其 最 高 位 表示 传输 的 方向 ， 最 低 5 
位 则 表明 传输 终极 对 象 的 类 别 (设备 /接口 /端点 /其 它 )， 通 常 这 意味 着 一 组 寄存 器 或 者 -一 小 块 存储 区 间 ; 
而 index 则 进而 指明 了 其 体 的 单元 ， 这 就 是 终极 的 操作 对 象 。 针 对 这 个 操作 对 象 ，request 说 明了 需要 
进行 的 操作 ,而 value 则 是 参数 。 如 果 有 更 多 的 数据 需 归 传递 ( 读 / 写 )， 则 通过 缓冲 区 data 进行 ， 其 大 小 
为 size。 这 些 都 是 从 用 户 空 间 传 下 的 参数 ， 而 传输 的 目的 正 是 要 把 这 些 信息 发 送 给 目标 设备 。 最 后 ， 
参数 timeout 表示 愿意 睡 哎 等 待 传输 完成 的 时 间 。 显 然 ，usb_control_msg( ) 只 是 个 外 包装 ， 实 际 的 棵 作 
由 usb_internal_control_msg( ) 完 成 。 在 传输 的 过 程 中 ， 端 点 起 着 类 似 十 “传达 室 ” 的 作用 。 

根据 USB 总 线 规格 书 的 规定 ， 需 要 发 送 给 上 月 标 设备 的 这 些 信 息 要 组 装 在 一 个 操作 请 求 块 中 。 这 里 
的 devrequest 就 是 根据 这 个 规定 而 定义 的 数据 结构 ， 其 定义 在 include/linux/usb.h 中 ， 


151 typedef struct { 


152 .u8 requesttype; 
153 _u8 request; 

154 . ul6 value; 

155 .ul6 index; 

156 _ul@ length; 


157 } devrequest — attribute | ((packed)); 


实际 上 , 这 个 数据 结构 就 是 SETUP 信和 包 的 内 容 , 而 缓冲 区 的 内 容 , 则 就 是 随后 的 数据 信和 包 的 内 容 。 
全 于 状态 阶段 的 信和 包 ， 则 是 来 自 (或 去 向 ) 终极 操作 对 象 (而 不 是 交互 对 象 ) 的 确认 。 
函数 usb_internal_control_msg( ) 的 代码 在 drivers/usb/usb.c 中 : 


[ioctl_scanner( ) > usb_control_msg( ) > usb_internal_control_msg( )] 


1042 // returns status (negative) or length (positive) 
1043 int usb internal control msg (struct usb device *usb dev, unsigned int pipe, 
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1044 
1045 
1046 
1047 
1048 
1049 
1050 
1051 
1052 
1053 
1054 


1055 
1056 
1057 
1058 
1059 
1060 
1061 
1062 
1063 


) 
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devrequest *cmd, void *data, int len, int timeout) 


urb t *urb; 
int retv; 
int length; 


urb 7 usb alloc urb(0); 
if (turb) 
return -ENOMEM; 


FILL CONTROL URB(urb, usb dev, pipe, (unsigned char*) cmd, 
data, len, /* build urb */ 
(usb complete t)usb api blocking completion, 0) ; 


retv = usb start wait urb(urb, timeout, &length) ; 
if (retv < 0) 

return retv; 
else 

return length; 


对 于 USB 总 线 上 的 每 个 传输 ， 需 要 为 之 创建 - 个 “USB 传输 请 求 块 ” 即 usb 数据 结构 。 简 而 言 
之 ， 发 送 控制 报 文 的 过 程 就 是 ， 根 据 参 数 建立 -个 usb 数据 结构 ， 把 这 个 usb 结构 交 给 低层 ， 让 低层 
据 以 调度 相应 的 控制 传输 ， 然 后 睡眠 等 待 传输 的 完成 。 

这 种 数据 结构 的 定义 在 include/linux/usb.h 中 : 


440 
441 
442 
443 
444 
445 
446 
447 
448 
449 
450 
451 
452 
453 
454 
455 
456 
457 
458 
459 


typedef struct urb 


{ 
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spinlock t lock; /* lock for the URB */ 

void *hcpriv; /* private data for host controller */ 

struct list head urb list; /* list pointer to all active urbs */ 

struct urb *next; /* pointer to next URB */ 

struct usb device *dev; /* pointer to associated USB device */ 
unsigned int pipe; /* pipe information */ 

int status; /* returned status */ 

unsigned int transfer flags; /* USB DISABLE SPD | USB ISO ASAP | etc. */ 
void *transfer buffer; /* associated data buffer */ 

int transfer buffer length; /* data buffer length */ 

int actual length; /* actual data buffer length */ 

int bandwidth; /* bandwidth for this transfer request (INT or ISO) */ 
unsigned char *setup packet; /* setup packet (control only) */ 

int start frame; /* start frame (iso/irq only) */ 

int number of packets; /* number of packets in this request (iso) */ 
int interval; /* polling interval (irq only) */ 

int error count; /* number of errors in this transfer (iso only) */ 
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460 int timeout; /* timeout (in jiffies) */ 

461 

462 void *context; /* context for completion routine */ 
463 usb complete t complete; /* pointer to completion routine */ 
464 

465 iso packet descriptor, t iso frame desc[0]; 


466 } urb t, *purb t; 
同一 文件 中 还 定义 了 一 个 宏 操 作 FILL. CONTROL. URB( ): 


468 #define FILL CONTROL URB (a, aa, b, c, d, e, f, g) \ 


469 do {\ 

410 spin lock init (&(a)-»lock);^ 
471 (a) ~>dev=aa; \ 

472 (a) ->pipe=b; \ 

473 (a)->setup_packet=c; \ 

474 ‘(a)->transfer_buffer=d; \ 

475 (a)->transfer_buffer_length=e; \ 
476 (a) -^complete-f;V 

ATI (a) —>context=g; \ 

478 } while (0) 


对 照 上 面 对 FILL_CONTROL_URB( ) 的 引用 ， 可 知 urb->dev 设置 成 指向 usb dev, urb->pipe 为 日 
标 设 备 的 控制 管道 ， 即 端点 0, urb->setup_packet 指向 前 面 创建 的 devrequest 数据 结构 ， 
urb->transfer_buffer 设置 成 前 面 的 参数 data, urb-»complete 指向 usb api blocking completion( )， 
urb->context 则 暂时 为 0。 

设置 好 ub 数据 结构 以 后 ， 就 通过 usb_start_wait_urb( ) “提交 ”这 个 urb 数据 结构 ， 并 等 待 父 互 的 
完成 。 这 个 函数 的 代码 在 drivers\usb\usb.c FP: 


[ioctl scanner( ) > usb_control_msg( ) > usb internal control msg( ) > usb_start_wait_urb( J 


995 // Starts urb and waits for completion or timeout 
996 static int usb_start_wait_urb(urb_t *urb, int timeout, int* actual. length) 
997 d 


998 DECLARE WAITQUEUE(wait, current): 
999 DECLARE WAIT QUEUE HEAD (wah) ; 
1000 api wrapper data awd; 

1001 int status; 

1002 

1003 awd. wakeup - &wqh; 

1004 init waitqueue head(&wqh); 

1005 current—>state = TASK INTERRUPTIBLE; 
1006 add wait queue(&wqh, &wait); 

1007 urb->context = &awd; 

1008 status = usb_submit_urb(urb) ; 
1009 if (status) { 
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1010 // something went wrong 

1011 usb free urb(urb); 

1012 current-?state = TASK RUNNING; 

1013 remove wait queue(&wqh, &wait); 

1014 return status; 

1015 } 

1016 

1017 if (urb-^status == -EINPROGRESS) { 

1018 while (timeout && urb-^status == -EINPROGRESS) 
1019 status = timeout = schedule timeout (timeout); 
1020 ] else 

1021 status = 1; 

1022 

1023 current-?state = TASK RUNNING; 

1024 remove wait queue(&wgh, &wait); 

1025 

1026 if (!status) { 

1027 // timeout 

1028 printk('usb control/bulk msg: timeout\n”) ; 
1029 usb unlink urb(urb); // remove urb safely 
1030 status - -ETIMEDOUT; 

1031 | else 

1032 status = urb->status; 

1033 

1034 if (actual length) 

1035 *actual length = urb-^actual length; 

1036 

1037 usb free urb(urb); 

1038 return status; 

1039 } 


像 以 前 多 次 见 到 的 那样 ( 详 见 第 4 章 ), 在 当前 进程 的 系统 空间 堆栈 上 建立 起 一 个 等 待 队 询 ， 并 将 当 
前 进程 的 task 结构 通过 一 个 wait queue t 数据 结构 挂 在 队列 中 。 同 时 ， 又 定义 了 一 个 api_wrapper_data 
数据 结构 awd。 这 种 数据 结构 定义 丁 include/linux/usb.h: 


540 typedef struct 


541 { 

542 wait queue head t *wakeup; 
543 

544 void* stuff; 

545 /* more to follow */ 


546 ) api wrapper data; 


{E awd.wakeup 指向 上 述 的 队列 头 ， 再 使 urb 结构 中 的 指针 context 指向 awd， 就 在 urb 结构 与 等 待 
队列 之 间 建 立 起 了 联系 。 这 样 ， 从 具体 的 urb 结构 出 发 ， 就 可 以 找到 正在 等 待 其 (所 代表 的 传输 ) 完 成 的 
进程 。 然 后 就 通过 usb submit urb( ) 提 交 这 个 传输 请 求 。 其 代码 在 drivers/usb/usb.c 中 : 
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[ioctl_scanner( ) > usb_control_msg( ) > usb internal control msg( ) > usb start wait, urb( ) > 
usb submit urb( )) 


955 int usb submit urb(urb t *urb) 


956 { 

957 if (urb && urb->dev) 

958 return urb->dev->bus~>op->submit_urb (urb) ; 
959 else 

960 return —ENODEV; 

961 } 


AAA “HEAR” (submitix tial, (HIF RAL LER. HRA PRIN. WAP 
层 是 什么 呢 ? 这 就 是 UHCI 或 OHCI。 对 于 采用 UHC] 界面 的 USB 总 线 控制 器 ， 其 usb bus 结构 中 的 


usb, operations 结构 指针 op 指向 drivers/usb/uhci.c 中 定义 的 uhci_device_operations。 


1615 struct usb operations uhci device operations = { 
1616 uhci alloc dev, 

1617 uhci free dev, 

1618 uhci get current frame number, 

1619 uhci submit urb, 

1620 uhci unlink urb 

1621 }; 


BAR, UHCI 界面 的 函数 指针 submit, urb 指向 uhci. submit urb( ). AMAR Meh, AVA FRAC 
付 控 制 传输 ， 也 用 来 交付 等 时 、 中 断 以 及 成 块 传输 。 其 代码 在 drivers/usb/uhci.c F: 


[ioctl. scanner( ) > usb. control, msg( ) > usb. internal control msg( ) > usb_start_wait_urb( ) 
> usb submit urb()-» uhci submit urb( )] 


1291 static int uhci submit urb(struct urb *urb) 


1292 { 

1293 int ret = -EINVAL; 

1294 struct uhci *uhci; 

1295 unsigned long flags; 

1296 struct urb *u; 

1297 int bustime; 

1298 

1299 if (!urb) 

1300 return -EINVAL; 

1301 

1302 if (!urb->dev || !urb->dev->bus || !urb->dev—>bus—>hcpriv) 
1303 return -ENODEV; 

1304 

1305 uhci = (struct uhci *)urb-^dev—^bus-^hepriv; 
1306 

1307 /* Short circuit the virtual root hub */ 


. Sil . 


1308 
1309 
1310 
1311 
1312 
1313 
1314 


1315* 


1316 
1317 
1318 
1319 
1320 
1321 
1322 
1323 
1324 
1325 
1326 
1327 
1328 
1329 
1330 
1331 
1332 
1333 
1334 
1335 
1336 
1337 
1338 
1339 
1340 
1341 
1342 
1343 
1344 
1345 
1346 
1347 
1348 
1349 
1350 
1351 
1352 
1353 
1354 
1355 
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if (usb pipedevice(urb->pipe) == uhci->rh. devnum) 
return rh submit urb(urb); 


u = uhci find urb ep(uhci, urb); 
if (u && !(urb-^transfer flags & USB QUEUE BULK)) 
return —ENXIO; 


usb inc dev use(urb-5dev); 
spin lock irqsave (&urb->lock, flags); 


if (!uhci alloc urb priv(urb)) { 
spin uniock irqrestore(&urb-^lock, flags); 
usb dec dev use (urb->dey) ; 


return —ENOMEM: 
) 


switch (usb pipetype(urb-^pipe)) { 
case PIPE CONTROL: 
ret = uhci submit control(urb); 
break; 
case PIPE_INTERRUPT: 
if (urb bandwidth == 0) { /* not yet checked/allocated */ 
bustime = usb check bandwidth(urb-»dev, urb); 
if (bustime < 0) 
ret = bustime; 
else { 
ret = uhci submit interrupt (urb) ; 
if (ret == -EINPROGRESS) 
usb claim bandwidth(urb->dev, urb, bustime, 0); 


) 


} else /* bandwidth is already set */ 
ret = uhci submit interrupt (urb); 
break; 


case PIPE BULK: 
ret - uhci submit bulk(urb, u); 
break; 
case PIPE ISOCHRONOUS: 
if (urb bandwidth == 0) | /* not yet checked/allocated */ 
if (urb number of packets <= 0) { 
ret = -EINVAL; 
break; 
} 
bustime = usb check bandwidth (urb->dev, urb): 
if (bustime < 0) { 
ret = bustime; 
break; 
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1356 
1357 ret = uhci submit isochronous (urb); 
1358 if (ret == -EINPROGRESS) 
1359 usb claim bandwidth(urb->dev, urb, bustime, 1); 
1360 } else /* bandwidth is already set */ 
1361 ret = uhci submit isochronous (urb); 
1362 break; 
1363 ) 
1364 
1365 urb->status = ret; 
1366 
1367 spin_unlock_irgrestore(&urb->lock, flags); 
1368 
1369 if (ret == -EINPROGRESS) 
1370 ret = 0; 
1371 else { 
1372 uhci unlink generic (urb) ; 
1373 usb dec dev use(urb-^dev); 
1374 } 
1375 
1376 return ret; 
1377} 
这 是 个 需要 细 加 阅读 的 函数 。 


对 于 采用 UHCI 界面 的 USB 总 线 控制 器 , 其 usb. bus 结构 中 的 指针 hepriv 指向 一 个 uhci 数据 结构 ， 
而 uhci 结构 中 有 个 次 层 结 构 中 ， 里 面 是 有 关 根 集中 器 的 信息 ， 这 是 在 根 集中 器 初始 化 时 设置 好 的 。 如 
果 日 标 设备 恰好 就 是 根 集 中 器 ， 那 么 通信 的 过 程 可 以 简化 ， 因 为 CPU 直接 就 可 以 访问 其 各 个 寄存 器 ， 
不 需要 通过 USB 总 线 就 能 进行 通信 ， 所 以 此 时 由 rh submit urb( ) 完 成 操作 。 这 个 函数 的 代码 在 
drivers/usb/uhci.c 中 ， 但 是 我 们 在 这 里 就 从 略 了 。 

与 其 他 所 有 USB 设备 的 道 信 ( 传 输 ) 都 此 通过 USB 总 线 上 的 交互 来 完成 , 因而 需要 为 具体 的 传输 调 
度 一 个 或 几 个 交互 。 除 等 时 传输 之 外 ， 在 调度 中 不 允许 同时 存在 对 同 ， 对象 的 钠 个 同 种 传输 。 这 是 为 
什么 呢 ? 我 们 以 前 讲 过 ， 控 制 传输 和 成 块 传输 是 以 传输 (而 不 是 交互 〉 为 单位 挂 入 调度 队列 的 ， 一 个 
传输 就 是 … 个 交互 队列 ， 而 对 这 些 队列 的 执行 又 可 以 是 横向 执行 。 如 果 对 同一 对 象 的 两 个 传输 都 挂 在 
调度 队列 中 ， 就 有 可 能 使 两 个 传输 中 的 交互 夹杂 在 -起 ;例如 从 第 一 个 传输 中 执行 了 一 个 交互 以 后 就 
在 第 二 个 传输 中 也 执行 一 个 交互 ， 然 后 又 回 到 第 一 个 传输 ， 这 当然 就 乱 了 套 。 至 于 中 断 传 输 ， 则 只 包 
含 一 个 交 里 ， 并 且 是 以 交互 为 单位 进行 调度 的 ， 但 是 却 并 没有 理 山 对 同 “端点 调度 其 个 中 断 传 输 。 

所 以 ， 先 通过 uhci_find_urb_ep( )， 寻 找 已 经 调度 而 尚未 完成 的 对 同一 对 象 的 同 种 传输 ， 其 代码 在 


drivers/usb/uhci.c HP: 


[ioctl_scanner( ) > usb. control msg( ) > usb internal control msg( ) > usb start, wait, urb( ) 
> usb. submit. urb( ) > uhci, submit urb( ) > uhci, find urb ep( )] 


1263 static struct urb *uhci find urb ep(struct uhci *uhci, struct urb *urb) 
1204 1 
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struct list head *tmp, *head = &uhci->urb list; 
unsigned long flags; 
struct urb *u - NULL; 


if (usb_pipeisoc (urb->pipe) ) 
return NULL; 


nested lock(&uhci-^urblist lock, flags); 
tmp = head->next 
while (tmp != head) { 
u = list entry(tmp, struct urb, urb list); 


tmp = tmp-^next; 

if (u->dev == urb->dev && 
u->pipe == urb->pipe) 
goto found; 


] 
u - NULL; 


found: 
nested unlock(&uhci-P^urblist lock, flags); 


return u; 


) 


等 时 交互 的 调度 是 个 不 同 的 问题 ， 所 以 如 果 对 方 是 个 等 时 端点 〈1269 行 ) 就 立即 返回 0。 这 里 的 


usb pipeisoc( ) 是 个 宕 操作 ， 定 义 于 include/linux/usb.h。 与 此 类 似 的 宏 操 作 还 有 usb_pipeint( )、 
usb_pipecontrol( ) 以 及 usb_pipebulk( )。 


716 
717 
718 
719 


21 
22 
23 
24 
25 
26 
27 
28 
29 
30 


Hdefine usb pipeisoc(pipe) (usb pipetype((pipe)) == PIPE ISOCHRONOUS) 
define usb pipeint(pipe) (usb pipetype((pipe)) == PIPE INTERRUPT) 
define usb pipecontrol(pipe) (usb. pipetype((pipe)) == PIPE CONTROL) 
define usb pipebulk(pipe) (usb pipetype((pipe)) == PIPE BULK) 


代码 中 的 nested lock( ) 和 nested. unlock 也 是 drivers/usb/uhci.h 中 定义 的 宏 操 作 : 


define nested lock(snl, flags) \ 

if ((snl)->uniq == current) { \ 
(snl)->count++; \ 
flags = 0; /* No warnings */ \ 

} else { \ 
spin_lock_irqsave(&(snl)—>lock, flags); V 
(snl)->count++; V 
(snl)-^uniq = current; \ 
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31 Hdefine nested unlock(snl, flags) \ 





32 if (1--(snl)-^count) { \ 

33 (snl)-^uniq = NULL; \ 

34 spin unlock irqrestore(&(sni)-^lock, flags); \ 
35 } 


如 果 在 队列 urb. list 中 找到 了 目标 设备 相同 ， 而 且 端 点 也 相同 的 urb 结构 ， 就 返回 指向 该 结构 的 指 
针 ， 省 则 返回 NULL。… 般 而 言 ， 如 果 已 经 存在 对 同一 目标 的 同 种 传输 ， 就 应 该 措 绝 调度 新 的 传输 请 
求 ， 让 高 层 的 软件 决定 是 否 稍 后 再 来 试 试 。 其 实 ， 控 制 传输 都 是 很 短暂 的 ， 并 且 启 动 控制 传输 的 进程 
要 睡眠 等 待 其 完成 ， 所 以 发 生 这 种 情况 的 可 能 性 本 来 就 很 小 。 但 是 ， 对 于 成 块 传输 则 情况 有 所 不 同 ， 
所 以 允许 将 新 的 传输 与 已 经 存在 的 传输 合并 ， 但 是 必须 将 对 同一 对 象 的 传输 “ 串 行 化 ”， 就 是 把 它们 的 
交互 依次 连接 在 同一 个 队列 中 。 这 样 ， 不 管 是 横向 执行 还 是 纵向 执行 都 能 保证 正确 的 次 序 。 

除 urb 数据 结构 以 外 ， 还 需要 有 个 urb priv 数据 结构 与 其 配合 使 用 。 这 种 数据 结构 定义 十 
drivers/usb/uhci.h: 


337 struct urb priv { 


338 struct urb *urb; 

339 

340 struct uhci qh *qh; /* QH for this URB */ 

34] 

342 int fsbr : 1; /* URB turned on FSBR */ 

343 int fsbr timeout : 1; /* URB timed out on FSBR */ 

344 int queued : 1; /* QH was queued (not linked in) */ 

345 int short control packet : 1;  /* If we get a short packet during */ 
346 /* a control transfer, retrigger */ 

347 /* the status phase */ 

348 

349 unsigned long inserttime; /* In jiffies */ 

350 

351 struct list head list; 

352 

353 struct list head urb queue list; /* URB's linked together */ 
354 }; 


函数 uhci_alloc_urb_priv( ) 的 代码 在 drivers/usb/uhci.c 中 : 


[usb, control msg( ) > usb, internal control msg( ) > usb_start_wait_urb( ) > usb submit, urb( ) 
> uhci submit urb( ) > uhci alloc, urb priv( )] 


480 struct urb priv *uhci  alloc urb, priv (struct urb *urb) 


481 Í 

482 struct urb priv *urbp; 

483 

484 urbp = kmem cache alloc(uhci up cachep, in interrupt( ) ? 


SLAB ATOMIC : SLAB KERNEL) ; 
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485 if (!urbp) 

486 return NULL; 

487 

488 memset((void *)urbp, 0, sizeof (*urbp)) ， 
489 

490 urbp~>inserttime = jiffies; 

491 urbp->urb = urb; 

492 

493 INIT LIST HEAD (&urbp->list) ; 

494 INIT,LIST HEAD(&urbp- urb queue list); 
495 

496 urb-^hepriv = urbp; 

497 

498 return urbp; 

499  ] 


下 面 的 操作 ， 就 取决 于 传输 的 类 型 ， 也 就 是 目标 端点 的 类 型 (1325 行 ) 了 。 我 们 先 结合 
usb control msg( ) 的 情景 看 控制 传输 的 调度 ， 以 后 还 村 再 回 过 来 看 其 他 几 种 传输 。 
控制 传输 是 通过 uhci submit control ) 调 度 和 实现 的 ， 其 代码 在 drivers/usb/uhci.c +: 


[ioctl_scanner( ) > usb control msg( ) > usb internal control msg( ) > usb start, wait, urb( ) 
> usb submit urb( ) > uhci submit urb( ) > uhci submit. control( )) 


633 /* 

634 * Control transfers 

635 */ 

636 static int uhci submit control(struct urb *urb) 

637 d 

638 struct urb priv *urbp = (struct urb priv *)urb->hepriv: 

639 struct uhci *uhci = (struct uhci *)urb-^dev-»bus-^hoepriv; 

640 struct uhci td *td; 

641 struct uhci qh *qh; 

642 unsigned long destination, status; 

643 int maxsze = usb maxpacket(urb-^dev, urb->pipe, usb_pipeout (urb->pipe)): 

644 int len = urb-^transfer buffer length; 

645 unsigned char *data = urb-^transfer buffer; 

646 

647 /* The “pipe” thing contains the destination in bits 8--18 */ 

648 destination = (urb->pipe & PIPE DEVEP MASK) | USB PID SETUP; 

649 | 
650 /* 3 errors */ | 
651 status = (urb->pipe & TD CTRL LS) | TD CTRL ACTIVE | (3 << 27); 
652 | 
653 /* 

654 * Build the TD for the control request 

655 */ 

656 td = uhci alloc td(urb-^dev); 
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if (!td) 


return —ENOMEM; 


uhci add td to urb(urb, td); 
uhci fill td(td, status, destination | (7 << 21), 


/* 


virt_to_bus(urb—setup packet)) ; 


* If direction is “send”, change the frame from SETUP (0x2D) 
* to OUT (OxE1). Else change it from SETUP to IN (0x69) 


*/ 


destination “= (USB PID SETUP ^ usb_packetid(urb->pipe)) ; 


if (! (urb->transfer_flags & USB DISABLE SPD)) 


/* 


status |- TD CTRL SPD; 


* Build the DATA TD' s 


*/ 


while (len > 0) { 


j 


/* 


int pktsze = len; 


if (pktsze > maxsze) 
pktsze = maxsze; 


td = uhci_alloc_td(urb->dev) ; 
if (!td) 
return -ENOMEM; 


/* Alternate Data0/1 (start with Datal) */ 
destination = 1 «€ TD TOKEN TOGGLE; 


uhci_add_td_to_urb(urb, td); 
uhci fill td(td, status, destination | ((pktsze - 1) << 21), 
virt to bus(data)) ; 


data *- pktsze; 
len -= pktsze; 


* Build the final TD for control status 


*/ 


td = uhci alloc td(urb->dev) ; 
if (!tLd) 


/* 


return —ENOMEM; 
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705 * Tt's IN if the pipe is an output pipe or we're not expecting 
706 * data back 

707 */ 

708 destination & ~TD_PID; 

709 if (usb_pipeout (urb->pipe) || lurb-^transfer buffer length) 
110 destination |- USB PID IN; 

711 else 

712 destination |= USB_PID OUT: 

713 

714 destination |= 1 << TD TOKEN TOGGLE; /* End in Datal */ 
715 

716 status &- ^TD CTRL SPD: 

717 

718 uhci add td to urb(urb, td); 

719 uhci fill td(td, status | TD CTRL IOC, 

720 destination | (UHCI NULL DATA SIZE << 2D, 0); 

721 

722 gh = uhei alloc qh(urb-^dev); 

123 if (!qh) 

724 return -ENOMEM; 

125 

126 /* Low speed or small transfers gets a different queue and treatment */ 
727 if (urb-»pipe & TD CTRL LS) { 

728 uhci insert tds in gh(qh, urb, 0); 

129 uhei insert qh(uhci, &uhci-^skel ls control qh, gh); 
730 } eise { 

731 uhci_insert_tds_in_qh(qh, urb, 1); 

732 uhci insert gh(uhci, &uhci-^skel hs control gh, gh); 
733 uhci inc fsbr(uhci, urb); 

734 } 

735 

736 urbp->qh = qh; 

137 

738 uhci_add_urb_list(uhci, urb); 

739 

740 return -EINPROGRESS; 

741 } 


-次 控制 传输 至 少 要 由 两 个 交 三 完成 。 第 一 个 父 互 是 由 主机 通过 USB 总 线 控 制 器 向 目标 设备 的 控 
制 端点 发 送 一 个 SETUP 报 文 ， 这 就 是 所 谓 的 SETUP 阶段 。 然 后 ， 根 据 需 要 传输 的 数据 量 大 小 而 有 一 
个 或 儿 个 数据 交互 ， 每 个 交互 传递 一 个 DATA 报 文 ， 传 递 的 方向 既 可 以 是 输出 也 可 以 是 和 输入， 这 就 是 
数据 阶段 。 不 过 ， 如 果 没 有 数据 就 不 需要 传送 DATA 报 文 。 最 后 ， 还 要 有 … :个 状态 交互 ， 让 DATA R 
文 的 接收 者 向 对 方 发 送 一 个 状态 报 文 ， 确认 对 SETUP 报 文 或 DATA 报 文 的 接收 ， 这 就 是 状态 阶段 。 这 
RE. 最少 是 两 个 交互 ， 遂 常 则 是 三 个 交互 。 交 鼎 是 USB 控制 器 的 执行 单位 。 每 个 交互 都 由 一 个 uhci_td 
数据 结构 代表 ， 我 们 已 经 在 前 面 看 到 过 uhci td 数据 结构 的 定义 。 如 前 所 述 ，uhci_td 数据 结构 中 的 前 4 
个 32 位 长 字 是 为 USB 控制 器 的 硬件 准备 的 ， 实 际 上 相当 于 4 个 寄存 器 ， 作 用 分 别 如 下 : 
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HH, SETUP 信和 包 的 实际 长 度 为 8 个 学 节 〈7 十 1)。 


结构 ，urb->setup_packet 就 指向 这 个 结构 。 
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(1) link。 相 当 于 “链接 寄存 器 ” 其 高 28 位 后 面 洪 上 4 位 0 成 为 一 个 指针 ， 指 向 下 一 个 uhci td 
结构 或 uhci_qh 结构 的 物理 地 址 。 其 低 4 位 则 为 标志 位 ， 其 中 bito 为 1 表示 链接 的 终结 ，bitl 
为 1 表示 指针 所 指 为 队列 头 ， 即 uhci_qh 结构 ， 否 则 为 uhci td 结构 。 至 于 bit2， 则 为 1 时 表 


示 纵 向 执行 ， 为 0 时 表示 横向 执行 。 


(2) status。 相 当 于 “控制 /状态 寄存 器 ”。 其 中 的 TD_CTRL_ACTIVE 状态 位 起 着 特殊 的 作用 ， 为 
1 时 表示 等 待 执 行 ， 为 0 时 则 表示 已 经 执行 。 此 外 ， 寄 存 器 中 还 有 个 重 发 次 数位 段 ， 表 示 在 
出 错 的 情况 下 允许 重 发 凡 次 。 代 码 中 〈651 行 ) 把 重 发 次 数 设 置 成 3。 USB 控制 器 在 每 一 次 
出 错 重 发 时 都 把 这 个 计数 减 1， 如 果 达 到 了 OIA ARAM 

(3) info。 相 当 于 “命令 寄存 器 ”% 其 内 容 包括 传输 的 类 型 及 目标 ， 实 际 上 就 是 token 信人 包 的 主体 。 

(4) buffer。 相 当 于 “缓冲 区 地 址 寄存 器 ”， 指 向 发 送 /接收 数据 的 缓冲 区 。 

每 个 信和 包 的 头 部 都 包含 着 一 个 8 位 的 “信和 包 标 识 码 ”PID， 表 明 具 体 信和 包 的 类 型 。SETUP 信和 包 的 

PID 就 是 USB. PID SETUP, 5 X F include/linux/usb.h: 


/* 


* USB Packet TDs (PIDs) 


*/ 
define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 


USB PTD OUT 
USB PTD ACK 
USB PID DATAO 
USB PID PING 
USB PID SOF 
USB PID NYET 
USB PID DATA2 
USB PID SPLIT 
USB PID IN 
USB PID NAK 
USB PID DATAI 





USB PID PREAMBLE 


USB PID ERR 

USB PID SETUP 
USB PID STALL 
USB PID MDATA 


USB PTD UÜNDEF 0 


OxfO 

Oxel 

Oxd2 

Oxc3 

Oxb4 /* USB 2.0 x/ 
0xab 

0x96 /* USB 2.0 x/ 
0x87 /* USB 2.0 */ 
0x78 /* USB 2.0 */ 
0x69 

0x5a 

Ox4b 

Ox3c /* Token mode */ 
Ox3c /* USB 2.0: handshake mode */ 
Ox2d 

Oxle 

OxOf /* USB 2.0 */ 


tee SOK USB 的 规格 书 ， 其 中 有 些 是 为 USB 2.0 定义 的 。 

代码 中 先 为 SETUP 交互 分 配 一 个 uhci_td 数据 结构 (656 行 )， 同 时 还 要 为 报 文 准备 下 destination 
和 status 两 个 32 位 字段 。 前 者 用 于 “命令 寄存 器 ” 其 内 容 就 是 token 信人 包 的 主体 ， 包 含 着 父 吉 对象 的 
地 址 和 端点 号 ， 还 有 SETUP IAH] PID, Hl USB_PID_SETUP。 此 外 ， 信 和 包 的 长 度 也 组 装 在 这 个 长 字 


对 十 SETUP 交互 ， 要 发 送 的 报 文 是 对 目标 设备 的 操作 命令 ， 这 就 是 前 面 准备 好 的 devrequest 数据 


如 上 所 述 , “控制 /状态 寄存 器 ”中 的 TD_CTRL_ACTIVE 状态 位 起 着 特殊 的 作用 ， 驱 动 软件 在 调 
HE 个 交互 请 求 时 将 这 一 位 设 成 1， 表示 这 是 个 待 执 行 的 “活跃 ”交互 ， 而 USB 控制 器 ， 则 在 完成 了 
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该 次 余 互 以 后 《或 成 功 ， 或 彻底 失败 ) 就 将 这 位 改 成 0。 这 样 ， 驶 动 软件 只 些 扫描 各 个 uhci_td 数据 
结构 ， 发 现 某 个 uhci_td 数据 结构 的 TD_CTRL_ACTIVE 位 痰 成 了 0， 就 说 明 这 个 父 互 已 经 完成 。 

4r B Y —^" uhci td 数据 结构 以 后 , 就 通过 uhei_add_td_to_urb( ) 把 它 链 入 urb_priv 结构 中 的 交互 描 
述 块 队 列 C660 行 )， 并 通过 inline FRA uhci, fill. td( ) 设 置 uhci_td 结构 中 的 儿 个 重要 字段 ( 见 前 )。 这 
样 ， 就 相当 于 设置 好 了 USB 控制 器 的 4 个 寄存 内 。 数 据 信和 包 的 内 容 米 白 缓冲 区 urb->setup_packet， 交 
互 描述 块 中 的 字段 buffer 设置 成 缓冲 区 的 物理 地 址 ， 在 发 送 数 据 信人 包 时 ，USB 控制 器 就 通过 DMA 从 
这 个 缓冲 区 中 读 取 数据 。 准 备 好 了 个 交互 请 求 ， 鳄 通过 uhci add td to urb( )， 将 其 挂 入 传输 请 求 即 


urb 结构 内 的 队列 中 实际 上 龙 在 urb. priv 结构 内 )。 这 个 明 数 的 代码 在 drivers/usb/uhci.c H: 


[ioctl scanner( ) > usb control msg( ) > usb, internal control, msg( ) > usb_start_wait_urb( ) 
> usb_submit_urb( ) uhci submit urb() > uhci submit, controK ) > uhci. add td to. urb( )] 


501 static void uhci add td to urb(struct urb *urb, struct uhci td *td) 
502 { 


503 struct urb priv *urbp - (struct urb priv *)urb >hepriv; 
504 

505 td->urb = urb; 

506 

507 list_add_tail (&td->list, &urbp >list); 

508 } 


至 此 , 己 经 为 控制 传输 的 第 一 阶段 ， 即 SETUP 阶段 准备 好 了 震 要 传输 的 报 文 。USB 控制 器 在 执行 
时 将 首先 通过 token 信和 包 在 USB 总 线 上 发 布 一 个 通告 ， 说 明 传 输 的 类 型 (控制 )、 人 交互 的 对 象 (扫描 髓 的 
控制 端点 )、 信 和 包 的 种 类 (SETUP)。 然 后 ， 就 会 把 前 面 准 备 好 的 devrequest 数据 结构 作为 SETUP RE, 
到 第 一 阶段 的 数据 发 送出 去 。 这 个 信和 包 的 内 容 告 诉 扫描 器 想 浊 干什么 ， 例 如 对 扫描 器 内 的 哪 一 个 寄存 
器 进行 何 种 操作 。 由 寸 具体 的 寄存 内 是 册 扫描 器 的 制造 高 定义 的 ， 这 些 内 容 对 于 USB 总 线 是 透明 的 。 
而 扫描 器 ， 则 在 接收 到 这 个 SETUP FEJERE 个 ACK 信和 包 加 以 确认 。 

如 果 所 要求 的 操作 需要 有 附加 的 数据 传递 ， 使 有 DATA 报 文 要 传送 ， 但 是 其 类 型 不 再 是 
USB PID SETUP, iff & USB PID IN sk USB_PID_ OUT 了 。 所 以 一 方面 把 destination. 中 的 
USB_PID_SETUP 去 除 ， 另 一 方面 根据 所 用 的 管道 确定 是 USB_PID_IN 还 是 USB_PID_OUT。 这 里 的 
宏 操 作 usb. packetid( ) 定 义 寺 include/linux/usb.h: 


706 #define usb packetid(pipe) (((pipe) & USB DIR IN) ? USB PID IN : USB PID OUT) 


在 SETUP 报 文 以 后 有 几 个 DATA 信和 包 取 决 丁 数据 量 和 允许 的 信和 包 大 小 。 当 有 和 多 个 DATA fii mE 
传送 时 ， 需 要 给 每 个 信和 包 编 上 序号 ， 使 接收 方 能 知道 是 否 丢 失 了 信 包 。 为 此 里 的， 在 DATA 信和 包 的 头 
部 采用 了 “个 “ 进 制 位 作为 序号 ， 其 位 置 为 TD_TOKEN_TOGGLE， 科 (调度 ) 发 送 一 个 信和 包 就 将 这 
一 位 翻转 一 次 (687)， 使 序号 为 0 与 为 1 的 DATA 信和 包 相 间 。 因 此 ，DATA 信和 包 又 可 以 分 成 DATAO 和 
DATAI 两 种 。 如 果 接 收 方 连续 收 到 两 个 序号 相同 的 依 包 ， 就 知道 一 定 是 玉 失 了 (tu. uA RE 
E Y ERARILE RK Tia EKA Tm I. 

Ade YR “ARAN” tatus) Hs. BRA RIE MAUR. HA, Une fete REB) 
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是 输出 ， 那 么 确认 信和 包 就 应 该 由 设备 向 主机 发 送 ， 所 以 对 主机 而 言 是 USB_PID_IN。 或 者 ， 如 果 根 本 
就 没有 数据 信和 包 ， 闭 也 应 该 是 USB PID IN; 否则 就 是 USB_PID_OUT。 此 外 ， 亿 认 信 息 的 序号 总 是 1 
(714 行 )， 没 有 数据 部 分 〈720 行 )， 也 不 需要 检测 信和 包 的 长 度 。 由 于 状态 交互 是 控制 传输 中 的 最 后 一 
个 交互 ， 这 里 (719 行 ) 还 把 标志 位 TD. CTRL. IOC 设 成 1,， 表示 这 个 交互 完成 后 要 向 CPU 发 出 -个 中 断 
请 求 。 注 意 不 要 将 状态 交互 与 握手 信和 包 柑 混淆 ， 状 态 人 交互 同样 包括 传令 、 数 据 和 和 握 下 三 个 信和 包 的 传递 。 

这 样 ， 一 个 传输 的 所 有 交互 描述 块 就 都 扶 入 了 urb 数据 结构 内 的 队列 中 。 可 十， 这 并 不 是 最 终 的 
Hag, BAH IKEA USB 总 线 的 调度 队 询 中 。 可 起 ， 这 里 有 个 问题 。USB MERI UA EBA I LE ft 
USB 控制 器 硬件 在 “执行 ”时 使 用 的 ， 链 接 指针 必须 采用 物理 地 址 。 可 是 ， 采 用 了 物理 地 址 ，CPU 就 
不 能 顺 着 链接 指针 依次 访问 队列 中 的 各 个 成 分 了 。 反 过 来 ， 如 果 要 考虑 CPU 的 访问 以 及 队列 操作 ， 就 
要 采用 虚拟 地 址 ， 而 若 采 用 了 虚拟 地 址 ，USB Pea Ste PRA REM HER RKTT. THA SS 
能 DMA ”功能 的 设备 ， 这 是 个 其 同 的 问题 。 解 决 的 办 法 是 让 采用 虚拟 地 址 和 物理 地 址 的 链接 手段 在 数 
据 结 构 中 同时 并 存 。 所 以 ， 在 uhei td 数据 结构 的 设计 中 就 考虑 到 了 这 两 方面 的 需要 。 里 向 妹 有 常规 的 
(虚拟 地 址 ) 队 列 头 list, ib CPU 可 以 对 uhci td 数据 结构 进行 常规 的 队列 操作 ， 又 有 人 懂 件 所 需 的 物理 地 
址 指针 link。 前 面 的 uhei_add_td_to_urb( ) 已 经 将 所 有 的 uhci_td 数据 结构 通过 它们 的 队列 头 list 连 成 了 
常规 的 队列 ， 下 面 就 要 再 将 这 些 uhci_td 数据 结构 通过 物理 地 址 指针 link 链接 起 来 。 另 一 方面 ， 控 制 伟 
输 是 作为 一 个 整体 ， 即 以 uhei_gh 数据 结构 为 队列 头 的 交互 描述 块 队列 挂 入 调度 系统 的 , PAs Be 
uhci alloc gh( ) 为 之 分 配 一 个 uhci_qh 数据 结构 作为 队列 头 部 。 其 代 但 见 drivers/usb/uhci.c. 





[usb. control msg( ) > usb, internal. control msg( ) > usb. start wait urb( ) > usb submit urb( ) 
> uhci submit, urb( ) > uhci submit, control( ) > uhci_alloc_gh( yl 


302 static struct uhci qh *uhci_alloc_gh(struct usb device *dev) 
303 { 


304 struct uhci_gh *qh; 

305 

306 gh = kmem_cache_alloc(uhci_qh_cachep, in interrupt( ) ? 
SLAB ATOMIC : SLAB KERNEL); 

307 if (lah) 

308 return NULL; 

309 

310 qgh->element = UHCI PTR, TERM; 

31] gh-^link = UHCI PTR TERM; 

312 

313 qh->dev = dev; 

314 qh->prevqh = qh-^nextqh = NULL; 

315 

316 INIT. LIST IIEAD(&qh-^remove list); 

317 

318 usb inc dev use(dev); 

319 

320 return qh; 

321 ) 
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然后 ， 就 要 看 对 方 是 低速 设备 还 是 全 速 设备 了 ， 因 为 二 沽 在 uhei 数据 结构 中 有 不 同 的 控制 交互 队 
列 。 不 过 ， 二 者 的 操作 基本 上 是 相同 的 ， 我 们 在 这 里 只 是 看 全 速 设备 的 情景 。 首 先 ， 通 过 
uhci_insert_tds_in_qh( ) 将 所 有 的 uhci td 数据 结构 通过 物理 地 址 链接 成 一 个 队列 , 而 上 面 分 配 的 uhci_qh 
数据 结构 就 是 队列 的 水 。 这 个 水 数 的 代 介 在 drivers/usb/uhci.c "P: 


[usb_control_msg( ) > usb_internal_control_msg( ) > usb_start_wait_urb( ) > usb_submit_urb( ) 
> uhci submit, urb( ) > uhci_submit_control( ) > uhci insert tds in gh( )] 


252 /* 
253 * Inserts a td into gh list at the top. 
254 +/ 


255 static void uhci_insert_tds_in_gh(struct uhci gh *qh, struct urb *urb, 
int breadth) 


256 { 

257 struct list_head *tmp, *head; 

258 struct urb priv *urbp = (struct urb priv *)urb->hepriv;: 
259 struct uhci td *td, *prevtd; 

260 

261 if (!urbp) 

262 return; 

263 

264 head = &urbp->list; 

265 tmp - head->next; 

266 if (head == tmp) 

267 return; 

268 

269 td = list_entry(tmp, struct uhci_td, list); 

270 

271 /* Add the first TD to the QH element pointer */ 
272 gh- element = virt to bus(td) | (breadth 2 0 : UHCI PTR DEPTH); 
273 

274 prevtd = td: 

275 

276 /* Then link the rest of the TD's */ 

277 tmp = tmp-?next; 

218 while (tmp != head) { 

219 td - list entry(tmp, struct uhci td, list); 
280 

281 tmp = tmp-»next; 

282 

283 prevtd->link = virt to bus(td) | (breadth ? 0 : UHCI PTR DEPTH); 
284 

285 prevtd - td; 

286 ) 

281 

288 prevtd->link = UHCI PTR TERM; 

289 } 
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在 uhci_qh 结构 中 有 两 个 采用 物理 地 址 的 指针 。 一 个 是 link, 用 于 队列 之 间 的 链接 ， 称 为 横向 链接 ; 
另 一 个 则 是 element， 指 向 本 队列 中 的 第 一 个 uhci td 结构 ， 这 是 纵向 链接 。 从 代码 中 可 见 ， 首 先 将 队 
列 头 的 指针 element 设 置 成 第 一 个 uhci_td 结构 的 物理 地 址 ,然后 就 依次 使 各 个 uhci_td 结构 中 的 指针 link 
设置 成 下 一 个 uhci td 结构 的 物理 地 址 。 不 过 ， 无 论 是 uhci_qh 结构 还 是 uhci_td 结构 的 地 址 都 是 与 16 
字 节 边界 对 齐 的 ， 所 以 这 些 指针 中 的 低 4 位 都 可 以 用 作 控 制 位 。drivers/usb/usb-uhei.h 中 定义 了 这 些 控 
制 位 ; 


72 #define UHCI_PTR_BITS 0x000F 
73 #define UHCI PTR TERM 0x0001 
74 #define UHCI PTR QH 0x0002 
75 #define UHCI PTR DEPTH 0x0004 


其 中 之 一 就 是 UHCL PTR DEPTH, EXA 4, Bf bit2。 当 这 个 控制 位 为 1 时 ， 表 示 USB 控制 器 在 
执行 时 应 该 深度 优先 , 即 纵 向 执行 ; 否则 即 为 宽度 优先 , 即 横向 执行 .所 以 , 对 于 低速 设备 因 参 数 breadth 
为 0 而 纵向 执行 ， 对 全 速 设备 则 参数 breadth 为 1 而 横向 执行 。 此 外 ， 队 列 中 最 后 一 个 uhci td 结构 的 
指针 link 设置 成 UHCI_PTR_TERM， 就 是 地 址 为 0， 而 最 低位 ( 称 为 “T” 位 ) 为 1， 表 示 队 列 已 经 到 了 
未 尾 。 还 有 一 位 ， 即 UHCI_PTR_QH， 则 表示 所 指向 的 是 uhci_qh 结构 还 是 uhci td 结构 。 

我 们 已 经 建立 起 了 - -个 以 uhci_qh 结构 为 头 、 通 过 物理 地 址 链接 的 uhci_td 结构 队列 ， 但 这 只 是 个 
游离 于 USB 总 线 调 度 系统 以 外 的 队列 ， 下 一 步 要 通过 uhci_insert_qh( ) 把 这 个 队列 插入 USB 总 线 调度 
系统 的 队列 。 对 于 全 速 设备 就 是 插 在 uhci->skel_hs_control_qh 中 ， 其 代码 见 drivers/usb/uhci.c: 


[usb. control, msg( ) > usb_internal_control_msg( ) > usb start wait urb() usb submit urb( ) 
> uhci, submit, urb( ) > uhci, submit, control( ) > uhci. insert. gh( )] 


331 static void uhci insert gh(struct uhci *uhci, struct uhci qh *skelqh, 
struct uhci gh *qh) 


332 { 

333 unsigned long flags; 

334 

335 spin. lock irqsave(&uhci-^framelist lock, flags); 
336 

337 /* Fix the linked list pointers */ 

338 qh-^nextgh = skelqh—>nextgqh; 

339 qh-^prevqh = skelqh; 

340 if (skelgh-^nextqh) 

341 skelqh->nextqh->prevgh = qh; 

342 skelqh->nextqh = qh; 

343 

344 gh->link = skelqh~>link; 

345 skelqh—->link = virt to bus(gh) | UHCI PTR QH; 
346 

347 spin unlock irqrestore(&uhci-^framelist lock, flags); 
348  ] 


- 523 . 


Linux A EU (CTS HET ChAD 

参数 skelqh 指向 USB 总 线 调 度 系统 中 的 -个 节点 ， 这 个 节点 本 身 也 在 一 个 队列 中 ， 而 挂 入 这 个 节 
点 的 数据 结构 又 是 队列 头 ， 即 代表 着 整个 控制 传输 的 交 开 请 求 队列 。 所 以 ， 节 点 skelqh 所 在 的 队列 是 
一 个 队列 的 队列 ， 因 此 称 之 为 “骨架 ”(skeleton)。USB 的 调度 系统 中 有 了 两 个 骨架 ， 一 个 是 中 断交 互 请 
求 队列 的 骨架 ， 另 .个 就 是 控制 (以 及 成 块 ) 传 输 请 求 队列 的 骨架 。 另 一 个 参数 qh， 则 指向 为 具体 传输 
请 求 建立 起 米 的 交互 请 求 队列 。 同 样 ，uhci_qh 结构 也 与 USB 控制 器 硬件 的 操作 有 关 ， 所 以 也 是 既 有 
采用 虚拟 地 址 的 链接 指针 nextqh 和 prevqh， 也 有 采用 物理 地 址 的 链接 指针 link。 至 于 具体 的 队列 操作 ， 
对 于 读者 已 经 很 简单 了 。 这 样 ， 代 表 着 本 次 传输 的 队列 就 链 入 了 USB 总 线 的 调度 系统 中 。 

回 到 uhci submit, controK ) 的 代码 中 ， 对 于 全 速 设备 ， 由 于 是 横向 执行 ， 还 要 凋 用 一 个 函数 
uhci inc. fsbr( ), 使 uhci 结构 中 的 skel_term_qh, 即 skelqh[3] 的 指针 link, 指向 uhci-»skel hs control qh。 
其 代码 在 drivers/usb/uhci.c FP: 


[usb control msg( ) > usb internal control. msg( ) > usb start, wait, urb( ) > usb, submit urb( ) 
> uhci submit urb() > uhci submit control( ) > uhci, inc. fsbr( )] 


563 static void uhci inc fsbr(struct uhci *uhci, struct urb *urb) 
564 { 


565 unsigned long flags: 
566 struct urb priv *urbp = (struct urb priv *)urb->hepriv: 
567 
568 if (lurbp) 
569 return; 
510 
571 spin lock irgsave(&uhci—^framelist lock, flags); 
572 
573 if ((!(urb->transfer flags & USB NO FSBR)) && (lurbp->fsbr)) { 
574 urbp-^fsbr = 1; 
515 if (!uhci->fsbrt++) 
576 uhci-^skel term gh. link = 
virt to bus(&uhci-^skel hs control qh) | UHCI PTR QH: 
577 ) 
578 
519 spin unlock irqrestore(&uhci-^framelist lock, flags); 
580 } 


队列 头 skel_term_qh 是 整个 调度 系统 的 终点 ， 当 USB 控制 器 执行 到 skel term qh 时 ， 当 前 框架 的 
执行 本 来 已 经 结束 ， 可 以 等 待 下 一 个 框架 的 开始 了 。 吕 是 ， 全 速 设备 的 控制 交互 队列 是 横向 执行 的 ， 
每 次 只 从 队列 中 执行 一 个 交互 便 转 入 下 一 个 队列 , 所 以 很 可 能 一 方面 还 有 交 卫 在 等 待 执行 ， :方面 USB 
控制 器 却 已 经 空闲 。 既 然 如 此 ， 何 不 回 过 头 米 再 执行 全 速 设备 的 控制 传输 队列 ?在 前 面 alloc_uhci( ) 的 
代码 中 (2229 行 )，uhci 结构 中 的 成 块 传输 队列 头 skel_bulk_gh 的 指针 link 已 经 设置 成 指向 
uhci-»skel term qh; 就 是 说 ， 在 执行 完 优先 级 最 低 的 成 块 传输 队列 以 后 ， 如 果 本 框架 中 还 有 空闲 时 间 ， 
就 转 到 “终结 ”队列 头 skel_term_qh。 如 果 这 个 节点 是 终点 ， 那 么 本 框架 中 剩余 的 时 间 就 放弃 了 ，USB 
控制 器 在 这 段 时 间 中 “空转 ”等 待 下 一 个 框架 的 开始 。 但 是 ， 如 果 让 skel_term_qh 回 过 头 米 链接 到 
skel_hs_control_qh， 则 可 以 在 剩余 的 时 间 中 再 向 过 来 执行 控制 传输 队列 ， 直 至 框架 中 剩 下 的 时 间 凯 不 
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足以 完成 一 次 交互 时 为 止 。 当 然 ， 这 只 有 人 在 存在 着 采用 横向 执行 的 控制 传输 时 才 有 意义 。 这 里 函数 名 
(以 及 字段 名 ) 中 的 “fsbr” 表 示 “ 全 速 设备 带宽 回收 ”(Full Speed Bandwidth Reclamation)。 如 果 一 个 
(全 速 设备 的 ) 传输 请 求 没有 明确 表示 不 要 FSBR， 就 将 其 fsbr 字段 设 成 1， 并 使 uhei 结构 中 的 计数 器 
fsbr 加 1， 表 示 这 个 机 制 多 了 一 :个 用 户 。 如 有 果 原 来 这 个 计数 器 是 0 就 将 skel_term_qh 反 过 来 链接 到 
skel_hs_control_qh. 

最 后 ， 通 过 uhci_add_urb list( ) 把 urb 结构 链 入 uhci 结构 的 urb_list。 

至 此 ，uhci_submit_control( ) 的 操作 已 经 完成 ，CPU 经 uhci_submit_urb( ) 返 回 到 usb_submit_urb( )， 
并 进而 返回 到 usb. start. wait urb( ) 的 代 但 中 ， 在 那里 进入 睡眠 (1019 fT). 

如 前 所 述 ，USB 控制 器 在 每 个 时 间 框 锅 中 都 从 等 时 交 开 队列 开始 执行 ， 然 后 是 中 断 父 苷 。 这 两 种 
周期 性 传输 ( 交 卫 ) 所 占 的 时 间 合 在 一 起 不 超过 一 个 框架 的 90%, 所 以 在 执行 完 中 断交 互 以 后 总 是 还 有 有 一 
些 时 间 可 以 用 来 执行 控制 传输 ， 然 后 才 征 成 块 传输 。 

具体 执行 时 ，USB 控制 器 因 交 互 请 求 链 入 队列 的 方式 有 有 不 同 的 处 理 。 我 们 在 前 而 看 到 , 控制 (以 
及 成 块 ) 交互 描述 块 总 是 在 其 所 属 传输 的 队列 中 《〈 指 采用 物理 地 址 的 队列 ， 下 同 )， 都 有 个 队列 描述 块 
(uhci qh 结构 )。 我 们 称 这 样 的 队列 为 有 头 队列 ， 并 称 有 头 队列 内 的 交互 请 求 是 处 于 一 个 “ 队 询 上 下 又 ” 
th, USB 控制 器 在 其 内 部 维持 一 个 执行 堆栈 ， 每 碰 到 个 队列 描述 甘 就 知道 进入 了 一 个 新 的 队列 上 下 
文 ， 离 开 该 队列 时 就 回 到 了 此 前 的 上 下 文 。 相 比 之 下 ， 等 时 交互 的 队 放 是 没有 队列 头 的 ， 中 断交 互 的 
队列 也 没有 队列 类， 所 以 等 时 交互 和 中 断交 鼠 都 不 在 队列 上 下 文中 。 对 于 在 队列 上 下 文中 的 交互 (请 
Jo, USB 控制 器 在 每 执行 完 “个 交互 以 后 就 自动 改变 队列 头 中 的 指针 element， 使 其 “推进 ”指向 队 
列 中 的 下 .个 交互 。 从 而 ， 斋 来 在 队列 最 前 而 的 交互 ， 就 是 刚 执 行 完毕 的 交互， 就 从 队列 中 脱离 了 出 
X. Bibl, USB 控制 器 在 队列 上 下 文中 总 是 执行 由 指针 element 所 指 的 交互 ， 称 为 队列 的 “项 部 ”。 相 
EZF, WR USB 控制 器 不 在 队列 上 下 文中 执行 ， 则 在 完成 一 个 人 交 占 以 后 并 个 “推进 ”指针 《实际 上 
也 没有 指针 可 以 推进 )， 而 只 是 顺 着 链接 指针 执行 队列 中 的 下 一个 交互 。 因 此 ， 在 这 种 情况 下 并 不 将 忆 
经 执行 的 交互 从 队列 中 脱 链 。 可 想 而 知 ， 这 些 交互 请 求 还 留 在 队列 中 ， 在 下 一 轮 御 环 中 《1 秒 钟 以 后 ) 
还 会 得 到 执行 ， 这 就 保 让 了 等 时 交互 和 中 断交 互 的 周期 性 。 

这 里 要 注意 ,“ 完 成 ”当前 交互、 从 而 将 交互 请 求 中 的 TD CTRL ACTIVE 标志 位 改 成 0， 并 在 队 
列 上 让 文中 推进 指针 ， 跟 结束 当前 交互 的 执行 (从 而 开始 另 一 个 交互 的 执行 或 开始 空转 )， 是 不 同 的 概 
念 。 所 谓 完 成 一 个 交互 是 指 : 完成 了 数据 的 传递 并 得 到 确认 〈 如 果 是 输出 交互 )， 或 者 连续 发 生 超 时 或 
其 他 出 错 ， 使 得 继续 重 发 已 经 失去 意义 。 此 时 USB 控制 只 将 当前 交互 请 求 的 TD_CTRL_ACTIVE 慰 志 
位 清 成 0, 并 开始 执行 队 你 中 的 下 一 个 交互 请 求 或 转 入 下 一 个 队列 , 如果 是 在 队列 上 下 文中 则 还 要 推进 
$ 针 。 而 结束 当前 交互 的 执行 ， 和 开始 下 个 交互 请 求 或 下 个 队列 的 执行 ， 则 并 不 取决 丁当 前 交互 的 
完成 。 例 如 ， 如 果 对 方 发 回 一 个 NAK 表示 困 时 不 能 完成 所 缆 求 的 传输 (如 果 发 生 在 SETUP 交互 中 则 
相当 十 一 次 超时 出 错 )， 或 者 因为 得 不 到 对 方 的 响应 而 超时 ， 或 者 传递 的 过 程 中 出 了 错 《 如 CRC 校 验 
出 错 )， 则 虽然 当前 的 交 王 并 林 完 成 ， 但 是 对 这 个 交互 的 木 次 执行 也 结束 了 。 不 同 的 是 ， 此 时 不 把 它 的 
TD CTRL ACTIVE 标志 位 清 0, 也 不 推进 指针 , 如果 是 因 出 错 而 结束 则 还 要 把 它 的 允许 年 发 次 数 减 1。 
这 样 ， 当 USB 控制 器 下 次 执行 到 同 - -队列 、 同 一 交 王 请 求 时 义 会 再 执行 次 。 

此 外 ， 和 在 开始 执行 一 个 交 电 之 前 ，USB 控制 器 先 要 判断 是 否 能 在 本 框 保 内 结束 这 个 交互 ， 如 果 本 
框架 中 剩 下 的 时 间 己 经 不 够 则 宁可 空转 ， 等 下 EAR 

控制 传输 的 最 后 个 交互 是 状态 交互 。 由 十 这 个 交互 的 TD CTRL IOC 标志 位 为 1，USB 控制 器 
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在 这 个 交互 所 在 的 框架 结束 时 就 向 CPU 发 出 一 次 中 断 请 求 。 对 于 UHCI 接口 ，USB 总 线 的 中 断 服务 程 
序 为 uhci_interrupt( )， 其 代码 在 drivers/usb/uhci.c 中 ， 


2023 static void uhci interrupt(int irq, void *  uhci, struct pt regs *regs) 
2024 { 


2025 struct uhci *uhci = . uhci; 
2026 unsigned int io addr = uhci->io addr; 
2027 unsigned short status; 
2028 unsigned long flags; 
2029 struct list head *tmp, *head; 
2030 
2031 /* 
2032 * Read the interrupt status, and write it back to clear the 
2033 * interrupt cause 
2034 */ 
2035 status = inw(io addr + USBSTS) ; 
2036 if (!status) /* shared interrupt, not mine */ 
2037 return; 
2038 outw(status, io addr + USBSTS) ; 
2039 
2040 if (status & ~(USBSTS USBINT | USBSTS ERROR) { 
2041 if (status & USBSTS RD) 
2042 printk(KERN INFO “uhci: resume detected, not implemented\n’): 
2043 if (status & USBSTS HSE) 
2044 printk(KERN ERR ^uhci: host system error, PCI problems?\n’): 
2045 if (status & USBSTS HCPE) 
2046 printk(KERN ERR 
^uhci: host controller process error. something bad happenedW"); 
2047 if (status & USBSTS HCH) { 
2048 printk(KERN ERR ^uhci: host controller halted. very badWn^); 
2049 /* FIXME: Reset the controller, fix the offending TD */ 
2050 ) 
2051 } 
2052 
2053 uhci free pending qhs(uhci); 
2054 
2055 spin lock(&uhci-^urb remove lock); 
2056 head = &uhci-^urb remove list; 
2057 tmp = head—next; 
2058 while (tmp != head) { 
2059 struct urb *urb = list entry(tmp, struct urb, urb list); 
2060 
2061 tmp = tmp-?next; 
2062 
2063 list del(&urb-^urb list); 
2064 
2065 if (urb->complete) 
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二 一 


2066 
2067 
2068 
2069 
2070 
2071 
2072 
2073 
2074 
2075 
2076 
2077 
2078 
2079 
2080 
2081 
2082 
2083 
2084 
2085 


} 


urb-»complete (urb) ; 


) 


spin unlock (&uhci-^urb remove lock); 
uhci clear next interrupt (uhci) ; 


/* Walk the list of pending TD's to see which ones completed */ 
nested lock(&uhci-^»urblist lock, flags); 
head = &uhci-^urb list; 
tmp = head->next; 
while (tmp != head) { 
struct urb *urb = list entry(tmp, struct urb, urb list); 


tmp = tmp-?next; 


/* Checks the status and does all of the magic necessary */ 
uhci transfer result (urb); 

) 

nested unlock (&uhci—>urblist_lock, flags); 


首先 读 出 USB 控制 器 的 中 断 状态 寄存 器 ， 并 将 读 出 的 内 容 写 回 该 寄存器， 这 是 典型 的 操作 。 我 们 


先 把 2053 行 至 2069 行 的 代码 暂 摘 一 下 ， 以 后 再 回 过 米 看 。 现 在 先 看 下 面 。 


前 面 讲 过 ，USB 控制 器 在 执行 中 只 要 碰 旬 一 个 交 扎 描述 块 的 TD_CTRL_IOC 标志 位 为 1， 就 会 在 


其 所 在 的 框架 结束 时 向 CPU 发 出 中 断 请 求 。 事 实 上， 即使 是 一 个 不 “活跃 ” 因而 不 需要 执行 的 交互 
描述 块 也 是 一 样 ，USB 控制 器 会 跳 过 这 个 交互 描述 块 ， 但 还 是 会 发 出 中 断 请 求 。 这 样 ， 只 要 将 
skel_term_td 的 TD_CTRL_IOC 标志 位 设 成 1， 就 实际 上 每 一 毫秒 就 会 中 断 一 次 。 现 在 既然 已 经 在 中 断 
服务 程序 中 ， 就 可 以 通过 uhci clear next interrupt( ) 把 这 个 中 断 源 暂 时 关闭 (drivers/usb/uhci.c)。 


[uhci interrupt( ) > uhci clear next interrupt( )] 


135 
136 
137 
138 
139 
140 
141 
142 
143 


void uhci clear next interrupt(struct uhci *uhci) 


{ 


unsigned long flags; 


spin lock irqsave(&ubci-^framelist lock, flags); 
uhci->skel term td.status &- “TD CTRL IOC; 
spin unlock irgrestore(&uhci-^framelist lock, flags); 


对 于 正常 完成 了 操作 的 交互 请 求 ，USB 控制 器 已 经 自动 将 其 从 通过 物理 地 址 链接 的 队列 中 摘除 ， 


因而 已 经 不 青 在 USB 总 线 的 调度 系统 中 。 但 是 , 这 些 数据 结构 还 在 相应 urb 结构 (确切 地 说 是 urb_priv 
结构 ) 中 通过 虚拟 地 址 链接 的 队列 中 ， 而 urb 结构 又 链接 在 相应 USB 总 线 的 urb list H. MERE 
描 这 个 urb 队列 ， 道 过 uhci_transfer_result( ) 将 其 中 已 经 完成 了 操作 的 传输 请 求 找 出 来 ， 并 从 队列 中 摘 
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除 ， 青 “ 回 叫 ” 预 先 为 这 些 传输 安排 好 的 善后 操作 。 这 个 函数 也 是 一 个 通用 的 函数 ， 不 仪 仪 是 为 控制 
交 吉 安排 的 ， 其 代 们 在 drivers/usb/uhci.c "P: 


[uhci_interrupt( ) > uhci transfer result( )] 


1379 /* 

1380 * Return the result of a transfer 

1381 * 

1382 * Must be called with urblist lock acquired 
1383 */ 

1384 static void uhci transfer result (struct urb *urb) 
1385 | 

1386 struct usb device *dev = urb-^dev; 

1387 struct urb *turb; 

1388 int proceed = 0, is ring = 0; 

1389 int ret = -EINVAL; 

1390 unsigned long flags; 

1391 

1392 spin lock irqsave(&urb-^lock, flags); 
1393 

1394 switch (usb_pipetype(urb->pipe)) { 

1395 case PIPE CONTROL: 

1396 ret = uhci result control(urb); 
1397 break; 

1398 case PIPE INTERRUPT: 

1399 ret = uhci result interrupt (urb); 
1400 break; 

1401 case PIPE BULK: 

1402 ret - uhci result bulk(urb); 

1403 break; 

1404 case PIPE ISOCHRONOUS : 

1405 ret - uhci result isochronous (urb) ; 
1406 break; 

1407 } 

1408 

1409 urb->status = ret; 

1410 

1411 spin unlock irqrestore (&urb->lock, flags); 
1412 

1413 if (ret == -ETNPROGRESS) 

1414 return; 

1415 

1416 switch (usb pipetype(urb-pipe)) f 

1417 case PIPE CONTROL: 

1418 case PIPE BULK: 

1419 case PIPF_TSOCHRONOUS: 

1420 /* Release bandwidth for Interrupt or Isoc. transfers */ 
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1421 
1422 
1423 
1424 
1425 
1426 
1427 
1428 
1429 
1430 
1431 
1432 
1433 
1434 
1435 
1436 
1437 
1438 
1439 
1440 
1441 
1442 
1443 
1444 
1445 
1446 
1447 
1448 
1449 
1450 
1451 
1452 
1453 
1454 
1455 
1456 
1457 
1458 
1459 
1460 
1461 
1462 
1463 
1464 
1465 
1466 
1467 
1468 
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/* Spinlock needed ? */ 
if (urb bandwidth) 


uhci 


usb release bandwidth(urb >dev, urb, 1); 
_unlink generic(urb) ; 


break; 
case PIPE INTERRUPT: 


/* I 


nterrupts are an exception */ 


if (urb interval) | 


} 


/* Release bandwidth for Interrupt or Isoc. transfers */ 


/*S 
if ( 


uhci 


urb-»comploete (urb) ; 
uhci reset interrupt (urb) ; 
return; 


pinlock necded ? */ 

urb->bandwidth) 

usb release _bandwidth(urb->dev, urb, 0); 
_unlink generic(urb); 


break; 


) 


if (urb- 


turb 
do { 


} while (turb && turb != urb && turb !- urb->next); 


if ¢ 
} 
if (urb- 
urb- 
if ( 


} 


if (proc 
turb 
do { 


»next) { 
= urb-»next; 


if (turb—>status !- -EINPROGRESS) { 
proceed = 1; 
break; 


turb = turb->next; 


turb == urb |: turb == urb->next) 
is ring = 1; 


>complete && !proceed) { 
>complete (urb); 

!procced && is ring) 
uhei submit urb(urb); 


eed && urb->next) | 
= urb-?nexl; 


if (turb->status !- -ETNPROGRESS && 
uhci submit urb(turb) != 0) 
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1469 turb = turb->next; 

1470 } while (turb && turb != urb->next) ; 

1471 

1472 if (urb—- complete) 

1473 urb-»complete (urb) ; 

1474 } 

1475 

1476 /* Wo decrement the usage count after we're done with everything */ 
1471 usb dec dev. use (dev) ; 

1478. ] 


参数 urb 指向 链接 在 urb_list 中 的 一 个 urb. 数据 结构 。 显 然 ， 对 于 控制 交互 首先 要 对 其 调用 
uhci result control( )， 这 个 渭 数 的 代码 也 在 drivers/usb/uhci.c +}: 


[uhci_interrupt( ) > uhci transfer result( ) > uhci result control( )] 


745 static int uhci result control(struct urb *urb) 


746 i 

741 struci list head *tmp, *head; 

748 struct urb priv *urbp = urb-^hcpriv; 
149 struct uhci td *td; 

750 unsigned int status; 

751 int ret = 0; 

152 

153 if (turbp) 

754 return -EINVAL; 

755 

756 head = &urbp->list; 

757 if (head->next == head) 

758 return -EINVAL; 

159 

760 if (urbp->short_control packet) { 

761 tmp = head >prev; 

762 goto status phase; 

763 } 

764 

765 tmp = head->next; 

766 td = list entry(tmp, struct uhci td, list); 
767 

768 /* The first TD is the SETUP phase, check the status, but skip */ 
769 /* the count */ 

770 status = uhci_status_bits(1d->status) ; 
771 if (status & TD CTRL ACTIVE) 

772 return -EINPROGRESS; 

773 

774 if (status) 

775 goto td_error; 


- 530. 


第 8 章 设备 驱动 


776 

777 urb-Yactual length = 0; 

778 

779 /* The rest of the TD's (but the last) are data */ 
780 tmp = tmp—>next; 

781 while (tmp != head && tmp->next != head) { 

182 td = list entry(tmp, struct uhci td, list); 

783 

184 tmp = tmp-?next; 

785 

786 if (urbp-^fsbr timeout && (td->status & TD CTRL IOC) && 
787 ! (td-^status & TD CTRL ACTIVE)) { 

788 uhci_inc_fsbr (urb->dev->bus—>hepriv, urb); 
789 urbp-^fsbr timeout = 0; 

790 td->status &- ~TD_CTRL_JOC; 

791 } 

192 

793 status = uhci status bits(td-^status); 

794 if (status & TD CTRL ACTIVE) 

795 return -EINPROGRESS; 

796 

797 urb-^»actual length += uhci_actual length(td->status) ; 
798 

799 if (status) 

800 goto td_error; 

801 

802 /* Check to see if we received a short packet */ 
803 if (uhci_actual_length(td->status) < uhci_expected_length(td->info)) | 
804 if (urb->transfer_flags & USB DISABLE SPD) | 
805 ret = -EREMOTEIO; 

806 goto err; 

807 } 

808 

809 if (uhci_packetid(td->info) == USB PID IN) 
810 return usb control retrigger status (urb); 
8il else 

812 return 0; 

813 } 

814 } 

815 

816 status_phase: 

817 td = list entry(tmp, struct uhci_td, list); 

818 

819 /* Control status phase */ 

820 status = uhci status bits(td-^status); 

821 


822 #ifdef T HAVE BUGGY APC BACKUPS 
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830 Hondif 


831 

832 if (status & TD CTRL ACTIVE) 

833 return -EINPROGRESS; 

834 

835 if (status) 

836 goto td error; 

837 

838 return 0; 

839 

840 td error: 

841 ret = uhci map status(status, uhci packetout (td->info)) ; 
842 if (ret -- -EPIPE) 

843 /* endpoint has stalled - mark it halted */ 

844 usb_endpoint_halt (urb—>dev, uhci_endpoint (td->info), 
845 uhci packetout (td->info)) ; 

846 

RAT err: 

848 if (debug && ret !- -EPIPE) { 

849 /* Some debugging code */ 

850 dbg(^uhei result control( ) failed with status %x”, status); 
85] 

852 /* Print the chain for debugging purposes */ 

853 uhci show urb queue (urb); 

854 } 

855 

856 return ret; 

857. .] 


控制 传输 有 二 个 阶段 ， 其 中 第 SPRATT REA, BIULELAS AOR BAS Bb NETS 
描述 块 ， 邮 使 主 特殊 的 情况 下 〔 见 下 》 也 什 少 还 有 最 后 的 状态 交互 ， 如 果 队 列 为 容 就 错 了 (757 行 )。 如 
果 urbp->short_control_packet 为 1， 就 说 明 在 传输 中 曾 发 生 接 收 到 小 寺 应 有 大 小 的 信和 包 ， 此 时 本 次 传输 
中 只 剩 下 最 后 一 个 父 瑟 ， 即 状态 父 直 ， 所 以 直接 跳 到 状态 交 荚 (762 行 )， 去 检查 其 结果 。 

在 正常 的 情况 下 ， 则 扫描 本 次 传输 的 交 世 请 求 队 介 ， 顺 次 检查 各 个 交互 磺 述 块 。 如 前 所 述 ，USB 
总 线 主 控制 器 会 根据 执行 的 结果 改变 其 内 容 。 首 先是 SETUP MRAZE. WE “个 交互 的 状态 位 
TD CTRL ACTIVE 仍旧 是 1， 那 就 说 明 尚 末 执 行 ， 或 者 执行 失败 了 ， 但 是 失败 的 次 数 偿 在 3 次 以 下 ， 
需 费 备 重 新 执行 ,所 以 返回 一 EINPROGRESS, 表示 还 在 进行 路 (772 行 )。 反 之 ,如 果 TD_CTRL_ACTIVE 
已 经 变 成 了 0， 那 就 说 明 至 少 SETUP 阶段 的 父 互 已 经 完成 了 ， 此 时 若 状态 位 中 有 任何 一 位 为 非 0 ic 
示 出 了 错 (775 行 )。 

下 证， 就 要 通过 一 个 while 循环 检查 数据 阶段 的 各 次 交互 了 。786 行 的 条 件 语句 月 的 在 于 优化 。 如 
果 原 来 内 为 想 要 回收 每 个 模 架 尾部 的 剩余 时 间 而 将 最 后 一 个 队列 头 链 接 利 了 控制 传输 队列 ， 可 是 实际 
1: 却 在 相当 氏 “ 段 时 间 内 并 没有 起 到 作用 ， 屠 就 说 明 总 线 的 负载 太 大 了 ， 此 时 一 个 由 定时 器 触发 的 勇 
数 rh, int timer. do( ) 就 会 将 为 了 回收 利用 剩余 时 间 人 而 作 的 链接 拆除 (后 面 我 们 还 要 讲 到 这 个 过 程 )， 并 把 
标志 位 fsbr. timeout 设 成 1。 然后 ， 当 控制 队 刻 中 的 交 二 请 求 得 到 执行 时 ， 总线 的 负 械 可 能 已 经 轻 下 来 ， 
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所 以 又 可 以 通过 ubci_inc_fsbr( ) 恢 复 FSBR 链接 了 。 

同样 ， 如 果 交 互 描述 块 中 的 TD CTRL ACTIVE 标志 位 为 1 就 表示 交互 尚未 完成 ， 或 者 尚未 彻底 
失败 ， 所 以 返回 -EINPROGRESS。 

如 果 一 个 交互 完成 后 的 数据 小 于 应 有 的 长 度 (803 行 )， 那 就 要 看 具体 的 情况 。 要 是 在 提交 该 安 世 请 
求 时 把 标志 位 USB DISABLE SPD 设 成 1 CXE “SPD” Æ “short packet detect”， 即 “短信 和 包 检 测 ” 
的 意思 )， 邦 就 把 该 次 交互 视 同 失败 ， 所 以 返回 出 错 代 码 一 EREMOTEIO。 否 则 ， 如 果 是 输入 交互 ， 就 
通过 usb_control_retrigger_status( ) 重 新 调度 本 次 传输 ， 使 USB 总线 的 主 控制 器 重新 执行 - - 裔 最 后 的 状 
态 交 互 。 这 个 函数 的 代 贫 在 drivers/usb/uhci.c 中 : 


[uhci, interrupt( ) > uhci, transfer result( ) > uhci result control( ) > usb, control retrigger status( )l 


859 static int usb control retrigger status (struct urb *urb) 


860 | 

861 struct list head *tmp, *head; 

862 struct urb priv *urbp = (struct urb priv *)urb-^hcpriv; 

863 struct uhci *uhci = urb->dev—>bus—>hcpriv; 

864 

865 urbp-^short control packet = 1; 

866 

867 /* Create a new QII to avoid pointer overwriting problems */ 
868 uhci remove qh(uhci, urbp-^qb); 

869 

870 /* Delete all of the TD's except for the status TD at the end */ 
871 head = &urbp— list; 

872 tmp = head->next; 

873 while (tmp !- head && tmp->next != head) 1 

874 struct uhci td *td = list entry(tmp, struct uhci td, list); 
875 

876 tmp = tmp-?next; 

877 

878 uhci remove td from urb(urb, td); 

879 

880 uhci remove td(uhci, td); 

881 

882 uhci free td(td); 

883 } 

884 

885 urbp->gh = uhci alloc_gh(urb->dev) ; 

886 if Clurbp->qh) { 

887 err (“unable to allocate new QH for control retrigger”) ; 
888 return —FNOMEM; 

889 } 

890 

891 /* One TD, who cares about Breadth first? */ 

892 uhci insert tds in qh(urbp-^qh, urb, 0); 

893 
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894 /* Low speed or small transfers gets a different queue and treatment */ 
895 if (urb->pipe & TD CTRL LS) 

896 uhci insert qh(uhci, &uhci-^skel 1s control qh, urbp-^qh); 

897 else 

898 uhci insert qh(uhci, &uhci-^skel hs control gh, urbp—^qh); 

899 

900 return -EINPROGRESS; 

901  ] 


这 里 的 865 4742 urbp-»short. control. packet 设 成 1, 并 且 另 外 创建 一 个 只 包括 一 个 状态 交互 的 队列 ， 
使 目标 设备 仍 能 得 到 一 个 确认 。 这 就 是 前 面 所 说 特殊 情况 的 来 历 。 

如 果 每 个 数据 交互 都 正常 完成 ， 并 且 最 后 的 状态 交互 也 正常 完成 ，uhei_result_control( ) 便 返回 0。 

[EIF] uhci_transfer_result( ) 的 代码 中 (drivers/usb/uhci.c，1396 行 )， 如 果 从 uhci_result_control( ) 返 回 
的 是 一 EINPROGRESS,， 即 传输 尚未 完成 ,就 让 本 次 传输 留 在 所 调度 的 位 置 上 不 变 而 立即 返 同 。 否则 就 
要 将 本 次 传输 从 队列 中 脱离 出 来 ， 并 释放 所 占用 的 “带宽 ”， 即 占用 总 线 的 时 间 。 在 4 种 不 同 的 传输 中 ， 
等 时 和 中 断 两 种 是 在 调度 时 需要 事先 为 其 分 配 总 线 带 宽 的 ， 这 样 才能 保证 同一 框架 中 二 者 之 和 不 超过 
90%。 如 果 预 先 分 配 了 带宽 ， 就 一 方面 记录 在 (本 次 传输 的 )urb 结构 中 的 bandwidth 字段 内 ， 一 -方面 也 
计 入 总 线 的 bus 结构 中 。 对 于 控制 实 互 ， 则 虽然 优先 级 别 比 成 块 传输 为 高 ， 却 并 不 需要 预先 分 配 带 宽 ， 
因为 对 成 块 传输 汪 来 就 无 需 保 证 其 带宽 。 所 以 , 对 于 控制 交互 实际 上 不 会 调用 usb_release_bandwidth( ). 
但 是 ， 不 管 是 控制 、 成 块 还 是 等 时 交互 ， 都 需要 通过 uhci unlink generic( ) 将 其 urb 数据 结构 从 各 个 队 
列 中 脱离 出 来 。 其 代码 在 drivers/usb/uhci.c F: 


Fuhci interrupt( ) > uhci_transfer_result( ) > uhci unlink _generic( )] 


1480 static int uhci unlink generic (struct urb *urb) 





1481 { 

1482 struct urb priv *urbp = urb~hcpriv; 

1483 struct uhei *uhci = (struct uhci *)urb->dev—>bus—>hepriv: 
1484 

1485 if (!urbp) 

1486 return -EINVAL; 

1487 

1488 uhci dec fsbr(uhci, urb);  /* Safe since it checks */ 
1489 

1490 uhci remove urb list(uhci, urb); 

1491 

1492 if (urbp-^qh) 

1493 /* The interrupt loop will reclaim the QH's */ 
1494 uhci remove gh(uhei, urbp-^qh); 

1495 

1496 if (!list_empty (€urbp->urb queue list)) 

1497 uhcei delete queued urb(uhci, urb); 

1498 

1499 uhci destroy urb priv(urb): 

1500 
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1501 urb->dev = NULL; 
1502 

1503 return 0; 

1504 ] 


首先 ， 由 于 本 次 传输 的 完成 ， 对 FSBR， 即 对 于 框架 末尾 剩余 时 间 的 回收 利用 机 制 ， 就 可 能 少 了 
个 用 户 ， 所 以 通过 uhci dec fsbr( ) 递 减 有 关 的 计数 ， 如 果 此 后 不 再 需要 此 种 机 制 便 拆 除 为 而 此 而 建立 
的 链接 。 然 后 通过 uhci remove, urb list( )， 使 本 次 传输 的 usb 数据 结构 脱离 uhci 结构 中 的 队列 。 这 两 
个 函数 的 代码 都 很 简单 ， 我 们 就 不 看 了 。 接 着 ， 如 果 是 以 传输 (而 不 是 交互 ) 为 单位 调度 的 ， 就 兹 通过 
uhci remove. gh( ) 将 uhci_qh 数据 结构 从 队列 中 脱 链 ， 因 为 USB 控制 器 在 执行 的 过 程 中 会 自动 将 交互 
描述 块 脱 链 ， 却 不 会 自动 将 队列 描述 块 脱 链 。 这 个 函数 的 代码 在 drivers/usb/ubci.c F: 


[uhci interrupt( ) > uhei_transfer_result( ) > uhci unlink generic( ) > uhci remove, qh( )] 


350 static void uhci remove gh(struct uhci *uhci, struct uhci gh *qh) 
351 { 


352 unsigned long flags; 

353 int delayed; 

354 

355 /* Tf the QH isn’t queued, then we don't need to delay unlink it */ 
356 delayed = (qh->prevgh || qh->nextgh) ; 

357 

358 spin lock irqsave(&uhci-^framelist lock, flags); 

359 if (qh->prevgh) { 

360 gh->prevgh—->nextqh = gh->nextgh; 

361 qh->prevgh->link = qh-^link; 

362 } 

363 if (qh->nextqh) 

364 i gh-»nextqh- prevgh = gh->prevgh; 

365 gh-^prevqh = qh-?nextqh = NULL; 

366 qh->element = qh-»link = UHCI PTR TERM; 

367 spin unlock irqrestore(&uhci-^framelist lock, flags); 

368 

369 if (delayed) | 

370 spin lock irqsave(&uhci-^qh remove lock, flags); 

371 

372 /* Check to see if the remove list is empty */ 

373 /* Set the IOC bit to force an interrupt so we can remove the QH */ 
374 if (list empty (&uhci-^qh remove list)) 

375 uhci set next interrupt (uhci); 

376 

377 /* Add it */ 

378 list_add (&qh->remove_list, &uhei->gh_remove_list) ; 
379 

380 spin unlock irqrestore(&uhci-^qh remove lock, flags); 
381 ) else 
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TI 
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uhci free gh(qb); 


本 来 ， 将 传输 请 求 从 队列 中 脱 链 以 后 就 可 以 释放 了 。 可 是 ，USB 控制 器 的 执行 与 CPU 控制 器 的 执 
互相 独立 的 ， 所 以 有 可 能 此 时 USB 控制 器 正 让 这 个 队列 中 ， 所 以 要 先 把 这 个 队列 头 转移 到 一 个 音 


独 的 队列 gh_remove_list 中 ， 让 它 “ 冷 却 ” 一 下 (USB 控制 器 只 能 出 而 不 能 进 )， 等 下 次 中 断 时 再 来 
释放 。 这 就 是 我 们 在 前 而 跳 过 的 uhci_free_pending_qhs( ) 所 作 的 处 理 (drivers/usb/uhci.c)。 


[uhci interrupt( ) > uhci free pending qhs()] 


2002 
2003 
2004 
2005 
2006 
2007 
2008 
2009 
2010 
2011 
2012 
2013 
2014 
2015 
2016 
2017 
2018 
2019 
2020 
2021 


void uhci free pending qhs (struct uhci *uhci) 


{ 


} 


struct list head *tmp, *head; 
unsigned long flags; 


/* Free any pending QH's */ 
spin lock irqsave(&uhci-^gh remove lock, flags); 
head = &uhci-^gh remove list; 
tmp = head-^noxt; 
while (tmp !- head) { 
struct uhci qh *gh = list entry(tmp, struct uhci gh, remove list); 


tmp = tmp-?next; 
list del(&gh-^remove list); 
uhci free qh(qb); 


} 


spin unlock irqrestore(&uhci-^gh remove lock, flags); 


回 到 uhci unlink generic ) 的 代码 中 , 如果 urb. priv 结构 中 的 队列 头 urb. queue. list 非 空 , 就 说 明 当 


初 提交 传输 请 求 时 与 其 他 (对 同一 设备 同一 端点 的 ) 传输 合并 了 ,所 以 要 通过 uhci_delete_queued_urb() 
将 其 脱 链 。 其 代码 在 drivers/usb/uhci.c 中 : 


[uhci_interrupt( ) > uhci transfer result( ) > uhci_unlink_generic( ) > uhci delete queued urb()] 


438 
439 
440 
441 
442 
443 
444 
445 
446 


static void uhci delete queued urb (struct uhci *uhei, struct urb *urb) 


{ 


struct urb_priv *urbp, *nurbp; 
unsigned Jong flags; 


urbp = urb-^hcpriv; 


spin lock irqsave(&uhci append urb iock, flags); 
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447 nurbp = list entry(urbp-^urb queue list.next, struct urb priv 
448 urb queue list); 

449 

450 if (!urbp—>queued) { 

451 /* We're the head, so just insert the QH for the next URB */ 
452 uhci insert qh(uhci, &uhci-^skel, bulk gh, nurbp->qh); 

453 nurbp-?queued = 0; 

454 } else { 

455 struct urb priv *purbp; 

456 struct uhci td *ptd; 

457 

458 /* We're somewhere in the middle (or end). A bit trickier */ 
459 /* than the head scenario */ 

460 purbp = list entry(urbp-^urb queue list.prev, struct urb priv, 
461 urb queue list) ; 

462 

463 ptd = list entry(purbp list.prev, struct uhci td, list); 
464 if (nurbp->queued) 

465 /* Close the gap between the two */ 

466 ptd->link = virt to bus(list entry (nurbp-^list. next, 
467 struct uhci td, list)); 

468 else 

469 /* The next URB happens to be the beggining, so */ 
470 /* we're the last, end the chain */ 

471 ptd->link = UHCI PTR TERM; 

472 

473 } 

474 

475 list_del (&urbp—>urb_queue_list); 

476 

477 spin unlock irgrestore(&uhci append urb lock, flags); 
478} 


最 后 通过 uhci_destroy_urb_priv( EX urb. priv 数据 结构 ,包括 队列 路 的 所 有 uhci td 结构 ， 其 代码 
也 在 drivers/usb/uhci.c "P: 


[uhci_interrupt( ) > uhci_transfer_result( ) > uhci unlink generic( ) > uhci_destroy_urb_priv( )] 


523 static void uhci destroy urb priv (struct urb *urb) 


524 { 

525 struct list head *tmp, *head; 

526 struct urb priv *urbp; 

527 struct uhei *uhci; 

528 struct uhci td *td; 

529 unsigned long flags; 

530 

531 spin lock irqsave(&urh—->lock, flags); 


537. 
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532 

533 urbp = (struct urb priv *)urb-^hepriv; 

534 if (lurbp) 

535 goto unlock; 

536 

537 if (lurb-»dev || !urb- dev bus || !urb-»dev-^»bus-^hepriv) 
538 goto unlock; 

539 

540 uhci = urb->dev—->bus~>hepriv; 

54] 

542 head = &urbp-?list; 

543 tmp = head->next; 

544 while (tmp != head) { 

545 td = list entry(tmp, struct uhci_td, list); 
546 

547 tmp = tmp-?next; 

548 

549 uhci_remove td from urb(urb, td); 

550 

551 uhci remove td(uhci, td); 

552 

553 uhci free td(td); 

554 } 

555 

556 urb->hcpriv = NULL; 

557 kmem cache free(uhci up cachep, urbp) ; 

558 

559 unlock: 

560 spin unlock irgrestore(&urb-»lock, flags); 
561  ] 


回 到 uhci. transfer. result( ) 的 代码 中 (drivers/usb/uhei.c，1425 行 )， 下 徊 有 一 段 特殊 的 代码 (1442~ 
1474 行 )。 这 段 代码 主要 是 为 等 时 传输 而 设计 的 ， 但 也 可 以 用 于 成 块 传输 。 

在 传输 的 数据 量 比较 大 ， 又 要 求 在 时 间 上 分 布 得 比较 均 勾 时， 常常 采用 “ 双 缓 冲 ”甚至 多 缓冲 的 
技术 。 例 如 对 于 音频 信号 ， 就 可 以 设置 两 个 缓冲 区 ， 使 这 两 个 缓冲 区 交替 地 用 于 接收 数据 和 处 理 数据 。 
这 样 可 以 使 整个 流量 趋 于 平均 ， 更 为 “流水 线 化 ”。 具体 到 USB 总 线 上 的 传输 ， 吕 以 为 之 准备 下 两 个 
传输 请 求 ， 即 两 个 urb 结构 ， 并 通过 它们 的 指针 next 互相 链接 在 一 起 。 这 样 ， 当 一 个 传输 完成 ， 因 而 
费 将 其 从 调度 系统 中 脱 链 时 ， 便 遂 过 指针 next 找到 其 “配偶 ”， 如 果 个 在 调度 系统 中 就 把 它 提交 调度 。 
这 样 ， 如 果 将 这 上岗 个 传输 中 的 个 老 是 调度 在 前 1/2 秒 ， 而 另 个 老 是 调度 在 后 1/2 秒 ， 就 可 以 使 流量 
比 只 采用 一 个 传输 时 平均 了 。 至 于 一 般 的 传输 ， 则 由 于 其 指针 next 总 起 0， 因 而 代码 中 的 proceed 与 
is_ring 总 是 0， 所 以 不 受 影 响 。 

最 后 ， 只 要 为 当前 ub 结构 中 的 函数 指针 complete 设置 了 善后 操作 ， 就 要 凋 用 这 个 遂 数 。 前 面 在 
usb_internal_control_msg( ) 中 把 这 个 函数 设置 成 usb_api_blocking_completion( ), 所 以 现在 就 调用 这 个 函 
数 。 其 代码 在 drivers/usb/usb.c 中 : 


- 538 . 





: 
; 
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[uhci interrupt( ) > uhci transfer result( ) > usb api blocking completion( )] 


978 static void usb api blocking completion (urb & *urb) 


979 { 

980 api wrapper data *awd = (api wrapper data *)urb-?context; 
981 

982 if (waitqueue active (awd-^wakeup)) 

983 wake_up (awd->wakeup) ; 

984 #if 0 

985 else 

986 dbg (” (blocking completion): waitqueue empty!^); 
987 // even occurs if urb was unlinked by timeout... 
988 #endif 

989  ] 


对 照 一 下 前 面 usb start wait urb( ) 的 代码 ， 就 可 以 看 出 这 里 唤醒 的 止 是 前 面 调用 了 
usb control msg( ) 的 那个 进程 ,这 个 进程 当初 是 通过 schedule_timeout( ) 睡 眠 等 待 (drivers/usb/usb.c, 1019 
行 ) 的 ， 所 以 被 唤醒 的 原因 可 能 有 商 个 ， 基 因为 操作 完成 或 者 因为 超时 。 如 果 是 因 超 时 而 被 唤醒 ， 而 传 
输 实际 上 已 经 开始 ， 邦 就 髓 睡眠 。 最 后 ， 被 唤 妆 的 原因 还 是 有 了 黄 个 ， 要 么 是 传输 完成 了 或 者 彻底 失败 
了 ， 要 么 是 根本 得 不 到 执行 而 超时 。 如 果 是 前 者 ， 那 么 urb 结构 已 经 从 调度 系统 中 脱离 出 来 ， 而 如 果 
是 后 者 则 urb. 结构 仍旧 链接 在 调度 系统 的 队列 中 ， 所 以 先 要 把 它 脱岗 出 来 (1029 行 )。 然 后 ， 在 释放 了 
urb 数据 结构 以 后 ， 从 usb, start, wait urb( ) 返 回 的 status 指 术 着 传输 的 成 败 ， 而 actual length 则 说 明 已 
经 传输 的 实际 长 度 。 全 于 从 目标 设备 读 回 的 数据 ， 则 放 在 预定 的 缓冲 区 中 。 这 样 ， 经 过 
usb, internal control, msg( ) 和 usb. control, msg( ) 逐 层 返 同 到 ioctl_scanner( )， 本 次 传输 操作 已 经 完成 。 

我 们 在 前 面 讲 到 ， 就 持 描 器 的 控制 而 言 ， 其 应 用 〈 张 动 ) 进程 可 以 由 系统 调用 iocti( ) 通 过 控制 传 
输 实现 ， 也 可 以 由 … 般 的 write( read ) 通 过 成 块 传输 实现 。 但 是 ， 对 于 与 扫描 器 间 的 数据 传输 ， 则 只 
能 由 write( )/read( ) 实 现 。 

骨 看 对 扫描 器 的 数据 读 / 号 ， 这 是 通过 成 块 传输 完成 的 。 对 于 扫描 器 ， 读 操作 显然 更 为 冬 要 ， 所 以 
我 们 只 看 系统 调用 read( ) 的 实现 read_scanner( )。 其 代码 在 drivers/usb/scanner.c 中 


518 static ssize t 

519 read scanner(struct file * file, char * buffer, 

520 size t count, loff t *ppos) 

521 d 

522 struct scn usb data *scn; 

523 struct usb device *dev; 

524 

525 ssize t bytes read; /* Overall count of bytes read */ 
526 ssize t ret; 

527 

528 kdev_t scn_minor; 

529 

530 int partial: /* Number of bytes successfully read */ 
531 int this read; /* Max number of bytes to read */ 


.539 . 


532 
533 
534 
535 
536 
537 
538 
539 
540 
541 
542 
543 
544 
545 
546 
547 
548 
549 
550 
551 
552 
553 
554 
555 
556 
557 
558 
559 
560 
961 
562 


563 


564 
565 
566 
567 
568 
569 
570 
oTi 
572 
573 
574 
575 
576 
911 


™ 
X * X X X X X X X X OK OF 


* 
D 
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int result; 
int rd expire = RD EXPIRE; 


char *ibuf; 

scn = file private data; 
scn minor = scn-?scn minor; 
ibuf = scen->ibuf; 

dev = scn->scn_dev; 


bytes_read = 0; 
ret = 0; 


file->f dentry->d_inode->i_atime = CURRENT TIME; /* Update the 
atime of 
the device 
node */ 
down (&(sen->gen lock)); 


while (count > 0) { 
if (signal pending(current)) { 
ret = -EINTR; 
break; 


} 
this_read = (count >= IBUF_SIZE) ? IBUF_SIZE : count; 


result = usb bulk msg(dev, usb _revbulkpipe(dev, scn->bulk_in_ep) 
ibuf, this read, &partial, RD_NAK_TIMEOUT) ; 

dbg ("read stats (%d): result:%d this read:%d partial:%d count:%d’”, 
sch minor, result, this read, partial, count); 


Scanners are sometimes inheriently slow since they are mechanical 
in nature. USB bulk reads tend to timeout while the scanner is 
positioning, resetting, warming up the lamp, etc if the timeout is 
set too low. A very long timeout parameter for bulk reads was used 
to overcome this limitation, but this sometimes resulted in folks 
having to wait for the timeout to expire after pressing Ctrl-C from 
an application. The user was sometimes left with the impression 
that something had hung or crashed when in fact the USB read was 
just waiting on data. So, the below code retains the same long 
timeout period, but splits it up into smaller parts so that 
Ctrl-C’ s are acted upon in a reasonable amount of time. 
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578 

579 if (result == USB ST TIMEOUT && !partial) | /* Timeout 

580 and no 

581 data */ 

582 if (--rd expire <= 0) { 

583 warn (“read_scanner (%d) : excessive NAK’ s received”, scn minor): 

584 ret - -ETIME; 

585 break; 

586 ) else { 

587 interruptible sleep on timeout(&scn-^rd wait q, RD NAK TIMEOUT); 

588 continue; 

589 } 

590 } else if ((result < 0) && (result !- USB ST DATAUNDERRUN)) { 

591 warn ("read scanner (Wd): funky result: Wd. Please notify the maintainer. ^, 
scn minor, (int)result); 

592 ret - —EIO; 

593 break; 

594 ] 

595 

596 Bifdef RD DATA DUMP 

597 if (partial) { 

598 unsigned char cnt, cnt_max; 

599 cnt max = (partial > 24) ? 24 : partial; 

600 printk(KERN DEBUG "dump(*d): ^, scn minor); 

601 for (cnt-0; cnt € ent max; cnt++) { 

602 printk("%X ^, ibuf[cnt]); 

603 } 

604 printk("\n’) : 

605 } 

606 #endi f 

607 

608 if (partial) { /* Data returned */ 

609 if (copy to user (buffer, ibuf, partial)) | 

610 ret = —EFAULT; 

611 break; 

612 } 

613 count -= this read: /* Compensate for short reads */ 

614 bytes read += partial; /* Keep tally of what actually was read */ 

615 buffer += partial; 

616 } else { 

617 ret = 0; 

618 break; 

619 } 

620 } 

621 up (& (scn->gen_lock)) ; 

622 

623 return ret ? ret : bytes read; 

624  ] 


. S41 . 


Linux AJ fis edt RAPI C RIO 

我 们 先 把 面向 打 描 器 本 身 的 代码 留 给 读者 ， 在 这 里 把 注意 力 集中 华 对 成 由 传输 的 调度 
usb_bulk_msg() 上 。 由 于 我 们 已 经 详细 阅读 了 有 关 控 制 传输 的 代码 ， 下 面 只 需 说 明 二 者 的 不 同 之 处 。 

如 前 所 述 ， 每 个 USB 设备 的 0 号 端点 总 是 用 二 控制 传输 的 ， 并 且 是 双向 的 端点 。 除 此 之 外 ， 则 设 
备 中 的 每 个 “接口 ”， 即 逐 得 功能 都 有 一 组 端点 ， 不 同类 型 的 传输 要 使 用 不 同 的 端点 ， 并 且 每 个 端点 都 
十 单 向 的 。 这 些 端点 的 号 码 都 在 相应 USB 设备 的 枚 举 阶 段 通过 控制 传输 取得 。 取 得 了 个 端点 号 以 后 ， 
主机 与 这 个 端点 之 闻 的 就 形成 了 一 个 逻辑 上 的 “管道 ”与 控制 交互 不 同 ， 成 块 传输 内 有 “个 阶段 ， 即 
数据 阶段 ， 可 以 包括 -次 或 多 次 数据 交互 。 每 次 交互 也 是 由 让 个 信和 包 构 成 ， 第 一 个 总 是 由 主 控制 器 发 
出 的 token 信和 包 ， 其 中 包含 着 对 方 的 地 址 和 端点 号 ， 以 及 交 三 的 类 型 ， 即 PID。 对 十 成 块 传输 的 PID， 
include/linux/usb.h TEXN T WAZEE: 


749 #define usb sndbulkpipe (dev, endpoint) WV 


((PIPE BULK << 30) | | create pipe (dev, endpoint)) 
750 define usb rcvbulkpipe (dev, endpoint) V 
((PIPE BULK << 30) | | create pipe(dev, endpoint) | USB DTR IN) 


成 块 传输 是 通过 usb_buik_msg( ) 完 成 的 ， 这 个 函数 的 代码 在 drivers/usb/usb.c H: 


[read_scanner( ) > usb. bulk msg()] 


1111 f** 
1112 * usb bulk msg - Builds a bulk urb, ,sends it off and waits for completion 
1113 * (usb dev: pointer to the usb device to send the message to 
1114 * (pipe: endpoint “pipe” to send the message to 
1115 * (data: pointer to the data to send 
1116 * @len: length in bytes of the data to send 
1117 * @actual length: pointer to a location to put the actual length 

transfered in bytes 
1118 * @timcout: time to wait for the message to complete before timing 

out (if 0 the wait is forever) 
1119 * 
1120 * This function sends a simple bulk message to a specified endpoint 
1121 * and waits for the message to complete, or timeout. 
1122 * 
1123 * If successful, it returns 0, othwise a negative error number 
1124 * The number of actual bytes transferred will be plaed in the 
1125 * actual timeout paramater. | 
1126 * | 
1127 * Don't use this function from within an interrupt context, like a ! 
1128 * bottom half handler. If you need a asyncronous message, or need to : 
1129 * send a message from within interrupt context, use usb submit urb( } | 
1130 */ | 
1131 int usb bulk msg(struct usb device *usb dev, unsigned int pipe, | 
1132 void *data, int len, int *actual length, int timeout) : 
1133 { 
1134 urb_t *urb; 


i 
| 
| 
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1135 

1136 if (en < 0) 

1137 return -EINVAL; 

1138 

1139 urb-usb alloc urb(0); 

1140 if (lurb) 

1141 return —ENOMEM; 

1142 

1143 FILL BULK URB (urb, usb. dev, pipe, (unsigned char*)data,len, ^ /* build urb */ 
1144 (usb complete t)usb api blocking completion, 0); 
1145 

1146 return usb start wait urb (urb, timeout, actual length); 
147  ] 


对 照 前 面 由 usb control msg() 调 用 的 usb. internal control, msg( ), 就 可 以 看 出 二 省 几乎 - 样 , 只 是 
对 成 块 传输 请 求 的 urb 数据 结构 是 通过 FILL_BULK_URB“〔〈 而 不 是 FILL_CONTROL_URB) 完成 的 。 
这 个 宏 操 作 定 义 于 include/linux/usb.h: 


480 &define FILL BULK URB(a, aa, b, c, d, e, f) \ 


481 do (^ 

482 spin lock init (&(a)-»lock) ;N 
483 (a) -^dev-aa;N 

484 (a) ->pipe=b; \ 

485 (a)->transfer buffer=c;\ 

486 (a)-^transfer buffer length-d;V 
487 (a) —>complete=e; \ 

488 (a)->context=f;\ 

489 } while (0) 


污 者 不 妨 比 较 一 下 ， 看 看 二 者 有 何不 同 ， 以 及 为 什么 会 有 不 同 。 
从 这 以 后 ， “直上 要 到 uhci submit urb( ) 中 ， 成 岂 传 输 与 控制 传输 才 又 有 不 同 。 我 们 在 这 里 只 重出 
这 个 函数 中 用 于 成 块 传输 的 片段 (drivers/usb/uhci.c): 


[read_scanner( ) > usb, bulk msg( ) > usb_start_wait_urb( ) > usb submit urb( ) > uhci submit urb( )] 


1342 case PIPE BULK: 
1343 ret = uhci submit bulk(urb, u); 
1344 break; 


显然 ， 控 制 传输 请 求 的 提交 由 uhci_submit_bulk( ) 完 成 ， 其 代码 在 drivers/usb/uhci.c 中 : 


[read_scanner( ) > usb_bulk_msg{ ) > usb start wait urb( ) > usb submit urb( ) > uhci submit urb( ) 
»uhci submit, bulk( )] 
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1039 static int uhci submit bulk(struct urb *urb, struct urb *eurb) 


1040 { 

1041 struct uhci td *td; 

1042 struct uhci qh *gh; 

1043 unsigned long destination, status; 

1044 struct uhci *uhci = (struct uhci #)urb->dcv->bus->hcpriv， 
1045 int maxsze = usb maxpacket (urb->dev, urb-^pipe, usb pipeout(urb >pipe)) 
1046 int len = urb->transfer buffer length; 

1047 unsigned char *data = urb-^transfor, buffer; 

1048 struct urb priv *urbp = (struct urb priv *)urb—hcpriv; 

1049 

1050 if (len < 0) 

1051 return -EINVAL; 

1052 

1053 /* Can t have low speed bulk transfers */ 

1054 if (urb pipe & TD CTRL LS) 

1055 return —EINVAL; 

1056 

1057 /* The "pipe" thing contains the destination in bits 8—-18 */ 
1058 destination - (urb->pipe & PIPE DEVEP MASK) | usb packetid(urb->pipe) ; 
1059 

1060 /* 3 errors */ 

1061 status - TD CTRL ACTIVE | (3 << TD CTRL C ERR SHIFT); 

1062 

1063 if (!(urb transfer flags & USB DISABLE SPD)) 

1064 status !- TD CTRL SPD; 

1065 

1066 /* 

1067 水 Build the DATA TD’ s 

1068 */ 

1069 do { /* Allow zero length packets */ 

1070 int pktsze - len; 

1071 

1072 if (pktsze > maxsze) 

1073 pktsze - maxsze; 

1074 

1075 td = uhci alloc td(urb->dey) ; 

1076 if (!td) 

1077 return -ENOMEM; 

1078 

1079 uhci add td to urb(urb, td); 

1080 uhci fill td(td, status, destination | ((pktsze 1) << 21) | 
1081 (usb_get toggle (urb->dev, usb pipeendpoint (urb—>pipc), 
1082 usb_pipeout (urb->pipe)) << TD TOKEN TOGGLE), 

1083 virt_to_bus (data)) ; 

1084 

1085 data ++ pktsze; 

1086 len -= maxsze; 
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1087 

1088 if (len <= 0) 

1089 td->status |- TD CTRL IOC; 

1090 

1091 usb dotoggle(urb-»dev, usb pipeendpoint (urb->pipe) 
1092 usb pipeout (urb->pipe)) ; 

1093 } while (len > 0); 

1094 

1095 gh = uhci alloc qh(urb-?dev); 

1096 if (!qh) 

1097 return —ENOMEM; 

1098 

1099 urbp-^gh = gh; 

1100 

1101 /* Always assume depth first */ 

1102 uhci insert tds in qh(qh, urb, 1): 

1103 

1104 if (urb-^transfer flags & USB QUEUE BULK && eurb) { 
1105 urbp->queued = 1; 

1106 uhci_append_queucd_urb(uhci, eurb, urb); 

1107 } else 

1108 uhci insert gh(uhci, &uhci-^skel bulk ah, qh); 
1109 

1110 uhci add urb list(uhci, urb); 

1111 

1112 uhci inc fsbr(uhci, urb); 

1113 

1114 return -EINPROGRESS; 

1105  J 


读 过 uhci_submit_control( ) 的 代码 的 读者 对 此 自然 不 会 有 困难 ， 我 们 只 指出 儿 点 。 第 一 ， 成 块 传输 
只 能 用 于 全 速 设 备 ,〈 试 息 ， 如 果 是 低速 设备 而 又 此 “成 块 ” 传输 ， 怎 么 能 在 一 个 框架 ， 即 Ze 
时 间 里 完成 ? ) 所 以 如 果 是 低速 设备 (1054 行 ) 就 立即 返回 出 错 代码 一 EINVAL。 第 二 ， 成 块 传输 只 有 - 
个 阶段 、 一 种 交互 ， 即 数据 交互 ， 所 以 不 像 控 制 传 输 那 样 还 有 SETUP 交互 和 状态 交互 。 第 三 ， 对 成 块 
传输 队列 的 执行 总 是 横向 ， 即 宽度 优先 的 ， 所 以 调用 uhci insert tds in qh( ) 时 的 最 后 个 参数 breadth 
总 是 1 (1101 行 的 注释 中 说 “Always assume depth first” 止 好 是 说 反 了 )。 还 有 ， 对 成 块 传输 允许 将 针 
对 同一 对 象 的 传输 合并 (1106 行 )， 所 以 uhci_ submit_control( ) 多 一 个 参数 eurb, 4E 0 时 指向 已 经 存在 
而 尚未 完成 、 针 对 同一 对 和 象 的 成 块 传输 请 求 。 

同样 ， 请 求 传输 的 进程 也 在 usb_start_wait_urb( ) 中 唾 眠 等 待 ， 而 USB 控制 器 在 最 后 一 个 交互 所 在 
的 框架 结束 时 会 向 CPU 发 出 中 断 请 求 ，USB 总 线 中 断 服 务 程 序 的 入 口 也 同样 是 uhci_interrupt( )。 不同 
的 是 : 此 时 在 uhci transfer. result( ) 中 调用 的 是 uhci result bulk( )， 而 个 是 uhci_result_control( )。 Fifi 
是 uhci_transfer_result( ) 中 的 个 片段 (drivers/usb/uhci.c): 


[uhci_interrupt( ) > uhci, transfer result( )] 
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1401 case PIPE BULK: 
1402 ret = uhci result bulk(urb); 
1403 break; 


除 此 以 外 ， 就 都 与 控制 传输 相同 了 。 至 于 uhci_result_bulk( )， 则 在 drivers/usb/uhci.c 中 定义 为 


uhci result interrupt( ): 


1117 /* We can use the result interrupt since they're identical */ 
1118 Hdefine uhci result bulk uhci result interrupt 


实际 上 ， 成 块 传输 与 中 断 传输 所 传递 的 都 是 数据 ， 都 是 可靠 传递 (如 出 错 就 要 重 发 )， 只 是 数据 量 和 
(调度 ) 启 动 的 方式 不 同 ， 所 以 传输 结束 时 可 以 由 同一 个 函数 加 以 处 理 。 这 个 函数 的 代码 在 


drivers/usb/uhci.c 中 ; 


[uhci interrupt( ) > uhci transfer result( ) > uhci result, interrupt( )] 


940 static int uhci result interrupt (struct urb *urb) 


941 { 

942 struct list head *tmp, *head; 

943 struct urb priv *urbp = urb-^hepriv; 

944 struct uhci td *td; 

945 unsigned int status; 

946 int ret = 0; 

947 

948 if (lurbp) 

949 return —EINVAL; 

950 

951 urb-^aciual length = 0; 

952 

953 head = &urbp->list; 

954 tmp = head~>next; 

955 while (tmp != head) { 

956 td = list_entry(tmp, struct uhci_td, list); 
957 

958 tmp = tmp-?next; 

959 

960 if (urbp >fsbr_timeout && (td->status & TD CTRL IOC) && 
961 '(td->status & TD CTRL ACTIVE)) { 

962 uhci inc fsbr(urb-^dev-Pbus-^hepriv, urb); 
963 urbp->fsbr_ timeout = 0; 

964 td->status &- "TD CTRL IOC; 

965 } 

966 

967 status = uhci_status bits (td->status) ; 
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968 if (status & TD CTRL ACTIVE) 

969 return -EINPROGRESS; 

970 

971 urb-^actual length += uhci actual, length(td-^status); 
972 

973 if (status) 

974 goto td error; 

975 

976 if (uhci actual length(td-^status) < uhci expected length(td-^info)) { 
977 usb_settoggle(urb->dev, uhci endpoint (td-^info), 
978 uhci packetout (td-^info), 

979 uhci_toggle(td->info) ' 1); 

980 

981 if (urb transfer flags & USB DISABLE SPD) { 
982 ret = -EREMOTEIO; 

983 goto err; 

984 } else 

985 return 0; 

986 } 

987 } 

988 

989 return 0; 

990 

991 td_error: 

992 ret = uhci map status(status, uhci packetout (td->info)) ; 
993 if (ret == -EPIPE) 

994 /* endpoint has stalled - mark it halted */ 

995 usb endpoint halt (urb->dev, uhci endpoint (td->info), 
996 uhci packetout (td-^info)); 

997 

998 err: 

999 if (debug & ret != -EPIPE) { 

1000 /* Some debugging code */ 

1001 dbg (“uhci_result_interrupt/bulk( ) failed with status %x”, 
1002 status) ; 

1003 

1004 /* Print the chain for debugging purposes */ 

1005 if (urbp->qh) 

1006 uhci show urb queue (urb); 

1007 else 

1008 uhci show td(td); 

1009 } 

1010 

1011 return ret; 

1012} 


同样 ， 认 真 读 过 uhci_result_control( ) 的 读者 也 不 应 对 这 段 代 但 感到 困难 。 
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污 者 自然 会 问 : 扫描 器 是 速度 比较 慢 的 设备 ， 怎 么 能 知道 在 什么 时 候 去 读 就 有 数据 可 读 呢 ? 确实 
是 这 样 。 扫 描 器 (以 及 其 他 USB 设备 ) 在 接收 到 一 个 IN 命令 (token 信和 包 ) 时 ， 如 果 没 有 数据 可 以 发 送 就 
会 发 送 一 个 NAK 作为 应 答 。 而 USB 控制 器 ， 则 在 数据 交 芋 (以 及 中 断交 互 ) 中 接收 到 NAK 时 不 将 交互 
请 求 的 TD_CTRL_ACTIVE 位 设置 成 0， 也 不 推进 (本 次 传输 的 ) 队 列 头 中 的 element 指针 ， 就 好 像 不 曾 
启动 本 次 交互 一 样 。 当 然 ， 最 后 很 可 能 会 使 相应 的 传输 因 超 时 而 失败 。 所 以 ， 从 本 质 上 讲 , 一 次 IN 交 
互 (以 及 OUT 交互 ) 实 际 上 也 是 一 次 查询 。 那 么 ， 为 什么 不 像 一 般 设 备 驱 动 那样 ， 让 设备 在 有 数据 可 发 
送 时 就 主动 向 主机 发 出 一 个 中 断 请 求 呢 ? 前 面 讲 过 ，USB AAEM ATI “Pe” ZA Lea, 
只 不 过 中 断交 互 是 周期 性 的 ， 其 执行 是 有 保证 的 ， 而 成 块 交互 既 非 周期 性 也 无 保证 而 已 。 当 然 ，USB 
设备 具 能 被 动 地 等 待 受 查询 这 么 一 种 安排 会 在 一 定 程度 上 降低 效率 , 但 这 是 USB 总 线 的 设计 人 员 在 各 
方面 权衡 折 中 以 后 作出 的 选择 。 如 果 考 虑 到 USB 总 线 上 相当 大 比例 的 流量 将 是 等 时 传输 (不 需要 查询 )， 
再 考虑 到 总 线 上 设备 的 个 数 有 限 (127) 以 及 总 线 的 速度 ， 并 且 USB 控制 器 本 身 就 带 有 微 处 埋 器 , 这 样 的 
选择 应 该 帝 是 合理 的 。 注 意 上 面 所 说 的 超时 十 指 整个 传输 〈 而 不 是 某 次 交互 ) 的 超时 ， 在 初始 化 根 集 
中 器 时 设置 了 一 个 定时 器 ， 定 时 地 通过 一 个 函数 由 _int_timer_do0 扫 描 USB 总 线 的 urb_list 队列 ， 将 超 
时 的 传输 请 求 从 队列 中 摘除 。 

回 到 read. scanner( ) 的 代码 中 。 既 然 成 块 传输 很 可 能 会 因 超时 而 失败 ， 就 要 把 这 - :点 考虑 进去 。 怎 
AJE? 很 简单 ， 只 要 传输 超时 ， 就 醒 了 再 睡 ， 过 一 会 儿 再 来 试 试 ( 见 代 码 中 的 579、587 和 588 行 )。 
也 就 是 说 ， 在 较 高 的 层次 上 也 实 岗 定时 查询 。 这 样 的 查询 当然 不 能 无 限制 地 进行 下 去 ， 所 以 代码 中 安 
排 了 一 个 计数 器 rd_expire。 

在 扫描 器 的 驱动 程序 中 并 未 用 到 中 断 传 输 ， 但 是 中 断 传输 在 对 USB 集中 器 的 操作 (从 而 USB 设备 
的 热 插入 ) 中 扮演 着 重要 的 角色 ， 所 以 也 应 该 看 一 下 。 我 们 在 前 面 usb_hub_configure( ) 的 代码 中 看 到 ， 
BWE 个 (周期 性 的 ) 中 断 传 输 时 , 需要 为 其 分 配 和 设置 好 一 个 urb 数据 结构 , 并 通过 usb. submit. urb() 
提交 请 求 (driversAasb/hub.c，214 一 223 行 )。 

同样 ， 对 于 采用 UHCI 界面 的 主 控制 器 ，usb_submit_urb( ) 会 调用 uhci_submit_urb( ) 完 成 对 传输 的 
调度 。 也 下 是 在 这 里 ， 对 中 断 传输 的 调度 有 了 一 些 与 前 不 同 的 操作 。 下 面 是 uhei_submit_urb( ) 中 的 一 
个 片段 (drivers/usb/uhei.c): 


[usb hub configure( ) > usb_submit_urb( ) > uhci_submit_urb( )] 


1329 case PIPE INTERRUPT: 

1330 if (urb->bandwidth == 0) { /* not yet checked/allocated */ 
1331 bustime = usb check bandwidth(urb-»dev, urb); 

1332 if (bustime < 0) 

1333 ret = bustime; 

1334 else { 

1335 ret = uhci submit interrupt (urb); 

1336 if (ret == -EINPROGRESS) 

1337 usb claim bandwidth(urb-^dev, urb, bustime, 0); 
1338 } 

1339 } else /* bandwidth is already set */ 

1340 ret = uhci submit interrupt (urb); 
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1341 break; 


res BS pucr E uS), BEA SE SEL usb. check, bandwidth( )79 2:2? Bic "En. BUS 
用 总 线 的 时 间 。 这 个 函数 是 中 断 传 输 和 等 时 传输 公用 的 ， 其 代码 在 drivers/usb/usb.c P: 


[usb_hub_configure( ) > usb submit urb( ) > uhci submit urb( ) > usb check bandwidth( )] 


256 /* 

257 * usb check bandwidth( ): 

258 * 

259 * old alloc is from host controller-5bandwidth allocated in microseconds; 
260 * bustime is from calc bus time( ), but converted to microseconds. 
261 * 

262 * returns Xbustime in us? if successful, 

263 * or USB ST BANDWIDTH ERROR if bandwidth request fails 

264 * 

265 * FIXME: 

266 * This initial implementation does not use Endpoint. bInterval 

267 * in managing bandwidth allocation. 

268 * It probably needs to be expanded to use Endpoint. bInterval. 

269 * This can be done as a later enhancement (correction). 

270 >- x This will also probably require some kind of 

271 * frame allocation tracking...meaning, for cxample, 

272 * that if multiple drivers request interrupts evory 10 USB frames, 
213 * they don' t all have to be allocated at 

214 x frame numbers N, N:10, N*20, etc. Some of them could be at 

215 * N*11, N421, N+31, etc., and others at 

216 * N+12, N+22, N+32, etc. 

277 * However, this first cut at USB bandwidth allocation does not 
278 * contain any frame allocation tracking. 

279 */ 

280 int usb check bandwidth (struct usb device *dev, struct urb *urb) 
281 { 

282 int new_alloc; 

283 int old alloc = dev—>bus->bandwidth allocated; 

284 unsigned int pipe = urb->pipe; 

285 long bustime; 

286 

287 bustime = usb calc bus time (usb pipeslow(pipe), usb pipein(pipe), 
288 usb pipeisoc(pipe), usb maxpacket (dev, pipe, usb pipeout(pipe))) ; 
289 if (usb pipeisoc(pipo)) 

290 bustime ~ NS TO US(bustime) / urb-^number of packets; 

291 else 

292 bustime = NS TO _US(bustime) ; 

293 

294 new alloc = old alloc + (int)bustime; 
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305 
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/* what new total allocated bus time would be */ 


if (new alloc > FRAME TIME MAX _USECS_ALLOC) 
dbg ("usb-check~bandwidth %sFAILED: was %u, would be %u, bustime = %ld us”, 
usb bandwidth option ? ^" ; "would have ^, 


old alloc, new alloc, bustime): 


if (lusb bandwidth option) /* don't enforce it */ 
return (bustime); 
return (new alloc <= FRAME TIME MAX USECS ALLOC) ? 
bustime : USB ST BANDWIDTH ERROR; 


T. MAREE ARK. f JT Tu ARA RARER BUS BLAN ORE 
AK Uf is SEL E Pr XAR BO TREO, Mit usb calc bus üme( ) 计 算出 需要 的 带宽 。 这 个 函数 的 代码 在 
drivers/usb/usb.c "F: 


[usb hub configure( ) > usb_submit_urb( ) > uhci submit, urb( ) > usb_check_bandwidth( ) 
»usb calc bus time( )] 


219 
220 
221 
222 
223 
224 
220 
226 
227 
228 
229 
230 
231 
232 
233 
234 
235 
236 
237 
238 
239 
240 
241 
242 
243 
244 
245 


/* 

* usb_calc_bus_time: 

米 

* returns (approximate) USB bus time in nanoseconds for a USB transaction. 

*/ 

static long usb calc bus time (int low speed, int input dir, int isoc, int bytecount) 
{ 


unsigned long tmp; 


if (low speed) /* no isoc. here */ 


{ 
if (input dir) 
{ 
tmp = (67667L * (31L + 10L * BitTime (bytecount))) / 10001.; 
return (64060L + (2 * BW HUB LS SETUP) + BW HOST DELAY + tmp); 
} 
else 


{ 
imp = (667001 * (31L + 10L * BitTime (bytecount))) / 1000L; 
return (64107L + (2 * BW HUB LS SETUP) + BW HOST DELAY + tmp); 


} 
/* for full-speed: */ 


if (tisoc) /* Input or Output */ 
i 
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246 tmp = (8354L * (31L + 10L * BitTime (bytecount))) / 1000L; 
247 return (9107L + BW HOST DELAY + tmp): 

248 } /* end not Isoc */ 

249 

250 /* for isoc: */ 

251 

252 tmp = (8354L * (31L + 10L * RitTime (bytecount))) / 1000L; 

253 return (((input dir) ? 7268L : 6265L) + BW HOST DELAY + imp); 
254 } 


具体 的 计算 涉及 USB 总 线 的 物 埋 性 质 ， 我 们 在 这 时 从 略 ， 有 兴趣 或 需 此 的 读者 可 参阅 USB 总 线 
1.1 版 的 规格 书 。 计 算 的 结果 是 以 毫 微 秒 为 单位 的 占用 总 线 时 间 。 

回 到 usb. check, bandwidth( ) 中 ， 又 通过 NS TO US 将 毫 微 秒 换算 成 微 秒 。 如 果 是 等 时 传输 则 还 要 
除 以 需要 传递 的 数据 信和 包 数 量 ， 因 为 每 个 数据 信和 包 构 成 一 次 交互 ， 即 …' 个 调度 单位 。 属 于 同 .传输 的 
不 同人 交互 一 般 依次 分 布 在 不 同 的 框架 中 ， 而 不 在 同 “框架 中 完成 。 至 于 中 断 传 输 ， 则 只 有 AXE, 
一 个 信和 包 。 连 同 永 来 已 经 分 配 的 带宽 起 ， 总 的 带宽 个 得 超过 定义 于 include/linux/usb.h 的 常数 
FRAME TIME MAX. USECS. ALLOC: 





195 #define FRAME TIME USECS 1000L 
796 #detine FRAME TIME MAX USECS ALLOC (90L * FRAME TIME USECS / 100L) 


就 是 说 ， 不 得 超过 1000 微 秒 的 90%. 

为 了 灶 框 架 的 容量 有 个 大 概 的 印 像 ， 我 们 在 此 不 妨 作 一 个 粗略 的 估算 。 对 于 全 速 设备 ，USB Mf 
的 理论 带宽 是 12Mb， 即 1.5MB, BREA 1024， 则 和 位 个 框架 的 带宽 大 约 是 1.SKB， 实 际 上 当然 达 不 到 这 
么 高 。 如 果 每 个 等 时 交互 的 信和 包 大 小 为 1023 学 节 ， 则 实际 上 在 每 个 框 保山 只 能 调度 一 个 等 时 父 互 ;， 如 
果 信 和 大 小 改 成 $S12 字 节 ， 那 么 也 只 能 调度 其 个 等 时 交互 ; 余 可 炎 推 。 

回 到 uhci submit urb( ) 的 代 伺 中， 如果 可 以 分 配 所 需 的 带宽 ， 吴 串 以 进一步 通过 
uhci submit interrupt( ) 提 交 传 输 请 求 了 。 其 代码 见 drivers/usb/uhci.c e 


[usb_hub_configure( ) > usb submit. urb( ) > uhci submit urb( ) > uhci submit interrupt( )] 


906 static int uhci submit interrupt (struct urb *urb) 

907 { 

908 struct uhci_td *td; 

909 unsigned long destination, status; 

910 struct uhci *uhci = (struct uhci *)urb->dev—->bus—>hepriv;: 
911 

912 if (urb-^transfer buffer length > 


usb maxpacket(urb-^dev, urb->pipe, usb pipeout (urb->pipe))) 
913 return -EINVAL ; 


914 

915 /* The "pipe" thing contains the destination in bits 8--18 */ 

916 destination = (urb->pipe & PIPE DEVEP MASK) | usb packetid(urb->pipe) ; 
917 
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918 status = (urb->pipe & TD CTRL LS) 1D CTRL ACTIVE | TD CTRL IOC; 

919 

920 td = uhci_alloc_td(urb->dev) ; 

921 if (!td) 

922 return -ENOMEM; 

923 

924 destination |= (usb gettoggle(urb-^dev, usb pipeendpoint (urb->pipe), 
usb pipeout (urb->pipe)) << TD TOKEN TOGGLE); 

925 destination |= ((urb->transfer buffer length - 1) << 21): 

926 

927 usb dotoggle(urb—>dev, usb pipeendpoint(urb-^pipe), usb pipeout (urb >pipe)): 

928 

929 uhci add td to urb(urb, td); 

930 uhci fill td(td, status, destination, 

931 virt to bus(urb-^transfer buffer)): 

932 

933 uhci insert td(uhci, &ubci-^skeltdl | interval to skel(urb-^interval)], td); 

934 

935 uhei add urb list (uhei, urb); 

936 

937 return -EINPROGRESS; 

938  ] 


这 个 函数 与 前 面 的 uhei submit. bulk( ) 很 相似 ， 只 是 成 块 传输 可 以 有 多 个 数据 信和 包 ， 而 中 断 传输 只 
有 一 个 信和 包 。 不 过 ， 这 二 省 还 有 个 重要 的 区 别 ， 束 是 成 块 传输 以 传输 为 调度 单位 ， 揪 入 调度 队列 的 是 
一 个 代表 着 成 块 传输 请 求 的 队列 (队列 水 和 车 年 交互 请 求 ); 而 中 断 传输 则 直接 把 父 互 请 求 插入 所 有 中 断 
变 蔚 的 队列 。 那 么 ， 具 体 插 入 到 什么 位 置 上 呢 ? 以 有 前 讲 过 ， 数 组 skeltd[ ]AérP rac HL BAL FUR] "ARS 
把 交互 请 求 插 入 到 这 个 骨架 的 哪 :点 上 就 决定 了 中 断 传输 的 周期 。 所 以 ， 代 码 中 根据 目标 设备 的 中 断 
传输 周期 通过 __interval_to_skel( it $T 138 A exl Pb, HUIUS WL drivers/usb/uhci.h . 


[usb hub configure( ) > usb. submit. urb( ) > uhci submit. urb( ) > uhci submit. interrupt( ) 
» interval to skel( )] 


253 /* 

254 * Search tree for determining where <interval> fits in the 

255 * skclqh[ ] skeleton. 

256 * 

257 * An interrupt request should be placed into the slowest skelghí ] 

258 * which meets the interval/period/frequency requirement. 

259 x An interrupt request is allowed to be faster than «interval? but not slower. 
260 * 

261 * For a given <interval>, this function returns the appropriate/matching 
262 * skelqh[ ] index value. 

203 * 

264 * NOTE: For UHCI, we don't really need int256 qh since the maximum interval 
265 * is 255 ms. However, we do need an intl gh since 1 is a valid interval 
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266 * and we should meet that frequency when requested to do so. 
267 * This will require some change(s) to the UHCI skeleton. 
268 */ 

269 static inline int interval to skel(int interval) 

270 { 

271 if (interval < 16) { 

272 if (interval < 4) | 

273 if (interval < 2) 

274 return 0;  /* inti for 0-1 ms */ 

215 return 1; /* int2 for 2-3 ms */ 

216 } 

277 if (interval < 8) 

278 return 2; /* int4 for 4-7 ms */ 

279 return 3; /* int8 for 8-15 ms */ 

280 } 

281 if (interval < 64) { 

282 if (interval < 32) 

283 return 4; /* intl6 lor 16-31 ms */ 

284 return 5; /* ini32 for 32-63 ms */ 

285 } 

286 if (interval < 128) 

287 return 6; /* int64 for 64-127 ms */ 
288 return 7; /* intl28 for 128-255 ms (Max.) */ 
289 ] 


将 中 断交 互 请 求 插入 调度 队列 以 后 ， 还 要 通过 usb claim bandwidth( E F ÆW, W ede] ae 
宽 又 重复 分 配给 其 他 传输 。 其 代码 见 drivers/usb/usb.c. 


[usb hub configure( ) > usb_submit_urb( ) > uhci_submit_urb( ) > uhci submit interrupt( ) 
> usb claim bandwidth( )] 


307 void usb claim bandwidth (struct usb device *dev, struct urb *urb, 
int bustime, int isoc) 


308 { 

309 dev—>bus—>bandwidth_allocated += bustime; 

310 if (isoc) 

311 dev—>bus—>bandwidth isoc_reqstt; 

312 else 

313 dev->bus->bandwidth int _reqstt; 

314 urb->bandwidth = bustime; 

315 

316 #ifdef USB BANDWIDTH MESSAGES 

317 dbg (“bandwidth alloc increased by %d to %d for %d requesters”, 
318 bustime, 

319 dev—>bus—>bandwidth_a] located, 

320 dev >bus->bandwidth_int_reqs + dev->bus~>bandwidth isoc_reqs) ; 
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321 Hendif 
322 } 


传输 完成 以 后 ， 在 中 断 服务 程 序 中 会 调用 uhci transfer result( )。 前 面 我 们 已 经 看 到 ， 
uhci result bulk( ) 实 际 上 也 是 uhci result interrupt ( )。 

对 于 USB 控 制 器 而 言 ， 中 断 变 互 队列 并 没有 队列 头 ， 所 以 对 中 断交 互 的 执行 不 在 “队列 上 下 文 ” 
中 。 这 样 ，USB 控 制 器 在 执行 完 一 个 中 断交 互 时 就 无 从 推进 队列 头 中 的 指针 《根本 就 不 存在 队列 头 ); 
从 而 不 会 将 中 断交 互 从 (物理 地 址 ) 队 列 中 脱 链 ， 下 一 次 轮 到 同一 个 框架 时 还 会 执行 这 个 交互 请 求 。USB 
控制 器 的 这 种 特殊 设计 ， 与 软件 上 的 安排 结合 在 一 起 ,就 保证 了 中 断交 互 (以 及 等 时 交互 ) 的 周期 性 。 相 
比 之 下 ， 控 制 交 互 与 成 块 交 互 在 执行 完成 以 后 就 从 (物理 地 址 ) 队 列 中 脱 链 了 。 

对 中 断交 互 ,在 uhci_transfer_result( ) 中 执行 了 uhci_result_interrupt( ) 以 后 还 有 一 些 特殊 的 操作 , 我 
们 再 列 出 有 关 的 代 介 片断， 以便 阅读 : 


[uhci interrupt( ) > uhci_transfer_result( )] 


1416 switch (usb pipetype(urb pipe)) { 

1417 case PIPE CONTROL: 

1418 case PIPE BULK: 

1419 case PIPE ISOCHRONOUS: 

1425 break; 

1426 case PIPE INTERRUPT: 

1427 /* Interrupts are an exception */ 

1428 if (urb~>interval) { 

1429 urb->complete (urb); 

1430 uhci reset_interrupt (urb) ; 

1431 return: 

1432 } 

1433 

1434 /* Release bandwidth for Interrupt or Isoc. transfers */ 
1435 /* Spinlock needed ? */ 

1436 if (urb->bandwidth) 

1437 usb release bandwidth (urb->dev, urb, 0); 
1438 uhci unlink generic (urb); 

1439 break; 

1440 } 


中 断 传输 是 周期 性 的 ，usb 结构 中 的 interval 字段 决定 了 它 的 周期 。 显 然 ， 这 个 周期 不 应 该 是 0， 
所 以 可 以 用 0 来 表示 特殊 的 意义 。 事 实 上 ， 当 interval 为 0 时 就 表示 相应 的 传输 是 一 次 性 的 (而 不 是 周 
期 性 的 ) 操 作 。 所 以 , 代码 中 (1436 一 1439 17):5 interval 为 0 时 就 通过 usb release. bandwidth( ) 释 放 带 宽 、 
并 且 通 过 uhci_unlink_generic( ) 释 放 有 关 的 数据 结构 。 与 其 他 三 种 传输 在 此 时 的 操作 (1422~-1424 行 ) 相 
比较 ， 就 可 以 看 出 完全 是 “ 样 的 。 但 是 ，… 次 性 的 中 断 传输 毕竟 是 特殊 情况 ， 实 际 上 interval 总 是 目 0， 
否则 中 断 传 输 就 失去 了 存在 的 意义 。 当 interval dE 0 时， ”方面 先 调用 事先 设置 的 complete eh Zi, MARE 
正在 睡眠 等 待 的 进程 ， 或 者 向 其 发 送 一 个 信号 ;， 另 一 方面 则 调用 A PRX uhi, reset, interrupt( )， 其 代 
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码 在 drivers/usb/uhci.c 中 


[uhci_interrupt( ) > uhci_transfer_result( ) > uhci_reset_interrupt()] 


1014 static void uhci reset interrupt (struct urb *urb) 


1015 { 

1016 struct list head *tmp; 

1017 struct urb priv *urbp = (struct urb priv *)urb~>hepriv; 

1018 struct uhci td *td; 

1019 

1020 if (turbp) 

1021 return; 

1022 

1023 tmp = urbp->list. next; 

1024 td = list entry(tmp, struct uhci td, list); 

1025 if (!td) 

1026 return; 

1027 

1028 td->status = (td->status & Ox2F000000) | TD CTRL ACTIVE | TD CTRL 10C; 

1029 td-»info &- ~ (1 << TD TOKEN TOGGLE) ; 

1030 td->info |= (usb gettoggle(urb ^dev, usb pipeendpoint (urb->pipe), 
usb pipeout(urb-^pipe)) << TD TOKEN TOGGLE); 

1031 usb dotoggle(urb—>dev, usb pipeendpoint (urb->pipe), 
usb pipeout (urb->pipe) ) ; 

1032 

1033 urb->status = -EINPROGRESS; 

1034  ] 


调用 这 个 函数 干什么 呢 ? Aeg TT LH, Axes E PRS CHE RO 交 
T, KI TD CTRL. ACTIVE 标志 位 (以 及 TD_CTRL IOC 标志 位 ) 重 新 设 成 1。 此外， 也 要 翻转 tocken 
信和 包 中 的 序号 位 。 前 面 讲 过 ，USB 控制 器 在 执行 中 断交 互 时 不 将 人 交 占 撒 述 块 脱 链 ， 而 只 是 将 其 
TD CTRL ACTIVE 标志 位 (实际 上 还 有 TD_CTRL_IOC 标志 位 ) 清 0， 以 后 执行 时 就 会 跳 过 这 个 交互 。 
要 使 USB 控制 器 下 一 次 扫描 到 这 个 交互 描述 块 时 再 次 执行 中 断 人 交互, 只 要 把 TD_CTRL_ACTIVE 标志 
位 再 设 成 1 就 行 了 。 所 以 ， 如 果 interval dE 0， 在 执行 完 这 个 函数 后 就 可 以 返 岂 了 (1431 行 )， 中 源 传 输 
的 周期 性 就 是 这 样 通过 硬件 与 软件 的 配合 而 实现 的 。 如 果 interval 为 0， 则 该 次 中 断 传 输 是 “一 次 性 ” 
的 ， 所 以 完成 后 要 释放 占用 的 带宽 并 从 调度 队列 中 脱 链 。 

看 到 这 里 ， 不 知 读者 是 否 感到 有 些 异样 ? 试想 ， 等 时 传输 和 中 断 传 输 一 样 也 是 周期 性 的 ， 理 应 和 
中 断 传 输 受 到 同样 的 处 理 ， 怎 么 反倒 与 控制 传输 和 成 块 传输 为 伍 呢 ? 这 不 是 站 错 了 队 吗 ? 后面 我 们 会 
回答 这 个 问题 。 


扫描 器 和 USB 集中 器 都 厅 使 用 等 时 传输 ， 那 是 专 为 实时 的 音频 以 及 视频 设备 〈 如 电话 、 可 视 电话 

等 等 ) 而 设计 的 。 不 过 ， 在 阅读 了 其 他 三 种 传输 的 代码 以 后 ， 上 再 来 看 等 时 传输 的 代 公 其 实 已 趾 水 到 洪 

成 的 事 了 。 我 们 只 把 注意 力 集中 在 uhci, submit urb( ). uhci_submit_isochronous( ), uhci_transfer_result( 小 

以 及 ubci_result_isochronous( ) 这 几 个 函数 上 ;， 从 驱动 程序 的 角度 来 说 ， 与 其 他 传输 的 区 别 也 就 在 于 这 
.$55. 
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几 个 函数 。 顺 便 提 一 下 ， 与 等 时 传输 有 关 的 函数 名 和 常数 定义 中 常常 出 现 “iso”， 这 表示 isochronous, 
而 跟 “ 国 际 标 准 化 纽 织 ” 毫 无 关系 。 
我 们 先 看 uhci_submit_urb( ) 中 的 片断 (drivers/usb/uhci.c): 


[usb_submit_urb( ) > uhci submit. urb( )] 


1345 case PIPE ISOCHRONOUS: 

1346 if (urb- bandwidth == 0) { /* not yet checked/allocated */ 
1347 if (urb-^number of packets <= 0) { 

1348 ret = -EINVAL; 

1349 break; 

1350 } 

1351 bustime = usb check bandwidth (urb->dev, urb); 

1352 if (bustime < 0) { 

1353 ret = bustime; 

1354 break; 

1355 } 

1356 

1357 ret - uhci submit isochronous (urb); 

1358 if (ret == -EINPROGRESS) 

1359 usb claim bandwidth(urb->dev, urb, bustime, 1); 
1360 } else /* bandwidth is already set */ 

1361 ret = uhci submit isochronous (urb); 

1362 break; 


显然 ， 这 与 与 用 于 中 断 传 输 的 代码 儿 乎 完全 是 - 样 的， 只 不 过 把 uhci submit interrupt( ) 换 成 了 
uhci submit, isochronous( ).. XX EL CS CETTE drivers/usb/uhci.c 


[usb submit urb( ) > uhci submit urb( ) > uhci, submit, isochronous( )] 


1184 static int uhci submit isochronous (struct urb *urb) 

1185 { 

1186 struct uhci td *td; 

1187 struct uhci *uhci = (struct uhci *)urb-»dev-»bus-^hcpriv; 
1188 int i, ret, framenum; 

1189 int status, destination; 

1190 

1191 status = TD CTRL ACTIVE | TD CTRL IOS; 

1192 destination = (urb->pipe & PIPE DEVEP MASK) | usb packetid(urb—pipe); 
1193 

1194 ret = isochronous find start (urb): 

1195 if (ret) 

1196 return ret; 

1197 

1198 framenum = urb-^start frame; 

1199 for (i = 0; i € urb->number of packets; i++, framenumt+) { 
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1200 if (lurb->iso frame desc[i]. length) 

1201 continue; 

1202 

1203 td = uhci alloc_td(urb->dev) ; 

1204 if (!td) 

1205 return  ENOMEM; 

1206 

1207 uhci add td to urb(urb, td); 

1208 uhci fill td(td, status, destination | 
((urb-^iso frame desc[i]. length - 1) << 21), 

1209 virt to bus(urb- transfer buffer + urb-^iso frame desc[i]. offset)) ; 

1210 

1211 if (i + 1 >= urb 2number of packets) 

1212 td->status !- TD CTRL LOC; 

1213 

1214 uhci insert td frame list(uhci, td, framenum); 

1215 } 


At nt feti p AE URES BE IUE Le. AAI :个 信和 的 TD CTRL IOC 位 
才 设 置 成 1〈 见 1211 一 1212 iF), MATARAE ARAA RH a REAREA IE] 
EH BT). 

tT USB 总 线 ， 等 时 信和 包 的 内 容 臣 无 结构 的 字 节 流 ， 其 各 个 信和 包 中 的 数据 往往 都 在 同一 个 大 缓冲 
区 中 ， 而 只 是 位 移 不 同 ， 因 而 不 能 在 各 个 信和 包 缓 冲 区 之 间 插 入 其 他 信息 。 所 以 ， 划 把 每 个 信和 包 缓 冲 区 
的 起 点 与 长 度 另 外 保存 在 某 个 地 方 ， 为 此 在 usb 数据 结构 中 设立 了 一 个 结构 数组 iso_frame_desc[ ], 用 
来 记录 本 次 传输 中 各 个 信人 包 缓冲 区 的 起 点 与 长 度 。 等 时 传输 一 般 是 按 “ 巾 ”进行 的 ， 也 则 “frame”， 
这 里 的 “frame_desc” 是 “ 帧 描述 结构 ”的 意 妃 ， 而 并 不 是 指 “ 框 架 ”。 具 体 设 备 的 驱动 程序 此 在 调用 
usb. submit, urb( ) 之 前 设置 好 这 个 数组 。 

与 中 断 传输 的 调度 不 同 ， 等 时 传输 辈 落实 旬 具 体 的 ( 个 或 多 个 ) 框 架 上 , 构成 该 等 时 传输 请 求 的 各 
个 交互 请 求 旧 持 入 具体 框架 的 队列 路 去。 前 面 的 usb. check bandwidth( H iMP Ine 97 B5] f& [EAE T 
能 够 满足 给 定 等 时 传输 的 蓝 求 ， 但 是 却 并 没有 落实 到 具体 的 椎 架 中 。 所 以 ， 代 码 中 通过 
isochronous_find_start() 寻 找 个 框架 作为 起 点 ， 其 代 个 在 drivers/usb/uhci.c 中 : 


[usb submit, urb( ) > uhci submit, urb( ) > uhci submit isochronous( ) > isochronous find start( )] 


1158 static int isochronous find start (struct urb *urb) 

1159 { 

1160 int limits; 

1161 unsigned int start = 0, end . 0; 

1162 

1163 if (urb- number of packets > 900)  /* 900? Why? */ 
1164 return —EFBIG; 

1165 

1166 limits = isochronous lind limits(urb, &start, &end); 
1167 
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1168 
1169 
1170 
1171 
1172 
1173 
1174 
1175 
1176 
1177 
1178 
1179 
1180 
1181 
1182 


} 
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if (urb->transfer flags & USB ISO ASAP) { 
if (limits) { 
int curframe; 


curframe = uhci get current frame number (urb->dev) % UHCJ_ NUMFRAMES: 
urb->start frame = (curframe + 10) % UHCT NUMFRAMES; 
} else 
urb->start frame = end; 
} else { 
urb->start frame %= UHCT NUMFRAMES; 
/* FIXME: Sanity check */ 


return 0; 


等 时 传输 的 信和 包 大 小 取决 于 日 标 设备 ， 但 个 得 超过 1024 字 节 。 当 个 等 时 传输 包含 多 个 信人 包 ， 从 
而 包含 多 个 父 互 时 ， 要 尽量 把 这 些 信 和 包 分 布 到 不 同 的 框 保 路 ， 而 个 是 先 把 一 个 框架 填 满 (909%) 以 后 ,再 
前 进 到 下 .个 框架 。 进 一 步 ， 对 同一 日 标 设备 的 不 同等 时 传输 也 应 尽量 分 布 到 不 同 的 框架 小， 站 避免 
使 一 个 框 点 被 同一 目标 设备 的 交互 使 用 多 次 。 所 以 ， 代 码 中 先 通过 isochronous_find_limits( ) 看 一 下 对 
于 这 个 等 时 传输 的 起 点 有 省 限制 。 这 个 函数 的 代码 在 drivers/usb/uhci.c F: 


Lusb_submit_urb( ) > uhci, submit, urb( ) > uhci submit isochronous( ) > isochronous, find, start( ) 
> isochronous find limits( )] 


1123 


1124 
1125 
1126 
1127 
1128 
1129 
1130 
1131 
1132 
1133 
1134 
1135 
1136 
1137 
1138 
1139 
1140 
1141 
1142 


static int isochronous find limits (struct urb *urb, unsigned int *start, 


{ 
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unsigned int *end) 


struct urb *last urb = NULL; 

struct uhci *uhci - (struct uhci *)urb-^dev-^bus-^hcpriv; 
struct list head *tmp, *head = &uhci-»urb list; 

int ret = 0; 

unsigned long flags; 


nested_lock (&uhci->urblist_lock, flags); 
tmp = head->next; 


while (tmp !~ head) { 


struct urb *u - list entry(tmp, struct urb, urb list); 
tmp = tmp-^next; 


/* look for pending URB's with identical pipe handle */ 
if ((urb pipe == u->pipe) && (urb->dev == u->dev) && 
(u->status == -EINPROGRESS) && (u != urb)) { 
if (!last_urb) 
*start = u->start_frame; 
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1143 
1144 
1145 
1146 
1147 
1148 
1149 
1150 
1151 
1152 
1153 
1154 
1155 
1156 


} 


last urb = u; 
} 
if (last_urb) { 
*end = (last urb-?start frame + last urb->number_of packets) & 1023; 
ret - 0; 
} else 
ret = -];  /* no previous urb found */ 


nested unlock (&uhci->urblist_lock, flags); 


return ret; 


我 们 把 它 留 给 读者 。 这 个 函数 返回 0 时 表示 对 给 定 等 时 传输 的 起 点 有 限制 , 返回 一 1 则 表示 可 以 任 


意 决定 。 回 到 isochronous_find_start( ) 的 代码 中 ， 标 志 位 USB ISO ASAP 表示 “ 愈 早 您 好 (as soon as 
possible)"; 所 以 。 如 上 果 可 以 任意 决定 就 从 USB 主 控 器 的 寄存 器 中 读 入 当前 的 框架 号 ， 在 此 基础 上 加 
10 作为 起 点 。 不 过 ， 由 于 等 时 父 世 的 执行 是 周期 性 的 ， 所 谓 早晚 只 对 第 一 次 交 忆 有 意义 。 


同 到 uhci submit. isochronous( ) 中 ， 可 以 看 出 通过 uhci_insert_td_frame_list( ) 将 各 个 父 开 请 求 插入 


HEB ASE HEALS AO, 并 县 框架 号 逐次 递增 , 其 起 点 就 是 上 面 通过 isochronous_find_start( ) 确 定 的 。 
这 样 ， 就 使 同一 传输 的 各 个 交互 分 布 到 了 不 同 的 框 染 由。 


函数 ubci_insert_td_frame_list( ) 的 代码 在 drivers/usb/uhci.c 中 ， 我 们 把 它 贸 给 读者 。 


[usb_submit_urb( ) > uhci_submit_urb( ) > uhci submit isochronous( ) > uhci insert td frame. list( )] 


200 


201 
202 
203 
204 
205 
206 
207 
208 
209 
210 
211 
212 
213 
214 
215 
216 
217 
218 


static void uhci_insert_td_frame_list (struct uhci *uhci, 


i 


struct uhci td *td, unsigned framenum) 


unsigned long flags; 
struct uhci td *nexttd; 


framenum %= UHCT NUMFRAMES; 
spin lock irqsave(&uhci-^framelist lock, flags); 


td—>frameptr = &uhci-5fl-»frame[framenum]; 
td->link = uhci-^fl-^frame[framenum]; 
if (!(td-»link & (UHCI PTR TERM | UHCT_PTR QD) { 
nexttd = (struct uhci td *)uhci ptr to virt(td->link) ; 
td->nexttd - nexttd; 
nexttd->prevtd = td; 
nexttd->frameptr = NULL; 
} 


uhci-»fl-^frame[framenum] = virt to bus(td); 
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219 spin unlock irgrestore(&uhci-^framelist lock, flags); 
220 } 


T. SERE LI NA AB PAAR BN ATTA ESS, MAI RPE IE TFI IRS HB 
样 是 以 整个 传输 为 单位 将 个 队列 挂 入 调度 系统 中 ，。 

USB 控制 器 对 等 时 交互 的 执行 与 中 断交 上 灶 相 似 。 由 十 等 时 交互 队列 物理 上 并 没有 队列 头 ， 夫 而 等 
时 交互 的 执行 不 在 “队列 上 下 多” 中 。 这 样 ， 主 控制 器 在 执行 完 一 个 等 时 交互 时 便 不 会 推进 队列 头 中 
的 指引， 所 以 不 会 将 等 时 父 互 从 队列 中 脱 链 。 

在 路 断 上 服务 程序 中 调用 的 uhci result isochronous( ) 与 其 他 传输 大 同 小 异 。 这 个 函数 的 代码 在 
drivers/usb/uhci.c 中 ， 我 们 把 它 留 给 读者 。 


[uhci interrupt( ) > uhci_transfer_result( ) > uhci result isochronous( )] 


1222 static int uhci result isochronous (struct urb *urb) 


1223 { 

1224 struct list_head *tmp, *head; 

1225 struct urb priv *urbp = (struct urb priv *)urb-^hcpriv; 

1226 int status; 

1227 int i, ret = 0; 

1228 

1229 if (!urbp) 

1230 return -EINVAL; 

1231 

1232 urb-^actual length = 0; 

1233 

1234 i = 0; 

1235 head = &urbp->list; 

1236 tmp = head->next; 

1237 while (tmp != head) { 

1238 struct uhci td *td - list_entry(tmp, struct uhci td, list); 

1239 int actlength; 

1240 

1241 tmp = tmp->next; 

1242 

1243 if (td->status & TD CTRL ACTIVE) 

1244 return -EINPROGRESS; 

1245 

1246 actlength ~ uhci actual length(td-»status); 

1247 urb-^iso frame desc[il.actual length - actlength; 

1248 urb->actual length t= actlength; 

1249 

1250 status = uhci map status(uhci status bits(td >status), 
usb pipeout (urb pipe)); 

1251 urb-^iso frame desc[i].status — status; 

1252 if (status != 0) { 

1253 urb->error_countt++; 
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1254 ret = status; 
1255 } 

1256 

1257 itd; 

1258 } 

1259 

1260 return rel; 

126  ] 


介 是 ， 就 如 前 面 所 指出 的 ，uhci_transfer_result( O P Xt 55H 44 $8 AG ARTE eR, nÀ E SEA) US, 
是 应 该 特殊 而 没有 特殊 ， 把 周期 性 的 等 时 传输 混同 于 非 周 期 性 的 控制 传输 和 成 块 传输 了 。 我 们 再 来 看 
uhci transfer result( ) 中 的 有 关 片 段 (drivers/usb/uhei.c): 


[uhci interrupt( ) > uhci_transfer_result( )] 


1416 switch (usb pipetype(urb-^pipe)) { 

1417 case PIPE CONTROL: 

1418 case PIPE BULK: 

1419 case PIPE ISOCHRONOUS: 

1420 /* Release bandwidth for Tnterrupt or Isoc. transfers */ 
1421 /* Spinlock needed ? */ 

1422 if (urb- bandwidth) 

1423 usb release bandwidth(urb-^dev, urb, 1); 
1424 uhei unlink generic(urb); 

1425 break; 

1426 case PIPE INTERRUPT: 

1439 break; 

1440 } 

1441 

1442 if (urb—>next) | 

1443 turb = urb »next; 

1444 do { 

1445 if (turb-^status !- -EINPROGRESS) | 
1446 proceed = 1; 

1447 break; 

1448 } 

1449 

1450 turb = turb-^next ; 

1451 } while (turb && turb != urb && turb != urb->next); 
1452 

1453 if (turb — urb |. turb == urb >next) 
1454 is ring - 1; 

1455 } 

1456 

1457 if (urb->complete && !proceed) { 

1458 urb->complete (urb) ; 
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1459 if (!proceed && is ring) 

1460 uhci submit urb(urb); 

1461 ] 

1462 

1463 if (proceed && urb next) | 

1464 turb = urb->next; 

1465 do { 

1466 if (turb->status != -EINPROGRESS && 
1467 uhci submit urb(turb) != 0) 
1468 

1469 turb = turb-^next; 

1470 } while (turb && turb != urb->next) ; 
1471 

1472 if (urb->complete) 

1473 urb->complete (urb); 

1474 } 


AK, USB 控制 器 在 执行 等 时 交互 以 后 不 将 其 脱 链 ， 就 是 为 了 保证 其 周期 性 。 可 是 ， 这 里 仍旧 遂 
过 uhci_unlink_generic( ) 将 整个 等 时 传输 请 求 从 全 部 有 关 的 队列 中 脱 链 ， 其 中 也 包括 从 采用 物理 地 址 的 
队列 中 脱 链 ， 这 是 在 uhci_unlink_generic( ) 中 经 uhci destroy. urb. priv( ) 调 用 uhci_remove_td( ) 完 成 的 ， 
读者 可 以 回 过 去 看 .-- 下 。 也 就 是 说 ， 虽 然 USB 控制 此 的 硬件 不 把 等 时 交 扫 从 执行 队列 中 脱 链 ， 可 是 软 
件 还 是 在 中 : 断 服 务 程序 中 把 它 脱 链 了 。 为 什么 呢 ? 这 要 与 上 面 1442 一 1474 行 的 代 但 结合 起 米 看 。 前 而 
讲 过 ， 这 段 代码 的 日 的 是 使 等 时 传输 流水 线 化 。 我 们 以 电 放 为 例 来 说 明 为 什么 有 这 个 问题 。 假 定 有 个 
IP 电话 机 接 在 USB 总 线 上 ， 通 过 等 时 传输 与 主机 通信 ， 并 由 主机 中 的 软件 和 网 络 接口 建立 起 与 对 外 的 
连接 。 为 这 个 目的 ,在 USB 总 线 上 至 少 要 建立 起 两 个 等 时 传输 ， 分 别 用 村 正 及 两 个 方向 。 我 们 考虑 其 
中 从 主机 到 电话 机 这 个 方向 的 等 时 传输 。 如 果 从 网 上 接收 到 了 米 晶 对方 的 数据 ， 并 通过 这 惟一 的 一 个 
等 时 传输 发 送 给 电话 机 ， 那 么 中 话机 每 一 秒 钟 才 中 断 一 次 ， 得 次 得 到 够 用 一 秒 钟 的 数据 量 。 可 是 ， 这 
一 来 从 主机 到 电话 机 这 一 - 段 路 上 就 有 了 一 秒 钟 的 时 差 。 对 丁 有 些 应 用 ， 这 固定 的 一 秒 钟 时 站 是 可 以 接 
受 的， 但 是 对 丁 电 话 却 是 不 可 接受 的 。 要 解决 这 个 问题 ， 就 内 好 把 传输 的 单位 分 小 ， 例 如 分 成 每 50 毫 
秒 一 个 传输 ， 也 就 是 一 秒 钟 共 20 个 传输 (尽管 是 以 同一 个 端点 为 目标 )， 这 样 就 可 以 使 因为 USB 总 线 
传输 而 引入 的 时 差 降 到 200 毫秒 。 田 :方面 ， 即 使 是 可 以 接受 一 秒 钟 时 差 的 应 用 ， 也 有 个 从 发 生 中 断 
以 后 到 下 一 趟 执行 之 间 是 否 来 得 及 处 埋 的 问题 ， 所 以 一 般 至 少 也 要 实行 “ 双 缓 冲 ”， 即 交替 使 用 两 个 组 
六 区 的 方法 。 具 体 到 等 时 传输 ， 就 是 把 整个 流量 分 成 两 个 传输 。 所 以 ， 需 要 通过 等 时 传输 传递 的 流量 
总 是 分 成 N 个 传输 ，N 为 1 只 是 个 特例 。 对 于 这 N 个 传输 ，usb 结构 中 提供 了 一 个 指针 next, HRE 
这 些 传输 的 usb 结构 连 成 一 个 坏 。 每 当 有 一 个 传输 完成 而 发 生 中 断 时 ， 都 搓 这 个 传输 从 调度 系统 中 搞 
下 来 ， 供 设备 驱动 程序 的 高 层 或 应 用 软件 处 理 ， 同 时 就 将 上 一 次 (或 上 几 次 ) 摘 下 的 传输 再 提交 回调 
度 系统 。 如 此 周而复始 ， 就 使 整个 流量 分 布 得 均匀 了 。 我 们 把 14421474 a Wee A. 
注意 凡是 已 经 提交 而 尚未 执行 的 传输 其 状态 必定 是 一 EINPROGRESS。 老 么 ， 如 果 确 实 只 要 个 传输 就 
可 以 了 呢 ? 可 以 让 它 的 指针 next 指出 白 己 ， 这 样 在 1460 IRAE EL CBE ASA SIRE RR ERE 

从 总 体 上 看 ， 宏 观 地 看 ， 这 样 的 设计 当然 是 很 合理 (和! 且 很 必要 》 的 ， 但 是 ， 从 实现 的 细节 看 则 
还 可 改进 。USB 控制 器 之 所 以 只 将 在 队列 上 下 文中 的 交 此 请 求 从 执行 队列 中 摘 下 ， 遇 让 不 华 队 列 上 下 
文中 的 人 交互 请 求 留 企 队 列 中 ， 就 是 因为 考虑 到 了 这 些 交 互 请 求 是 周期 性 的 。 遇 现在 伟 要 将 这 些 交 互 请 
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求 反 复 地 摘 下 又 挂 上 ， 岂 不 是 没有 “把 政策 用 足 ”? 再说， 内 要 不 将 交互 请 求 中 的 TD_CTRL_ACTIVE 
标志 位 设 成 1， 即 使 留 企 队列 中 也 没有 关系 ，USB 控制 器 在 执行 时 如 发 现 一 个 交互 请 求 处 十 “不 活跃 ” 
状态 就 会 跳 过 它 继续 往 前 执行 。 还 有 ， 交 互 请 求 与 缓冲 区 之 间 的 惟一 联系 只 是 一 个 指针 link, RAY 
虐 时 也 还 可 以 “ 山 不 转 水 转 ”， 让 交互 请 求 留 在 队列 中 测 让 缓冲 区 周转 。 总 之 ， 用 于 等 时 传输 的 这 段 代 
码 是 可 以 优化 的 。 等 时 传输 的 实 击 还 是 比较 新 的 ， 还 不 像 内 核 的 主体 部 分 那样 已 经 经 历 了 无 数 人 的 横 
挑 鼻 子 竖 挑 眼 ， 还 没有 来 得 及 走 过 比 较 深入 的 优化 、 改 进 的 阶段 ， 这 也 是 可 以 理解 的 。 

不 过 ， 尽 管 有 待 改 进 ， 等 时 传输 的 功能 还 是 完整 的 ， 并 已 用 于 具体 的 没 备 。 

结合 以 上 的 解释 ， 读 痢 应 该 不 难 恋 懂 与 等 时 传输 有 关 的 这 几 个 函数 ， 从 而 型 解 等 时 传输 的 机 型 与 
过 程 。 可 是 ， 不 结合 具体 的 设备 来 看 这 些 代 但 总 令 人 有 点 “脱离 实际 ”的 感觉 ， 所 以 我 们 找 了 一 个 摄 
像 机 的 驱动 程序 作为 实例 ， 使 读者 串 以 看 到 具体 的 设备 怎样 建立 起 USB 总 线 上 的 等 时 传输 ， 又 怎样 道 
过 等 时 传输 在 应 用 进程 与 设备 之 问 传递 数据 。 与 这 种 摄像 机 有 关 的 代码 都 在 drivers/usb/ibmcam.c 和 
drivers/usb/ibmcam.h 两 个 文件 中 ， 我 们 在 这 里 引用 的 只 起 其 中 的 -一 部 分 。 

同样 ， 摄 像 机 的 驱动 程序 也 是 通过 系统 调用 ioctl ) 实 现 对 设备 的 控制 ， 具 体 的 函数 为 
ibmcam_ioctl( ). 与 前 面 的 扫描 器 最 动 不 同 的 是 , 对 摄像 机 的 驱动 基本 上 是 在 内 核 中 实现 的 , 所 以 其 “ 设 
ARIE” 比 我 们 前 面 看 到 的 要 厚 一 些 , 例如 在 ibmcam, ioctl( ) 中 就 实现 了 不 少 具 体 的 控制 命令 。 但 是 ， 
我 们 在 这 里 并 不 关心 摄像 机 中 的 具体 资源 《例如 有 些 什 么 寄存 器 ) 以 及 对 这 些 资源 的 其 体操 作 《〈 例 如 
怎样 设置 色调 等 等 )， 而 以 控制 传输 为 手段 来 实施 这 些 操 作 这 一 个 “上 基本 点 ” 则 是 相同 的 。 所 以 我 们 把 
ibmcam ioctl( ) 太 有 关 的 代码 留 给 进一步 有 兴趣 的 读者 。 

这 里 ， 我 们 先 看 等 时 传输 的 建立 。 这 是 由 ibmcam init isoc( ) 在 打开 摄像 机 设备 文件 时 完成 的 。 


[ibmcam, open( ) > ibmcam, init, isoc( )] 


2148 static int ibmcam init isoc(struct usb ibmcam *ibmcam) 
2149 { 

2150 struct usb device *dev = ibmcam->dev; 

2151 int i, err; 

2152 

2153 if (!IBMCAM IS OPERATTONAL Ci bmcam) ) 

2154 return —EFAULT; 

2155 

2156 ibmcam->compress = 0; 

2157 ibmcam—>curframe = -1; 

2158 ibmcam—>cursbuf = 0; 

2159 ibmcam->scratchlen + 0; 

2160 

2161 /* Alternate interface 1 is is the biggest frame size */ 
2162 i = usb_set_interfacc (dev, ibmcam->iface, ibmcam->ifaceAltActive) ; 
2163 if Gi <0) { 

2164 printk (KERN ERR "usb set interface error\n”); 
2165 ibmcam-^last error = i; 

2166 return —EBUSY; 

2167 ) 

2168 usb ibmcam change lighting conditions (ibmcam); 
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2169 
2170 
2171 
2172 
2173 
2174 
2175 
2176 
2177 
2178 
2179 
2180 
2181 
2182 
2183 
2184 
2185 
2186 
2187 
2188 
2189 
2190 
2191 
2192 
2193 
2194 
2195 
2196 
2197 
2198 
2199 
2200 
2201 
2202 
2203 
2204 
2205 
2206 
2207 
2208 
2209 
2210 
2211 
2212 
2213 
2214 
2215 
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usb ibmcam set sharpness (ibmcam) ; 
usb ibmcam reinit iso(ibmcam, 0); 


/* We double buffer the Tso lists */ 


for (i20; i < TBMCAM NUMSBUF; i++) { 
int j, k; 
urb t *urb; 


urb = usb alloc urb(FRAMES PER DESC) ; 

if (urb == NULL) | 
printk(KERN ERR "ibmcam init isoc: usb init isoc( ) failed. W^); 
return —ENOMEM; 

} 

ibmcam—>sbuf [i]. urb = urb; 

urb-»dev = dev; 

urb-?context - ibmcam; 

urb->pipe = usb rcvisocpipe(dev, ibmcam-^video endp); 

urb-^transfer flags - USB 180 ASAP; 

urb-^transfer buffer - ibmcam->sbuf [i]. data; 

urb-»complete - ibmcam isoc irq; 

urb-»number of packets = FRAMES PER DESC; 

urb-^transfer buffer length = ibmcam-^iso packet len * FRAMES PER DESC; 

for (j-k-0; j < FRAMES PER DESC; j++, k += ibmcam-^iso packet len) { 
urb->iso_frame_desc[j]. offset = k; 
urb->iso frame desc| j/. length = ibmcam->iso packet len; 


/* Link URBs into a ring so that they invoke each other infinitely */ 
for (i-0; i < IBMCAM NUMSBUF; iti) | 
if ((i+1) € IBMCAM NUMSBUT) 
ibmeam->sbuf[il.urb->next = ibmcam->sbuf[itl]. urb; 
else 
ibmcam—>sbuf [i]. urb->next = ibmcam »sbuf[0]. urb; 


} 


/* Submit all URBs */ 
for (i20; i < TBMCAM NUMSBUF; i++) | 
err = usb submit urb(ibmcam-^sbuf [i]. urb); 
if (err) 
printk (KERN ERR “ibmeam_init_isoc: usb run isoc(%d) ret 9dWn^, 
i, err); 


ibmcam—>streaming = l; 
/* printk (KERN_DEBUG "streaming-l ibmcam->video_endp-$%02x\n", 
ibmcam->video cndp) ; */ 
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2216 return 0; 
gMT- 4 


我 们 把 注意 力 集中 在 从 2172~2212 行 之 间 这 些 代 码 上 。 常 数 IBMCAM, NUMSBUF 在 
drivers/usb/ibmcam.h 中 定义 为 2, 表示 采用 的 是 双 缓 冲 ,但 是 显然 也 可 以 通过 改变 其 定义 而 改 成 多 缓冲 。 
对 于 单 向 、 实 时 要 求 又 不 那么 高 的 视频 信号 ， 一 般 并 缓冲 就 可 以 了 ; 对 交互 式 的 音频 信号 《如 电话 》 
则 有 更 高 的 要 求 。 代 码 中 道 过 一 个 for 循 坏 为 两 个 缓冲 区 分 别 建立 起 urb 数据 结构 ， 并 加 以 初始 化 。 这 
里 的 常数 FRAMES. PER. DESC 定义 为 32。 从 2186 行 可 以 看 出 所 使 用 的 管道 是 通过 usb_rcvisocpipe( ) 
取得 的 ， 因 此 是 输入 方向 的 等 时 传输 。 摄 像 机 没有 输出 方向 的 等 时 传输 。 此 外 ， 从 2189 行 可 见 ， 摄 像 
机 的 中 断 服务 程序 是 ibmcam_isoc_irq( )。 

然后 ， 注 意 2198 一 2204 行 ， 这 里 把 这 些 〈 两 个 或 更 多 ) urb 数据 结构 通过 结构 中 的 指针 next 连 成 
一 个 环 。 

最 后 ，2207 一 2212 行 又 通过 一 个 循环 提交 这 些 urb 结构 。 这 样 ， 对 于 这 个 摄像 机 而 言 ， 每 秒 钟 将 “ 
进行 两 次 等 时 传输 ， 每 次 包括 32 帧 画面 ， 一 共 是 64 帧 ， 但 是 也 可 以 通过 改变 FRAMES. PER. DESC 
的 定义 加 以 改变 。 每 当 完成 其 中 的 … 次 传输 ， 即 32 帧 画面 的 传递 时 ， 就 产生 一 次 中 断 ， 丰 上述 的 


(1445 行 )， 并 再 次 提交 这 个 传输 请 求 (1467 行 )， 最 后 调用 摄像 机 的 中 断 服务 程序 (1473 行 )。 


[uhci, interrupt( ) > uhci transfer result( ) > ibmcam, isoc. irq( )] 


1212 static void ibmcam isoc irq(struct urb *urb) 


1213 { 

1214 int len; 

1215 struct usb ibmcam *ibmcam = urb->context; 
1216 struct ibmcam sbuf *sbuf; 

1217 int i; 

1218 

1219 /* We don’t want to do anything if we are about to be removed! */ 
1220 if (!IBMCAM IS OPERATIONAL (ibmcam)) 

1221 return; 

1222 

1223 sif 0 


eo e 9 9 n 5g 


1233 #endif 


1234 

1235 if (libmcam streaming) { 

1236 if (debug >= 1) 

1237 printk (KERN DEBUG "ibmcam: oops, not streaming, but interrupt\n”) ; 
1238 return; 

1239 } 

1240 

1241 sbuf = &ibmcam->sbuf[ibmcam->cursbuf] ; 

1242 

1243 /* Copy the data received into our scratch buffer */ 
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1244 len = ibmcam compress isochronous(ibmcam, urb); 
1245 

1246 ibmcam-^urb count-**; 

1247 ibmcam-^»urb length = len; 

1248 ibmcam-^data count += len; 

1249 

1250 aif 0 


e 9 or o n n 


1257 #endif 


1258 
1259 /* Tf we collected enough data let's parse! */ 
1260 if (ibmcam->scratchlen) { 
1261 /* If we don't have a frame we're current working on, complain */ 
1262 if (ibmcam->curframe >= 0) 
1263 ibmcam parse data (ibmcam) ; 
1264 else { 
1265 if (debug >= 1) 
1266 printk (KERN_DEBUG 
"ibmcam: received data, but no frame available\n’): 
1267 ) 
1268 } 
1269 
1270 for (i = 0; i < FRAMES PER DESC; i++) { 
1271 sbuf-^urb-^iso [rame desc[i].status = 0; 
1272 sbuf-^urb-^iso frame desc[i]l.actual length = 0; 
1273 } 
1274 
1275 /* Move to the next sbuf */ 
1276 ibmcam->cursbuf = (ibmcam-5cursbuf + 1) % TBMCAM NUMSBUF; 
1277 
1278 return; 
1279 } 


这 里 主要 的 操作 是 1244 行 对 ibmcam_compress_isochronous( ) 的 调用 ,这 将 把 从 摄像 机 读 入 的 原始 
数据 复制 到 男 一 个 缓冲 区 中 。 这些 原始 数据 想 经 过 斥 缩 的 ， 所 以 还 要 通过 ibmcam parse data( ) 解 压缩 。 
解除 了 压缩 的 数据 就 留 侍 缓冲 区 中 ， 等 待 应 用 进程 道 过 系统 调用 读 取 。 在 等 时 传输 中 ， 对 缓冲 区 的 写 
入 和 读 出 道 常 没有 互 锁 和 同步 ， 如 果 应 用 进程 尚未 把 前 -次 传输 中 来 自 摄 像 机 的 数据 读 走 ， 而 后 面 的 
数据 又 来 了 ， 就 会 把 前 -次 的 数据 敌 盖 掉 。 

对 搬 像 机 的 数据 通道 只 有 输入 没有 输出 ， 所 以 其 系统 调用 write( ) 为 空 操 作 ， 而 read( ) 的 实现 则 为 


ibmcam, read( ). 


2143 static long ibmcam read(struct video device *dev, char *buf, 
unsigned long count, int noblock) 

2744 { 

2745 struct usb ibmcam *ibmcam = (struct usb ibmcam *) dev: 

2746 int frmx = -1; 
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0 


2747 
2748 
2749 
2750 


2751 
2752 
2753 
2754 
2155 
2156 
2757 
2758 
2759 
2760 
2761 
2762 
2763 
2764 
2765 
2766 
2767 
2768 
2769 
2770 
2771 
2772 
2113 
2114 
2115 
2116 
2777 
2778 
2779 
2780 
2781 
2782 
2783 
2784 
2785 
2786 
2787 
2788 
2789 
2790 
2791 
2792 
2793 


volatile struct ibmcam frame *frame; 


if (debug >= 1) 
printk (KERN_DEBUG 
"ibmcam read: %ld bytes, noblock=%d\n”, count, noblock) ; 


if (!IBMCAM TS OPERATIONAL (ibmcam) || (buf == NULL) 
return -EFAULT; 


/* See if a frame is completed, then use it. */ 
if (ibmcam—frame[0]. grabstate >= FRAME DONE)  /* DONE or ERROR */ 


frmx = 0; 
else if (ibmcam—>frame[1]. grabstate >= FRAME DONE)/* DONE or ERROR */ 
frmx = 1; 


if (noblock && (frmx == -1)) 
return —EAGAIN; 


/* If no FRAME DONE, look for a FRAME GRABBING state. */ 
/* See if a frame is in process (grabbing), then use it. */ 
if (frmx == -1) | 

if (ibmcam-^frame[0].grabstate == FRAME GRABBING) 


frmx = 0; 
else if (ibmcam—->frame[1]. grabstate == FRAME GRABBING) 
frmx = 1; 


} 


/* lf no frame is active, start one. */ 
if (frmx == -1) 
ibmcam new frame(ibmcam, frmx - 0) ; 


frame = &ibmcam—>frame[frmx] ; 


restart: 


if (!IBMCAM TS OPERATIONAL (ibmcam)) 
return -ETO; 
while (frame-^grabstate == FRAME GRABBING) { 
interruptible sleep on((void *)&frame->wq) ; 
if (signal pending(current)) 
return —EINTR; 
} 


if (frame~>grabstate == FRAME ERROR) | 
frame—^bytes read = 0; 
if (ibmcam new frame(ibmcam, frmx)) 
printk(KERN ERR "ibmcam read: ibmcam new frame error\n’); 
goto restart; 
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2794 
2795 if (debug >= 1) 
2796 printk (KERN DEBUG 
"ibmcam read: frmx=%d, bytes read=%ld, scanlength=%ld\n’, 
2797 frmx, frame->bytes_read, frame—>scanlength) ; 
2798 
2799 /* copy bytes to user space; we allow for partials reads */ 
2800 if ((count + frame~>bytes_read) > frame—>scanlength) 
2801 count = frame~>scanlength - frame—>bytes_ read; 
2802 
2803 if (copy to user(buf, frame->data + frame—bytes read, count)) 
2804 return -EFAULT; 
2805 
2806 {rame—>bytes read += count; 
2807 if (debug >= 1) 
2808 printk(KERN DEBUG 
“ibmcam read: {copy} count used-Xld, new bytes read-*ldWn", 
2809 count, frame->bytes read); 
2810 
2811 if (frame~>bytes_read >= frame-^scanlength) { /* All data has been read */ 
2812 frame-^5bytes read = 0; 
2813 
2814 /* Mark it as available to be used again. */ 
2815 ibmcam-^frame|frmx].grabstate = FRAME UNUSED; 
2816 if (ibmcam new frame(ibmcam, frmx ? 0 : 1)) 
2817 printk(KERN ERR "ibmcam read: ibmcam new frame returned error\n’): 
2818 ] 
2819 
2820 return count; 
2821 ] 
这 段 代 码 就 留 给 读者 了 。 


最 后 ， 我 们 还 要 看 一 下 对 传输 超时 的 处 理 。 对 控制 传输 和 成 块 传输 的 调度 是 不 预先 分 配 带 宽 的 ， 
所 以 有 可 能 虽然 把 一 个 传输 (特别 是 成 块 传输 ) 挂 入 了 队列 ， 却 很 长 时 间 不 能 得 到 执行 。 另 . 方面 ， 
我 们 在 前 面 也 提 到 过 ， 如 果 目 标 设备 “ 时 不 能 完成 所 要 求 的 传输 ， 例 如 要 求 从 扫描 器 读 入 数据 ， 可 是 
扫描 器 老 是 因为 无 数据 可 读 而 返回 NAK， 则 也 会 造成 超时 。 在 这 些 情 况 下 应 该 有 个 机 制 ， 让 等 待 时 间 
过 区 的 传输 请 求 因 超时 而 失败 。 为 此 ， 在 根 集中 器 的 初始 化 过 程 中 通过 rh, init int timer( ) 设 置 了 一 个 
ERA fE CPU 每 隔 一 段 时 间 就 来 扫描 一 遍 USB 总 线 的 urb_list， 检 查 各 个 传输 是 耕 已 经 超时 。 这 个 
函数 的 代码 在 drivers/usb/uhci.c FP: 


1774 /* Root Hub INTs are polled by this timer */ 
1775 static int rh init int timer (struct urb *urb) 


1776 { 

1777 struct uhci *uhci = (struct uhci *)urb->dev->bus—hepriv: 
1778 

1779 uhci-?rh. interval = urb-^interval; 
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1780 
1781 
1782 
1783 


1784 
1785 
1786 
1787 


1730 
1731 
1732 
1733 
1734 
1735 
1736 
1737 
1738 
1739 
1740 
1741 
1742 
1743 
1744 
1745 
1746 
1747 
1748 
1749 
1750 
. 1751 
1752 
1753 
1754 
1755 
1756 
1757 
1758 


1759 
1760 
1761 
1762 
1763 


) 
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init_timer (&uhci->rh. rh_int timer); 
uhci->rh. rh_int_timer. function = rh int timer do; 
uhci~>rh. rh_int_timer. data = (unsigned long)urb; 
uhci~>rh. rh_int_timer. expires = 
jiffies + (HZ * (urb->interval < 30 ? 30 : urb interval)) / 1000; 
add timer(&uhci— rh.rh int timer); 


return 0; 


当 定 时 器 到 点 时 ，CPU REHAT rh int timer do0， 其 代码 就 在 同一 文件 中 ; 


static void rh int timer do (unsigned long ptr) 


{ 


struct urb *urb = (struct urb *)ptr; 

struct uhci *uhci = (struct uhci *)urb->dev—->bus—>hepriv: 
struct list head *tmp, *head = &uhci—urb list; 

struct urb priv *urbp; 

int len; 

unsigned long flags; 


if (uhci->rh. send) { 
len = rh send irq(urb); 
if (len > 0) { 
urb-^actual length = len; 
if (urb-^complete) 
urb-^complete (urb) ; 


) 


nested lock(&uhci-^urblist lock, flags); 
tmp = head next; 
while (tmp !- head) { 
struct urb *u - list entry(tmp, urb t, urb list); 


tmp = tmp->next; 


urbp = (struct urb priv *)u—>hepriv; 
if (urbp) { 
/* Check if the FSBR timed out */ 
if (urbp->fsbr && 
time after eq(jiffies, urbp-^inserttime + IDLE TIMEOUT) ) 
uhci fsbr timeout(uhci, u); 


/* Check if the URB timed out */ 


if (u- timeout && time after eq(jiffies, u->timeout)) { 
u-^transfer flags |= USB ASYNC UNLINK | USB TIMEOUT KTLLED; 
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1764 uhci unlink urb(u); 

1765 } 

1766 } 

1767 } 

1768 nested_unlock (@uhci—->urblist_lock, flags); 
1769 

1770 rh_init_int_timer (urb) ; 

1771 (0j 


这 里 通过 - .个 while (E204 144 uhci 结构 中 的 urb. list 队列 ， 检 查 两 种 超时 。 一 种 是 FSBR BR. 4 
果 一 个 传输 请 求 要 求 通过 回收 每 个 框架 中 的 剩余 时 间 使 其 尽快 得 到 执行 ， 而 实际 上 却 在 
IDLE_TIMEOUT, BI 50 毫秒 以 后 仍 未 得 到 执行 ， 便 说明 系 统 的 负荷 很 大 ， 根本 就 没有 剩余 时 间 可 以 回 
Wr, 因此 通过 uhci_fsbr_timeout( ) 拆 除 为 此 而 建立 的 链接 。 另 一 种 便 是 传输 本 身 的 超时 。 读者 曾经 看 到 ， 
在 提交 传输 请 求 时 说 明了 愿意 等 待 的 时 间 。 根 据 当 时 的 时 间 和 愿意 等 待 的 时 间 ， 就 可 以 计算 出 在 什么 
时 候 超 时 ， 这 就 是 这 里 的 u>timeout。 如 果 当 前 的 时 间 已 经 过 了 这 一 点 ， 那 就 调用 uhci unlink urb(), 
将 这 个 传输 请 求 从 调度 系统 中 脱离 出 米 ， 并 唤醒 正在 等 待 的 进程 ， 就 好 像 对 这 个 传输 请 求 的 执行 已 经 
失败 了 一 样 。 最 后 ， 在 完成 了 扫描 以 后 ， 又 调用 rh_init_int_timer( ) 再 次 设置 好 定时 器 ， 使 整个 过 程 周 
MA. HX uhci unlink. urb ) 的 代码 也 在 drivers/usb/uhci.c 中 ， 我 们 就 把 它 留 给 读者 了 。 


8.10 系统 调用 select() 以 及 异步 输入 /输出 


我 们 以 前 讲 过 ， 一 个 已 打开 文件 可 以 是 常规 文件 ， 也 可 以 是 设备 文件 ， 还 可 以 是 为 进程 问 道 信和 而 
建立 的 管道 或 插口 。 当 已 打开 文件 是 常规 文件 时 ， 从 文件 的 渎 出 宏观 上 是 同步 的 ， 只 要 尚 本 读 到 文件 
的 未 尾 ， 虽 然 启动 读 操 作 的 进程 也 可 能 受 阴 向 进 入睡 虐 ， 等 待 从 做 盘 上 读 入 ， 但 是 我 们 知道 这 个 进程 
在 一 个 有 限 的 短 时 期 以 后 一 定 会 被 唤 盱 ， 这 个 时 期 的 长 短 在 很 大 程度 上 是 可 预测 的 。 如 果 已 经 读 到 了 
文件 的 未 尾 ， 则 更 是 立即 就 可 知道 。 可 是 ， 对 ”: 些 外 部 设备 或 进 穆 问 通信 机 制 的 读 出 就 不 同 了 。 就 合 
键盘 来 说 吧 , 如 果 一 个 应 用 进程 因为 读 键盘 (如 getchar( )) 受 阻 而 进入 睡眠 , 那么 我 们 根本 无 法 预 浏 这 个 
进程 什么 时 候 会 被 唤醒 ， 因 为 我 们 无 法 预测 操作 人 员 何 时 会 按键 盘 。 从 这 个 意义 上 说 ， 对 设备 的 读 文 
件 操作 有 可 能 完全 是 异步 的 。 对 进程 间 通 信 机 制 的 读 文件 操作 也 是 样 。 对 于 这 样 的 已 打开 文件 ,我 
们 更 倾向 于 称 之 为 “IO 通道 "。 如 果 一 个 进程 的 上 作 就 是 等 待 来 自 某 一 个 VO 通道 的 输入 并 作出 反应 ， 
那 就 可 以 用 大 家 熟悉 的 无 穷 while 循环 米 实现 ， 那 就 是 :启动 读 操作 ， 如 果 没 有 输入 数据 就 睡 具 等 待 ， 
被 唤醒 就 说 明 有 了 输入 ， 读 取 输 入 数据 并 作出 反应 后 再 启动 读 操作 ， 如 此 循环 ， 直 至 永远 。 可 是 ， 如 
果 输 入 有 可 能 来 自 两 个 或 更 多 个 VO 通道 呢 ? 我 们 前 面 提 到 过 一 个 用 来 实现 “ 伪 终 端 ” 的 进程 就 是 一 
个 很 好 的 例子 : 这 个 进程 一 方面 监视 着 键 盘 (包括 鼠标 器 ), 一 方面 监视 着 一 个 (或 多 个 ) 进 程 间 通 信 管 道 
无 论 从 哪 -个 通道 有 了 输入 都 到 马上 作出 反应 。 可 是 ， 如 果 应 用 进程 正在 睡眠 等 待 键盘 输入 ， 而 进程 
间 通 信 管道 中 却 有 了 数据 ， 则 应 用 进程 无 法 及 时 读 出 管道 中 的 数据 并 作出 反应 ， 因 为 从 管道 的 角度 看 
该 进程 并 不 在 睡 卢 等待 来 自 这 个 管道 的 输入 ， 从 而 不 会 将 其 喊 醒 。 

在 实际 应 用 中 ， 应 用 软件 常常 需要 同时 监视 若干 个 VO 通道 ， 等 待 来 自 其 中 任何 一 个 通道 的 输入 
数据 并 作出 反应 。 能 够 实现 这 个 目标 的 方法 当然 是 有 的 ， 例 如 计 应 用 进程 先 通过 系统 调用 fentl( ) 把 这 
些 通 道 的 O_ NONBLOCK 标志 位 设 成 1， 然 后 青 通过 系统 调用 read ) 读 ， 此 时 如 果 没有 数据 可 读 就 会 
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立即 返回 一 1， 而 不 会 进入 有 睡眠 。 换 言 之 ， 就 起 让 应 用 进程 工作 于 “ 查 澳 ” 方 式 ， 不 断 地 轮流 查询 各 个 
通道 。 这 样 ， 从 应 用 进程 本 里 的 角度 看 虽然 可 以 达到 HH 的， 但 是 从 系统 的 角度 看 却 大 大 降低 了 系统 的 
效率 ， 在 多数 情况 下 是 不 可 接受 的 。 还 有 个 办 法 是 利用 进程 刘 通 信 机 制 中 的 报 文 队 州 ， 用 一 个 报 文 队 
列 来 作为 输入 数据 的 汇集 点 。 束 好 像 信 箱 一 样 : 信箱 只 有 一 个 ， 信 件 却 可 以 来 自 四 而 八方 ， 全 都 汇集 
到 一 个 信箱 中 (所 以 在 有 的 系统 中 把 报 文 队 麟 称 作 “ 信 箱 ”)。 但 是 ，Linux 内 核 中 的 设备 驱动 程序 并 不 
能 直接 将 输入 数据 转换 成 一 个 报 文 ， 并 投递 到 报 文 队列 中 ， 所 以 还 得 为 键盘 输入 设立 一 个 服务 进程 。 
这 个 进程 就 监视 键盘 (包括 鼠标 器 ) :个 通道 , 只 要 有 输入 就 把 它 转 换 成 报 文 ,并 发 送 到 指定 的 报 文 队列 
中 。 在 相反 的 方面 上 ， 对 来 自 进程 问 通信 管道 的 数据 也 可 以 作 相似 的 处 理 。 这 样 周 然 也 能 达到 要 求 ， 
但 是 系统 中 多 了 两 个 进程 ， 增 加 了 进程 调度 的 负担 ， 也 会 降低 系统 的 效率 (不 过 不 像 前 个 方法 那么 严 
重 )。 

因此 ， 比 较 理想 的 办 法 是 让 进程 的 单 目标 的 睡眠 等 待 变 成 多 月 标的 睡眠 等 待 。 如 果 能 这 样 ， 则 
在 我 们 这 个 例子 中 只 要 应 用 进程 说 明 等 待 的 目标 是 囊 儿 个 通道 就 行 了 。 当 这 几 个 通道 中 的 任何 一 个 有 
输入 数据 时 ， 相 应 的 设备 驱动 程序 就 会 把 睡眠 中 的 进程 唤醒 。 这 样 ， 既 达到 了 上 述 的 目标 ， 又 保持 了 
较 高 的 效率 。 

同样 的 问题 也 存在 十 输出 操作 ， 因 为 有 时 候 党 要 为 输出 而 同时 等 待 堵 丁 个 通道 ， 等 待 这 些 通道 中 
BORE 一 个 或 几 个 满 是 可 以 进行 输出 操作 的 条 件 。 

Linux/Unix 为 此 提供 了 一 个 系统 调用 select( )， 内 核 中 的 实现 为 sys_select( )， 其 代码 在 fs/select.c 
"mi 


251 asmlinkage long 
258 sys select(int n, fd set *inp, fd set *outp, fd set *exp, struct timeval *tvp) 


259 { 

260 fd_set_bits fds; 

261 char *bits; 

262 long timeout; 

263 int ret, size; 

264 

265 Limeout = MAX SCHEDULE TIMEOUT; 

266 if (tvp) { 

267 time t sec, usec: 

268 

269 if ((ret = verify _area(VERIFY READ, tvp, sizeof (*tvp))) 
270 || (ret = | get user(sec, &tvp-^tv sec)) 
271 || (ret - | get user(usec, &tvp-^tv usec))) 
212 goto out nofds; 

213 

214 ret = -EINVAL; 

215 if (sec < 0 || usec < 0) 

276 goto out_nofds; 

277 

278 if ((unsigned long) sec < MAX SELECT SECONDS) { 
279 timeout = ROUND UP(usec, 1000000/HZ) ; 

280 timeout += sec * (unsigned long) HZ; 
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281 } 

282 ] 

283 

284 ret = -EINVAL; 

285 if (n < 0) 

286 goto out nofds; 

287 

288 if (n > eurrent-—^files-^max fdset) 

289 = current—>files—>max_fdset; 

290 

291 /* 

292 * We need 6 bitmaps (in/out/ex for both incoming and outgoing), 
293 * since we used fdset we need to allocate memory in units of 
294 * long-words. 

295 */ 

296 ret = —-ENOMEM; 

297 size = FDS BYTES (n) ; 

298 bits = select bits alloc(size); 

299 if (lbits) 

300 goto out nofds; 

301 fds.in = (unsigned long *) bits; 

302 fds. out = (unsigned long *) (bits + size); 
303 fds. ex = (unsigned long *) (bits + 2*size); 
304 fds.res in = (unsigned long *) (bits + 3*size); 
305 fds.res out - (unsigned long *) (bits * 4*size); 
306 fds.res ex = (unsigned long *) (bits + 5*size); 
307 

308 if ((ret = get fd set(n, inp, fds.in)) || 

309 (ret = get fd set(n, outp, fds.out)) || 

310 (ret = get fd set(n, exp, fds. ex))) 

311 goto out; 

312 zero fd set(n, fds.res in); 

313 zero fd set(n, fds.res out); 

314 zero fd set(n, fds.res ex); 

315 

316 ret = do select(n, &fds, &timeout); 

317 

318 if (tvp && !(current—>personality & STICKY TIMEOUTS)) { 
319 time t sec = 0, usec = 0; 

320 if (timeout) { 

321 sec = timeout / HZ; 

322 usec = timeout % HZ; 

323 usec *= (1000000/HZ) ， 

324 } 

325 put user(sec, &lvp->tv_sec); 

326 put user(usec, &tvp-?tv usec); 

327 } 

328 
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329 if (ret < 0) 

330 goto out; 

331 if (tret) { 

332 ret = —ERESTARTNOHAND; 

333 if (signal_pending (current) ) 
334 goto out; 

335 ret = 0; 

336 } 

337 

338 set fd set(n, inp, fds.res in); 
339 set fd set(n, outp, fds.res out); 
340 set fd set(n, exp, fds.res ex); 
341 

342 out: 

343 select bits free(bits, size); 
344 out nofds: 

345 return ret; 

346 } 


参数 tvp 指向 一 个 timeval MBAR, SHAME ERE PEERS INI [8], n Ede A 0 就 表示 无 限期 
的 胜 眠 等 待 ， 从 系统 调用 返回 时 ， 这 个 数据 结构 表明 还 剩 下 未 用 完 的 睡眠 时 间 。 参 数 inp. outp. exp 
都 是 指向 fd set 数据 结构 的 指针 ， 这 种 数据 结构 是 关 十 已 打开 文件 的 位 图 ， 位 图 中 的 每 一 位 都 代表 着 
当前 进程 的 一 个 已 打开 文件 。 早期 的 系统 中 都 用 一 个 32 位 长 字 作 为 已 打开 文件 位 图 ,因为 那 时 候 一 个 
进程 最 多 只 能 有 32 个 山 打 开 文件 ， 后 来 则 改 成 可 以 灵活 定义 的 fd. set 数据 结构 。 

调用 sys select( ) 时 参数 inp 所 指 的 位 图 表示 当前 进程 在 睡 耻 中 要 等 竺 来自 哪些 已 打开 文件 的 输 
A; 返回 时 则 表明 哪些 已 打开 文件 中 已 经 有 了 输入 。 类 似 地 ，outp 表示 当前 进程 在 睡眠 中 卓 等 待 对 哪 
一 些 已 打开 文件 的 邱 操 作 ; 返回 时 则 表明 对 哪 一 些 已 打开 文件 的 写 操作 已 可 立即 进行 。 全 十 exp, WE 
来 监视 在 哪 一 些 通道 中 发 生 了 异常 。 最 后 ， 参 数 n 表示 调用 时 的 参数 表 中 有 几 个 位 图 。 所 有 这 些 位 图 
以 及 timeval 数据 结构 都 在 用 户 空间 , 所 以 先 要 通过 __get_user( ) 和 __copy_from_user( ) 从 用 户 空间 拒 这 
些 数 据 结 构 复 制 到 内 核 中 ， 返 加 时 则 要 及 过 来 通过 put_user( ) 和 __copy_to_user( ) 从 内 核 中 复制 到 用 户 
空间 。 读 者 对 这 些 代 码 应 该 已 经 部 悉 了 。 

由 于 3 个 位 图 各 自 都 有 “上 归 求 ”和 “结果 ”两 个 版 本 ， 在 操作 的 过 程 中 一 共 需 要 6 个 位 图 。 所 以 ， 
先 要 分 配 一 小 块 空间 用 十 这 6 个 位 图 , 并 通过 get_ftd_set() 把 3 个 要求” 位 图 从 用 户 空间 复制 过 来 (308 一 
310 fT). AX get. fd. set( ) 的 代码 在 include/linux/poll.h F: 


[sys select( ) > set fd set ( )] 


52 f** 

53 * We do a VERIFY WRITE here even though we are only reading this time: 
54 * we ll write to it eventually. 

55 * 

56 * Use "unsigned long” accesses to let user-mode fd set's be long-aligned 
57 */ 

58 static inline 
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59 int get_fd_set (unsigned long nr, void *ufdset, unsigned long *fdset) 
60 { 


61 nr = FDS_BYTES (nr) ; 

62 if (ufdset) { 

63 int error; 

64 error = verify_area(VERIFY WRITE, ufdset, nr); 
65 if (lerror && | copy from user(fdset, ufdset, nr)) 
66 error = —EFAULT; 

67 return error; 

68 } 

69 memset (fdset, 0, nr); 

70 return 0; 

71 } 


操作 的 主体 是 do_select( )， 其 代码 在 fs/selecLc 中 ， 我 们 分 段 阅读 。 


[sys. select( ) > do. select( )] 


163 int do select(int n, fd set bits *fds, long *timeout) 


164 f 

165 poli table table, *wait; 

166 int retval, i, off; 

167 long __ timeout = *timeout; 

168 

169 read_lock (&current—>files—>file lock); 
170 retval = max select fd(n, fds): 

171 read unlock (&current—>files—>file_ lock); 
172 

173 if (retval < 0) 

174 return retval; 

175 n = retval; 

176 

177 poll_initwait (&table) ; 

178 wait = &table; 

179 if (! timeout) 

180 wait = NULL; 

181 retval = 0; 


参数 fds 是 个 指针 ， 指 向 一 个 fd, set bits Ait, ET e 6 个 工作 位 图 ， 其 由 前 3/729 " SK" 
位 图 。170 行 通过 max, select. fd( ) 根 据 这 3 个 位 图 计算 出 本 次 操作 所 涉及 最 大 的 已 打 并 文件 号 是 什么 ， 
所 有 号 码 高 于 这 个 数值 的 已 打开 文件 部 与 本 次 操作 无 关 。 

这 里 用 到 的 数据 结构 poll, table 定义 于 include/linux/poll.h: 


15 typedef struct poll table struct { 
16 int error; 
17 struct poll table page * table; 
18 ) poll table; 
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其 主体 poll_table_page 定义 于 fs/select.c: 





27 struct poll table entry | 


28 struct file * filp; 

29 wait queue t wait; 

30 wait queue head t * wait address; 
ap. ge 

32 

33 struct poll table page | 

34 struct poll table page * next; 

35 struct poll table entry * entry; 

36 struct poll table entry entries[0]; 
37 N 


MQ— SER SEE NERIS, i AREE A RE RPE RAS RE ER, grub? 
准备 好 -一 个 wait queue t 数据 结构 ， 并 将 这 个 数据 结构 挂 入 日 标 设备 的 某 个 等 竺 队列 中 。 读 者 以 前 曾 
多 次 看 到 ， 在 等 待 对 象 单一 时 一 般 部 把 wait queue t 数据 结构 建立 桂 堆 栈 中 。 可 是 ， 存 有 多 个 等 待 对 
象 时 就 不 能 堵 样 了 。 男 一 方面 ， 在 有 多 个 等 竺 对象、 从 而 有 多 个 wait queue t 数据 结构 时 ， 要 有 个 既 
有 效 、 又 灵活 ， 便 于 扩充 的 方法 将 这 些 wait_queue_t 结构 管理 起 来 ， 上 面 这 些 数据 结构 就 正 足 为 此 市 
设计 的 。 这 里 的 poll table entry 数据 结构 既是 对 wait queue t 的 扩充 ， 又 是 对 它 的 “包装 ”。 此 外 ， 
poll table page 结构 中 数组 entries[ ] 的 下 标 为 0， 表示 该 数组 的 大 小 可 以 动态 地 侧 定 。 实 际 使 用 时 总 是 
分 配 个 页 面 ,页面 中 能 容纳 几 个 poll_table_entry 结构 ， 这 个 数组 就 是 多 大 。 使 用 中 指针 entry 总 是 指 
向 entries| ] 中 的 第 一 个 空闲 的 poll table entry 结构 , 根据 需要 动态 邮 分 配 entriesl ] 中 的 表 项 。 一 个 页 十 
用 完了 ， 就 再 分 配 一 个 ， 遂 过 指针 next 连 成 一 条 单 链 。 

函数 do select( ) 中 定义 了 一 个 局 部 的 poll table 数据 结构 table, 177 行 先 对 其 进行 初始 化 
(include/linux/poll.h): 


[sys select( ) > do select( ) > poll, initwait( )] 


28 static inline void poll initwait (poll tablex pt) 


29 { 

30 pit-^error = 0; 

3] pt— table = NULL; 
32 -] 


现在 的 poll_table 还 只 是 个 空 架 子 ， 还 没有 为 其 分 配 任何 页 面 ， 因 为 还 不 知道 到 底 需 要 多 少 。 完 成 
了 这 些 准 备 以 后 ，CPU 就 进入 了 -个 无 盆 for 循环 ， 下 常情 况 下 直 要 到 监视 中 的 某 个 已 打 井 文件 中 
有 了 输入 或 满足 了 其 他 等 待 条 件 ， 或 者 指定 的 睡眠 等 待 时 间 已 经 到 期 ， 或 者 当前 进程 接收 到 了 信守 时 
才 会 结束 。 


[sys_select( ) > do, select( )] 


182 for (;;) { 
183 set current state(TASK INTERRUPTTBLE) ; 
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184 for (i =0;i<n; i++) { 

185 unsigned long bit = BIT(i); 

186 unsigned long mask; 

187 struct file *filc; 

188 

189 off = i / , NPDBITS; 

190 if (!(bit & BITS(fds, off))) 

191 continue; 

192 file = fget (i); 

193 mask - POLLNVAL; 

194 if (file) 4 

195 mask = DEFAULT POLLMASK; 

196 if (file—^f op && file—f_op—>poll) 

197 mask = file->f op—poll(file, wait); 
198 fput (file); 

199 } 

200 if ((mask & POLLIN SET) && ISSET(bit, __IN(fds, off))) { 
201 SET(bit, ^ RES IN(fds, of f)); 

202 retval++; 

203 wait = NULL: 

204 } 

205 if ((mask & POLLOUT SET) && 1SSET (bit, OUT (fds, off))) { 
206 SET (bit, ^ RES OUT(fds, of£)) ; 

207 retval**; 

208 wait = NULL; 

209 } 

210 if ((mask & POLLEX SET) && ISSET(bit, __EX(fds,off))) | 
211 SET(bit, ^ RES EX(fds, off)) ; 

212 retval+t; 

213 wait = NULL; 

214 } 

215 } 

216 wait = NULL; 

217 if (retval || ! timeout || signal pending (current) ) 
218 break; 

219 if(table. error) | 

220 retval = table. error; 

221 break; 

222 } 

223 __timeout = schedule timeout (__ timeout); 

224 } 

225 current->state = TASK RUNNING; 

226 

227 poll freewait (&table); 

228 

229 /* 

230 * Up-to-date the caller timeout. 

231 */ 
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232 *timeout = timeout; 
233 return retval; 
234 ] 


在 这 个 无 穷 for 循环 (182 一 224 47), CPU 通过 另 一 个 内 层 for 循 坏 (184 一 215 行 ) 对 “监视 位 图 ” 
进行 一 次 扫描 ， 这 里 的 宏 操 作 BITS( ) 定 义 于 fs/select.c: 


112 #define BITS(fds, n) Ck — IN(fds, n)|* OUT(fds, n)|* EX(fds, n) 


如 果 三 个 位 图 之 一 中 的 某 一 位 为 1， 就 对 相应 的 已 打开 文件 作 次 询问 (197 行 )， 并 把 询问 的 结果 
汇集 到 fds 所 指 的 fd, set. bits 数据 结构 寺 (200 一 214 行 )。 一 趟 扫描 下 来 以 后 ， 就 检查 一 下 上 述 的 条 件 是 
否 已 经 满足 ， 或 出 了 错 。 如 果 没 有 就 通过 schedule timeout( ) 进 入 睡眠 ， 到 被 唤醒 时 再 在 下 - 轮 循环 中 
作 另 一 次 扫描 。 就 这 样 ， 除 第 一 次 以 外 ， 以 后 都 是 在 进程 被 唤醒 时 才 执 行 一 遍 循环 ， 所 以 从 本 质 上 讲 
是 一 种 do-while 循环 。 

那么 ， 在 什么 情况 下 会 被 唤醒 呢 ? 首先 ， 受 到 询问 的 已 打开 文件 的 设备 驱动 程序 会 把 当前 进程 通 
过 一 个 wait queue t 数据 结构 ， 从 而 poll table entry 数据 结构 ， 挂 入 其 唤醒 队列 ， 使 得 该 设备 的 中 断 
服务 程序 在 接收 到 输入 时 就 会 唤醒 这 个 进程 。 其 次 ， 如 果 指 定 了 时 间 限 制 ， 则 当时 间 到 点 时 也 会 唤醒 
这 个 进程 ， 这 是 因为 进程 在 进入 睡眠 时 都 指定 了 需要 继续 睡眠 的 时 间 。 最 后 ， 如 果 进 程 接收 到 了 信和 号 
也 会 被 唤醒 。 

显然 ， 这 里 的 关键 在 于 对 有 具体 已 打开 文件 ， 即 设备 的 询问 。 从 代码 中 可 以 看 出 ， 这 是 通过 具体 
file, operations 数据 结构 中 提供 的 函数 指针 poll 进行 的 。 我 们 以 前 都 把 注意 力 集中 在 open. read. write 
等 更 为 常用 的 操作 上 ， 有 意 忽略 了 这 个 函数 指针 , 现在 要 回 过 来 关注 这 个 操作 了 。 另 -方面 ,阅读 pol 
操作 的 代码 在 某 种 意义 上 也 是 对 有 关内 容 的 一 次 复习 。 

先 看 对 进程 间 通 信 管道 的 poll 操作 ， 管 道 文件 读 端 的 file operations 数据 结构 定义 十 fs/pipe.c 中 ， 
我 们 表 回 顾 一 下 : 


412 struct file operations read pipe fops = { 
416 poll: pipe_poll, 


420 js 
可 见 ， 管 道 文件 读 端的 poll 操作 是 由 pipe_poll( ) 完 成 的 ， 其 代码 也 在 fs/pipe.c T: 
[sys select( ) > do_select( ) > pipe_poll( )] 


278 /* No kernel lock held - fine */ 


279 static unsigned int 

280 . pipe poll(struct file *filp, poll table *wait) 

2804 f 

282 unsigned int mask; 

283 struct inode *inode = filp->f dentry—>d inode; 
284 
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287 
288 
289 
290 
29] 
292 
293 
294 
295 
296 
297 


} 
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poll wait(filp, PIPE WAIT(*inode), wait); 


/* Reading only -- no need for acquiring the semaphore.  */ 

mask - POLLIN | POLLRDNORM; 

if (PIPE EMPTY (*inode)) 
mask - POLLOUT | POLLWRNORM; 

if (IPIPE WRITERS(*inode) && filp-^f version != PIPE WCOUNTER (*inode)) 
mask |- POLLHUP; 

if (IPIPE READERS (*inode)) 
mask |- POLLERR; 


return mask; 


管道 文件 的 inode 结构 中 有 个 等 待 队列 的 队 头 , LE SERERE EB ETRE BF 


wait, queue, t 数据 结构 挂 入 这 个 队列 。 当 管道 的 状态 发 生变 化 时 ， 若 有 数据 到 来 或 原来 满 的 缓冲 区 变 空 
时 ， 就 会 唤醒 挂 在 这 个 队列 中 的 进 称 。 


22 


宏 操作 PIPE_WAIT( ) 返 回 这 个 队 头 的 地 址 ， 定 义 于 include/linux/pipe fs. i.h: 
#define PIPF WAIT (inode) (& (inode). i pipe wait) 


这 里 的 poll. wait( ) 是 个 inline 函数， 定义 于 include/linux/poll.h: 


[sys_select( ) > do select( ) > pipe_poll( ) > poll_wait( )] 


22 


23 
24 
25 
26 


{ 


} 


extern inline void poll wait (siruct file * filp, 


wait queue head t * wait address, poll table *p) 


if (p && wait address) 
pollwait(filp, wait address, p); 


操作 的 主体 是 __poliwait( )， 这 个 函数 的 代码 在 fs/select.c H: 


[sys select( ) > do select( ) > pipe poll( ) > poll wait( ) > __pollwait( )] 


74 
75 
76 
17 
18 
19 
80 
81 
82 
83 
84 


void | pollwait (struct file * filp, wait queue head t * wait address, poll tahle *p) 


( 
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struct poll table page *table = p-^table; 


if (!table || POLL TABLE FULL(table)) { 
struct poll table page *new table; 


new table = (struct poll table page *) get free page (GFP KERNEL); 
if (!new table) { 
p->error = -ENOMEM; 
set current state(TASK RUNNING) ; 
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85 return; 

86 } 

87 new table-^entry = new table-^entries; 

88 new table-^5next = table; 

89 p-^table = new table; 

90 table - new table; 

91 } 

92 

93 /* Add a new entry */ 

94 { 

95 struct poll table entry * entry = table—>entry; 
96 table-^»entry = entry*l; 

97 get file(filp); 

98 entry—->filp = filp; 

99 entry~>wait_address = wait address; 

100 init waitqueue entry (&entry->wait, current); 
101 add wait queue(wait address, &entry~>wait) ; 
102 } 

103} 


如 果 还 没有 用 十 poll table page 结构 的 页 面 ， 或 者 最 后 分 配 的 页 面 已 经 用 完 出 不 再 有 空 闪 的 
poll table entry 结构 ， 就 要 为 其 分 配 -个 新 的 页 面 ， 扩 充 其 容 量 。 

然后 将 poll_table_page 结构 中 的 下 一 个 poll table entry. 数据 结构 用 作 和 连接 件 ， 通 过 它 内 部 的 
wait queue t 结构 wait 挂 入 等 待 队 列 wait_address， 而 这 个 等 待 队列 的 队 头 正 是 在 目标 文件 (通道 ) 的 
inode 结构 中 。 在 wait queue, t 结构 中 包含 着 指向 当前 进程 task_struct 结构 的 指针 ， 这 是 在 100 行 通过 
init_waitqueue_entry( ) 设 置 的 ， 所 以 当 要 将 队列 中 的 进程 唤醒 时 从 wait. queue t 结构 开始 一 个子 就 能 找 
到 相应 进程 的 task_struct 结构 。 

以 前 我 们 常常 看 到 :， 当 一 个 进程 受 阴 的 时 候 ， 一 旦 把 wait queue t 结构 挂 入 一 个 等 待 队列 ， 蕊 上 
就 会 通过 schedule( ) 进 入 有 睡眠。 内 核 代码 中 还 有 一 组 宏 操 作 wait_event( ) 和 wait_event_interruptible( ), 
把 这 二 者 组 合 在 了 … :起 ( 见 第 4 章 )， 以 致 人 们 往往 不 知 不 觉 地 把 挂 入 等 待 队 诈 与 进入 睡眠 划 上 了 等 号 。 
其 实 ，--- 个 进程 通过 一 个 wait queue t 结构 挂 入 一 个 等 待 队 列 只 是 向 队列 的 “主人 ” 挂 上 一 个 号 ， 让 
它 在 发 生 某 种 事件 时 将 其 唤醒 ， 而 到 底 起 宪 真 的 入 睡 则 仍 有 自由 。“ 唤 醒 ” 一 个 本 来 就 醒 着 的 进程 并 无 
什么 损害 。 在 do_select( ) 操 作 中 ， 就 把 这 二 者 区 分 开 来 了 。 这 里 ， 每 当 查 询 一 个 通道 时 ， 如 果 这 个 通 
道 没有 数据 可 读 ， 就 都 要 向 该 通道 持 上 一 个 号 ， 通 过 add wait queue( ) 把 一 个 wait queue t 结构 挂 入 该 
通道 的 等 待 对 列 , 但 是 并 不 马上 进入 睡眠 ; 而 是 要 到 对 所 有 的 通道 者 查询 了 一 近 以 后 , 回 到 do select ) 
中 ， 如 果 确 实 需要 睡眠 才 会 真 的 进入 睡眠 。 

当然 ， 如 果 最 后 并 没有 睡眠 ， 或 者 睡眠 以 后 被 其 中 的 一 个 (或 几 个 ) 通 道 唤醒 ， 总 不 能 让 这 些 
wait queue 1 结构 留 在 各 个 等 待 队列 中 ， 所 以 do_select( ) 中 的 227 行 旨 通过 poll, freewait( ) 把 所 有 这 些 
数据 结构 从 各 个 队列 中 摘 下 来 (多 后 )。 

下 面 我 们 就 来 看 进程 的 唤醒 ， 先 看 当 管道 的 写 端 进程 往 管道 中 写 入 ， 从 而 使 得 读 端 有 了 输入 时 的 
情景 。 读 者 在 第 6 SELL pipe_write() 的 代码 ， 我 们 在 这 里 再 把 其 中 与 唤 柄 进 各 有 关 的 片段 摘录 于 下 
(fs/pipe.c): 
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134 static ssize t 
135 pipe write(struct file *filp, const char *buf, size t count, loff t *ppos) 
136 { 


E SE $5 3 4 


209 do { 

210 /* 

211 * Synchronous wake-up: it knows that this process 
212 * is going to give up this CPU, so it doesnt have 
213 * to do idle reschedules 

214 x*/ 

215 wake up interruptible sync(PIPE WAIT (Ckinode)); 

216 PIPE WAITING WRITERS (*inode) ++; 

217 pipe wait (inode); 

218 PIPE WAITING WRITERS (*inode)--; 

219 if (signal pending(current)) 

220 goto out; 

221 if (!PIPE READERS (*inode)) 

222 goto sigpipe; 

223 ) while (!PIPE FREE(*inode)); 

224 ret - -EFAULT; 

225 } 

226 

227 /* Signal readers asynchronously that there is more data. */ 
228 wake up interruptible(PIPE WAIT (*inode)); 

246 } 


至 于 具体 的 唤醒 过 程 ， 读 者 已 经 在 第 4 章 中 阅读 过 有 关 的 代码 ， 我 们 就 不 重复 了 。 这 里 内 是 指出 ， 
在 pipe_write( ) 中 唤醒 的 正 是 在 队列 PIPE_WAIT(*inode) 中 的 进程 ， 也 就 是 这 个 管道 文件 的 inode 数据 
结构 中 的 等 待 队 列 ， 与 前 而 读 端 进程 所 在 的 队 刻 是 一 致 的 。 另 一 方面 ， 唤 醒 这 个 队列 中 的 进程 时 ， 从 
队列 中 的 wait queue t. 结构 就 再 接 可 以 找到 相应 进程 的 task struct. MAM, du E 9 
poll_table_entry 和 poll_table_page 等 数据 结构 的 存在 并 无 关系 。 

再 来 看 另 一 个 实例 ， 我 们 假定 监视 中 的 另 一 个 通道 是 鼠标 器 。 同 样 ， 也 是 从 这 个 设备 的 
file operations 数据 结构 psaux_fops 开始 ， 这 个 数据 结构 定义 于 drivers/char/pc_keyb.c 中 : 


994 struct file operations psaux fops = | 


995 read: read aux, 
996 write: write aux, 
997 poll: aux pol], 
998 open: open aux, 
999 release: release aux, 
1000 fasync: fasync aux, 
1001 r1 


这 个 设备 的 查询 操作 是 由 aux_poll( ) 完 成 的 ， 其 代码 在 同 “文件 (pc_keyb.c) 中 : 
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[sys select( ) > do select( ) > aux, poll( )] 


985 
986 
987 
988 
989 
990 
991 
992 


/* No kernel lock held - fine */ 
static unsigned int aux poll(struct file *file, poll table * wait) 
{ 
poll wait(file, &queuec—proc_list, wait); 
if (!queue empty( )) 
return POLLIN ` POLLRDNORM; 
return 0; 


} 


可 见 ， 这 里 同样 也 调用 poll_wait( )， 不 同 的 是 这 WR ERA WANE inode 数据 结构 中 ， 而 在 更 底层 


的 设备 驱动 程序 中 ， 上 只 体 地 说 是 queue->proc_list。 这 里 的 指针 queue 是 drivers/char/pc_keyb.c 中 的 静态 
"kt, Fain) ^ aux queue 数据 结构 ， 定 义 于 include/linux/pc. keyb.h: 


124 
125 
126 
127 
128 
129 
130 


struct aux queue { 
unsigned long head; 
unsigned long tail; 
wait queue head t proc list; 
struct fasync struct *fasync; 
unsigned char buf[AUX BUF SIZE]; 
ja 


结构 中 有 个 成 分 就 是 proc_list， 这 是 个 等 待 队列 头 ， 即 wait queue head t 数据 结构 。 所 以 ， 把 等 
待 队 刻 放 企 什么 地 方 是 山 共 体 的 驱动 程 记 自己 决定 的 ， 只 要 它 自 己 知 道 在 哪里 等 和 就 色 哪 里 去 唤 盟 就 
可 以 了 .。 前 个 例 了 中 之 所 以 放 在 inode 结构 中 是 因为 管道 没有 揭底 层 的 设备 驱动 程序 了 。 邓 人 么 ， 鼠 标 
器 的 驱动 称 序 是 合 真 的 到 queue-»proc list AREFE? “MSR, Pp Ise drivers/char/pc keyb.c 中 


handle mouse event( ) 的 片段 ; 


[keyboard interrupt( ) > handle kbd event( ) > handle mouse event( )] 


396 
397 
398 


418 
119 
420 
421 
422 


424 
425 


static inline void handle mouse event (unsigned char scancode) 
{ 
#ifdef CONFIG PSMOUSE 
if (head != queue->tail) | 
queue >head = head; 
kill fasync(&queue- ^ fasyne, SIGIO, POLL IN); 
wake up interruptible(&queue >proc list); 


从 共 种 意义 上 说 ，do_select( ) 的 策略 有 点 像 是 “) 种 薄 收 "由 处 登记 要 和 人们 在 发 生 什么 事 时 将 其 
唤醒 ， 但 是 实际 上 只 要 有 -- 个 通道 真 的 发 生 了 什么 而 将 其 唤醒 也 就 可 以 了 。 不 过 ， 唤 醒 以 后 还 得 对 所 


581 . 


Linux 内 核 源 代码 情景 分 析 〔 下 册 》 
有 的 通道 表 轮 询 一 遍 ， 因 为 可 能 有 不 止 一 个 通道 同时 唤 醒 了 这 个 进程 。 道 过 轮 询 ， 根 据 所 得 到 的 信息 
设置 3 个 “结果 ”位 图 并 加 以 计数 ， 就 可 以 知道 到 底 有 几 个 通道 唤醒 了 它 以 及 各 上 自 是 为 什么 原因 。 这 
就 是 do_select( ) 中 的 外 层 for 循环 的 作用 。 最 后 ， 在 正常 情况 下 通过 218 行 的 break 语句 跳出 这 个 无 穷 
for 循环 。 
不 管 有 几 个 通道 唤醒 了 睡眠 中 的 进程 ， 既 然 唤 醒 了 ， 不 需要 再 继续 睡 虐 了 ， 就 要 把 所 有 的 
wait, queue t 结构 从 各 个 等 待 队列 中 搞 下 来 ， 这 是 由 poll_freewait( ) 完 成 的 。 其 代码 在 fs/select.c 中 : 


[sys_select( ) > do_select( ) > poll freewait( )] 


55 void poll, freewait (poll table* pt) 


56 { 

57 struct poll table page * p = pt-^table; 
58 while (p) 1 

59 struct poll table entry * entry; 

60 struct poll tabie page *old; 

61 

62 entry = p->entry; 

63 do { 

64 entry--; 

65 remove wait queue(entry-^wail address, &entry- wait); 
66 fput (entry—>filp) ; 

67 } while (entry > p->entries); 

68 old = p; 

69 p = p->next; 

70 free page((unsigned long) old); 

7] } 

72 } 


我 们 把 这 段 代 码 留 给 读者 。 通 过 这 段 代 码 ， 读 者 应 该 能 体会 到 为 什么 要 通过 poll table entry. 
poll table page. poll table 等 数据 结构 把 所 有 的 wait queue t 结构 组 装 在 -起 的 理由 。 

回 到 sys_select( ) 的 代 但 中 ， 还 要 通过 set fd set()0 3 个 “结果 ”位 图 复制 到 用 户 空间 (338 一 340 
行 )。 函 数 set fd set( ) 的 代码 在 include/linux/poll.h 中 


[sys_select( ) > set. fd set ( )] 


T3 static inline 

74 void set_fd_set (unsigned long nr, void *ufdset, unsigned long *fdset) 
75 { 

76 if (ufdset) 

77 __copy_to_user(ufdset, fdset, FDS BYTES(nr)); 

78} 


最 后 ， 通 过 select_bits_free( ) 释 放 当 初 分 本 用 十 6 个 工作 位 图 的 空间 。 


我 们 以 前 讲 过 ， 许 多 外 部 设备 的 读 操作 本 质 上 是 异步 的 ， 因 为 我 们 事先 无 法 估计 这 些 设备 在 什么 
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时 候 有 数据 可 读 。 另 一 方面， 到 现在 为 上 上， 我 们 看 到 的 读 操 作 从 进程 调度 的 角度 看 部 站 同步 的 ， 内 为 
当 操作 受阻 的 时 候 进 程 就 进入 上 星 有 眠 等待， 这样 才 能 不 浪费 CPU 的 资源 。 般 的 设备 驱动 程序 就 是 这 两 
种 不 同性 质 操作 的 交汇 点 ， 或 者 转换 点 。 设 备 驱 动 程序 的 底层 是 异步 的 中 断 机 制 ， 上 层 却 是 同步 的 睡 
眠 /唤醒 机 制 。 系统 调 用 select ) 把 这 种 转换 从 一 个 通道 推广 到 了 多 个 通道 , 但 是 并 没有 改变 读 操作 在 项 
层 的 同步 性 。 这 样 ， 从 整个 系统 的 角度 看 是 避免 了 效率 的 降低 ， 但 是 从 进程 本 身 的 角度 看 却 林 必 尽 善 
尽 美 ， 因 为 有 时 候 … 个 进程 也 许 既 想 监 视 若 干 个 通道 ， 同 时 又 想 进行 一 些 “ 后 台 ” 计 算 ， 只 是 在 监视 
中 的 某 个 通道 有 事件 发 牛 (例如 有 了 答 入 数据 ) 叶 才 转 到 “前 台 ” 作 出 反应 。 那 么 ， 有 没有 办 法 使 顶层 ， 
即 进程 的 恋 文 件 操作 也 变 成 异步 呢 ? 其 实 , 进 称 本 来 就 有 类 似 于 中 断 的 省 步 操作 机 制 ， 孝 就 是 “信号 ”。 
所 以 ， 只 上 要 把 上 层 的 信号 机 制 与 底层 的 中 断 机 制 结合 起 米 ， 就 能 在 上层 实 现 对 设备 的 异步 操作 ，Linux 
内 核 提供 了 这 样 的 功能 。 

需要 对 设备 的 列 步 操作 时 ， 一 个 进程 必须 作 好 下 列 准备 : 

(D ” 先 打 开 目 标 设备 。 

(2) ”设置 好 对 目标 设备 的 SIGIO 信号 处 理 程序 ， 并 设置 好 信号 出 应 ( 见 第 6 章 )。 

(3) ”通过 系统 调用 fcntl( ) 将 本 进程 设置 成 目标 通道 ( 己 打 开 文 件 ) 的 “主人 ”。 

(4) ”通过 系统 调用 ioctl( ) 将 目标 通道 (已 打开 文件 ) 设 置 成 异步 操作 模 蕊 。 

这 样 ， 当 日 标 设备 的 通道 中 状态 发 生变 化 时 ， 就 会 向 进程 发 出 一 个 SIGIO 信和 号。 平时 这 个 进程 可 
以 从 事 “ 后 台 ” 计 算 ， 当 接收 到 SIGIO 信号 时 就 转 入 前 台 的 信和 号 处 理 程 序 中 ， 完 成 对 设备 的 具体 操作 。 
显然 ， 此 时 的 进程 就 好 像 受到 外 部 设备 中 断 的 CPU 一 样 。 

下 面 我 们 来 看 这 是 怎样 实现 的 。 首 先 ，file 结构 内 部 有 个 成 分 f_owner， 是 一 个 fown_struct 数据 结 
构 ， 定 义 于 include/linux/fs.h: 





492 struct fown struct | 


493 int pid; /* pid or -pgrp where SIGIO should be sent */ 
494 uid t uid, cuid; /* uid/euid of process setting the owner */ 
495 int signum; /* posix. lb rt signal to be delivered on IO */ 
496  ); | 


这 个 数据 结构 的 内 容 可 以 通过 系统 调用 fentl( ) 设 置 ， 下 面 是 sys fent( ) 的 主体 do. fentl( ) 中 的 片段 
([s/fcntl.c): 


[sys fcntl( ) > do. fentl( )] 


229 static long do fentl(unsigned int fd, unsigned int cmd, 


230 unsigned long arg, struct file * filp) 
231  ( 

232 long err = -EINVAL; 

233 

234 switch (cmd) | 

247 

273 case F SETOWN: 

274 lock kernel ( ); 
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275 filp->f_owner. pid = arg: 

276 filp-^f owner.uid - current—>uid; 

277 filp->f_owner, euid - current—>euid; 

278 err = 0; 

279 if (S_ISSOCK (filp->f dentry->d_inode->i_mode)) 
280 err = sock fcntl (filp, F SETOWN, arg); 
281 unlock kernel( ); 

282 break; 

309 } 

310 

311 return err; 

312 ] 


Xf d SD RF eet ASEH ioctl( HE RA RELA S LE f owner, 所 以 这 一 步 往 
往 并 非 必 须 。 除 此 以 外 ， 对 发 送 的 信号 signum 也 可 以 通过 系统 调用 fend ) 另 加 指定 ， 如 果 不 加 指定 就 
是 SIGIO。 

再 看 sys_ioetl( ) 的 片段 ， 取 自 文件 fs/ioctl.c: 


48 asmlinkage long sys ioctl(unsigned int fd, unsigned int cmd, unsigned long arg) 
49 { 


50 struct file * filp; 

5] unsigned int flag; 

52 int on, error = —EBADI; 

53 

54 filp = fget (fd) ; 

58 lock kernel ( ); 

59 switch (cmd) { 

83 case FTOASYNC: 

84 if ((error = get user(on, (int *)arg)) != 0) 
85 break; 

86 flag = on ? FASYNC : O0; 

87 

88 /* Did FASYNC state change ? */ 

89 if ((flag ^ tilp->f flags) & FASYNC) { 
90 if (filp-^f op && filp ^f op-^fasync) 
9] error = filp-^f op >fasync (fd, filp, on); 
92 else error - -ENOTTY; 

93 j 

94 if (error !- 0) 

95 break; 

96 

97 if (on) 

98 filp-^f flags |- FASYNC; 

99 else 
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100 filp-^f flags &- ~FASYNC; 
101 break; 


oot 8 s t ee 


109 } 

110 unlock kernel( ); 
111 fput (filp); 

112 

113 out: 

114 return error; 

115 ] 


进行 ioctl( ) 系 统 调用 时 ， 参 数 cmd 表示 具体 的 “命令 ”代码 ， 而 arg 则 为 对 具体 命令 的 参数 。 对 
于 异步 模式 的 设 壮 ， 命 令 码 cmd 为 FIOASYNC， 而 参数 arg 可 以 是 1 战 0。 

并 非 所 有 的 设备 都 支持 异步 模式 。 支 持 寞 步 模式 的 一 般 都 是 与 人 机 界面 有 关 的 字符 设备 ， 这 些 设 
备 的 file operations 结构 中 的 函数 指针 fasyne 指向 其 用 来 建立 异步 模式 的 函数 。 以 前 面 所 列 鼠 标 器 的 
file operations 结构 psaux_fops 为 例 , 其 指针 fasync 指向 fasync_aux( ), 它 的 代码 在 drivers/char/pc, keyb.c 
中 : 


[sys ioctl( ) > fasync_aux( )] 


860 static int fasync aux(int fd, struct file *filp, int on) 


861 { 

862 int retval; 

863 

864 retval = fasync helper (fd, filp, on, &queue->fasync) ; 
865 if (retval < 0) 

866 return retval: 

867 return 0; 

868  ] 


这 里 的 全 局 量 queue 就 指向 前 面 看 到 过 的 aux, queue 数据 结构 , 里 面 有 个 等 待 队列 proe, list 用 十 进 
程 的 睡眠 /唤醒 机 制 ， 这 我 们 已 经 看 到 过 了 。 但 是 ， 这 个 数据 结构 中 同时 还 有 个 fasync_struct 数据 结构 
Het fasync， 用 来 维持 一 个 单 链 的 “异步 文件 ” 队 刻 (fasync BAS). RX fasync_helper( ) 的 作用 就 是 为 
当前 进程 创建 个 fasync struct 数据 结构 ， 并 将 其 持 入 目标 疫 备 的 fasync 队列 。 这 样 ， 当 目标 设备 的 
通道 中 发 生 某 些 状态 变化 时 ， 就 可 以 顺 着 这 个 队列 给 每 个 有 关 的 进程 都 发 一 个 SIGIO 信和 只。 这 个 函数 
的 代 但 在 fs/fentl.c 小 : 


[sys_ioctl( ) > fasync_aux( ) > fasync_helper( )] 


438 /* 

439 * fasync_helper( ) is used by some character device drivers (mainly mice) 

440 * to Set up the fasyne queue. Tt returns negative on error, O if it did 

441 * no changes and positive if it added/deleted the entry. 

442 */ 

443 int fasync helper (int fd, struct file * Filp, int on, struct fasync struct **fapp) 
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444 { 

445 struct fasync struct *fa, **fp; 

446 struct fasync struct *new - NULL; 

44T int result = 0; 

448 

449 if (on) { 

450 new = kmem cache alloc(fasync cache, SLAB KERNEL); 
451 if (!new) 

452 return —ENOMEM; 

453 } 

454 write lock irq(&fasync lock); 

455 for (fp = fapp; (fa = *fp) != NULL; fp = &fa—^fa next) { 
456 if (fa fa file == filp) | 

457 if (on) { 

458 fa->fa_fd = fd; 

459 kmem_cache_frec(fasync_cache, new); 
460 } else { 

461 *fp = fa->fa_next; 

462 kmem_cache_free(fasync_cache, fa); 
463 result = 1; 

464 } 

465 goto out; 

466 } 

467 } 

468 

469 if (on) ( 

470 new-»magic = FASYNC MAGIC; 

47] new-?fa file = filp; 

472 new->fa fd = fd; 

473 new->fa_next = *fapp; 

474 *fapp = new; 

475 result = 1; 

476 } 

477 out: 

478 write_unlock_irg(&fasyne lock); 

479 return result; 

480 } 


数据 结构 (类 型 )fasync_struct 的 定义 在 include/linux/fs.h 中 : 


597 struct fasync struct | 


598 int magic; 

599 int fa fd; 

600 struct fasyne struct *fa next; /* singly linked list */ 
601 struct file *fa file; 

602 s 
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这 个 数据 结构 中 并 没有 指向 task_struct 结构 的 指针 ， 但 是 有 指向 file 结构 的 指针 ，file 结构 代表 着 
进程 与 文件 的 连接 ， 找 到 了 file 结构 就 可 以 找到 它 的 “主人 ”。 全 于 fasync_helper( ) 的 代码 ， 既 然 这 人 么 
简单 ， 就 不 用 多 说 了 。 
前 面 , 在 handle_mouse_event( ) 的 代码 中 ,我 们 看 到 ,这 个 函数 - 方面 通过 wake up interruptble( ) 
聊 醒 等 待 中 的 进程 ， 同 时 还 调用 了 一 个 函数 kilL_fasync( ): 


[keyboard interrupt( ) > handle kbd event( ) > handle mouse event( )] 


396 static inline void handle mouse event (unsigned char scancode) 
397 { 

420 kill fasync(&queue-^fasync, SIGIO, POLL IM): 

42b  ] 


tC Kill. fasync( EH BUERA KU. fasync 队列 ， 向 每 个 有 关 的 进程 发 出 “个 SIGIO 信和 号， 并 将 
POLL IN 传 给 各 个 进程 的 SIGIO 信号 服务 程序 作为 参数 ， 使 其 知道 接收 到 SSM RABE PA TS fit 
A. RR Kill fasync( ) 的 代码 在 fs/fentl.c P: 


[keyboard interrupt( ) > handle_kbd_event( ) > handle mouse, event( ) > kill, fasync( )] 


501 void kill fasync(struct fasync struct **fp, int sig, int band) 
502 { 


503 read lock(&fasync lock); 

504 kill fasync(*fp, sig, band); 
505 read unlock(&fasync lock); 

506 


PRAL__kill_fasyne( ) 也 在 同一 文件 中 : 
[keyboard. interrupt( ) > handle_kbd_event( ) > handle mouse, event( ) > kill. fasync( ) > ... Kill. fasync( )] 


482 void . kill fasync(struct fasync struct *fa, int sig, int band) 
483 { 


484 while (fa) ( 

485 struct fown struct * fown; 

486 if (fa->magic !- FASYNC MAGIC) { 

487 printk(KERN ERR “kill. fasync: bad magic number in á 
488 "fasync struct!Nn^) ; 

489 return; 

490 ) 

491 fown = &fa-»5fa file-^f owner; 

492 /* Don't send SIGURG to processes which have not set a 
493 queued signum: SIGURG has its own default signalling 
494 mechanism. */ 

495 if (fown->pid && !(sig == SIGURG && fown->signum == 0)) 
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496 send sigio(fown, fa->fa fd, band): 
497 fa = fa->fa next; 

498 ] 

499 } 


对 于 队列 中 的 每 一 个 fasyne struct 结构 ， 通 过 与 其 相 联 系 的 file 结构 便 可 以 找到 通道 的 “EA”, 
AE ERIR SAR. RA send, sigio ) 的 代码 在 fs/fentl.c 中 : 


[keyboard_interrupt( ) > handle_kbd_event( ) > handle mouse event( ) > kill, fasync( ) 
> . kill fasync( ) > send_sigio( )] 


413 void send sigio(struct fown struct *fown, int fd, int band) 
414 { 

415 struct task struct * p; 

416 int pid = fown—pid; 

417 

418 read lock(&tasklist lock); 

419 if ( (pid > 0) && (p = find task by pid(pid)) ) ( 
420 send sigio to task(p, fown, fd, band); 
421 goto out; 

422 } 

423 for each task(p) | 

424 int match = p >pid: 

425 if (pid < 0) 

426 match = p-?pgrp; 

427 if (pid != match) 

428 continue; 

429 send sigio to task(p, fown, fd, band); 
430 ) 

431 out: 

432 read unlock(&tasklist lock); 

433 |] 


如 采 根 据 对 象 的 pid 找到 了 这 个 进程 ， 就 只 向 这 个 进程 发 出 信和 号， 否则 就 向 问 一 进程 组 小 的 所 有 
进程 部 发 出 信号 。 函 数 send, sigio to task( ) 的 代码 也 在 同一 文件 (fsytcntLe) 中 ， 


[keyboard interrupt( ) > handle kbd cvent( ) > handle, mouse event( ) > kill fasync( ) 
> . kill fasync( ) > send sigio( ) > send sigio to task( )] 


374 static void send_sigio_to_task (struct task struct *p, 


375 struct [own struct *fown, 

376 int fd, 

377 int reason) 

378 o! 

379 if ((fown-^euid !- 0) && 

380 (Fown~>euid ^ p->suid) && (lown-^euid ^ p-»uid) && 
381 (fown->uid ^ p->suid) && (fown->uid ^ p >uid)) 
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二 一 


382 return; 

383 switch (fown-^signum) | 

384 siginfo t si; 

385 default: 

386 /* Queue a rt signal with the appropriate fd as its 
387 value. We use SI SIGIO as the source, not 

388 SI KERNEL, since kernel signals always get 

389 delivered even if we can't queue. Failure to 
390 queue in this case should be reported; we fall 
391 back to SIGTO in that case. --sct */ 

392 si.si signo = fown—>signum; 

393 si. si errno = 0; 

394 si.si code = reason & ^ SI MASK; 

395 /* Make sure we are called with one of the POLL * 
396 reasons, otherwise we could leak kernel stack into 
397 userspace. */ 

398 if ((reason & | SL MASK) != _ SI POLL) 

399 BUG( ) ; 

400 if (reason - POLL IN >= NSIGPOLL) 

401 si.si band = "OL; 

402 else 

403 si.si band - band table[reason - POLL IN]; 

404 si.si fd = fd; 

405 if (!send sig info(fown-^signum, &si, p)) 

406 break; 

407 /* fall-through: fall back on the old plain SIGIO signal */ 
408 case 0: 

409 send sig(SIGIO, p, 1); 

410 } 

411 } 


如 果 没 有 对 发 送 的 信号 另 加 指定 , 则 fown->signum 为 0, 此 时 发 送 的 信号 为 SIGIO, 通过 send_sig( ) 
ee, WERE PSI (ES, Mit send sig info( ) 发 送 。 我 们 把 这 段 代码 留 给 读者 ， 作 为 
对 信号 机 制 的 一 次 复习 。 


8.11 设备 文件 系统 devfs 


我 们 以 前 多 次 讲 到 过 ， 以 主 设备 号 /次 设备 号 为 基 侧 的 设备 文件 管理 方式 是 有 根本 性 的 缺点 的 。 这 
种 从 Unix 早期 一 直 延 用 下 来 的 方案 一 方面 给 设备 号 的 管理 带 来 了 朵 烦 ， 一 方面 也 破坏 了 /dev 日 录 的 结 
构 。Unix/Linux 系统 中 所 有 日 录 的 结构 都 是 层次 的 ， 惟 独 /dev 目录 是 “平面 ”的 。 这 个 光 是 风格 的 问 
题 ， 也 真 接 影 响 着 访问 的 效率 和 管理 的 方便 与 弄 。 而 且 ，/dev 日 录 下 的 节点 并 不 是 按 实 际 的 需要 而 创 
建 的 ， 日 水 中 存在 某 种 设备 的 节点 并 不 说 明 内 核 中 有 这 种 设备 的 蝎 动 程序 ， 更 不 说 明 系 统 中 实际 连接 
着 这 种 设备 。 事 实 上 ， 几 平 所 有 Unix/Linux 系统 的 /dev 日 录 上 都 有 着 大 量 实际 个 用 的 节点 。 这 些 节 点 
的 存在 蝶 降 低 了 效率 ， 又 给 管理 带 来 麻烦 ， 但 是 一 般 又 不 敢 把 它们 删 去 ， 因 为 一 来 不 知道 究竟 哪些 是 
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要 直接 或 间接 用 到 的 ， 二 来 也 不 知道 会 不 会 将 来 某 一 天 突然 需要 用 到 其 中 的 某 些 节点 了 。 究 其 原因 ， 
问题 在 于 /dev 目录 中 的 节点 都 是 在 内 核 的 外 部 创建 的 ， 与 内 核 的 构成 和 运行 并 无 直接 的 联系 。 
那么 ， 理 想 的 /dev 目录 应 该 是 什么 样 的 昵 ? 首先 ， 它 应 该 是 层次 的 、 树 状 的 (不 一 定 是 严格 意义 上 
的 树 )。 其 次 ， 它 的 规模 应 该 是 可 伸缩 的 ， 而 且 不 受 数量 的 限制 (例如 256 SERBS). BWA, Mev B 
录 中 的 内 容 应 该 反映 系统 当前 在 设备 驱动 方面 的 实际 情形 。 例 如 ， 这 样 一 套 方案 就 是 比较 理想 的 ， 
(D 系统 加 电 之 初 /rdev 目录 为 空 。 
(2) ”系统 在 初始 化 阶段 扫描 并 枚 举 所 有 连接 着 的 设备 ， 就 像 对 PCI 总 线 的 扫描 枚 举 一 样 。 每 找到 
一 项 设备 就 分 门 别 类 地 在 /dev 目录 下 创建 起 子 目 录 , 然后 以 设备 的 序号 作为 最 底层 的 节点 名 ， 
例如 “/dev/ide/hd/1”、“/dev/ide/floppy/1” 等 等 。 
(3) ”以 后 ， 每 插入 … 个 设备 ， 或 安装 一 个 可 安装 模块 ， 就 山内 核 在 /dev 子 树 中 增加 一 -个 或 几 个 节 


Fo 
(4) 反之， 如 果 关 闭 或 拆除 个 设备 ， 或 拆除 一 个 可 安装 模块 ， 就 由 内 核 从 /dev 子 树 中 删 去 相应 
的 节点 。 


(5 “还 得 与 原来 的 方案 兼容 。 

除 将 /dey 上 且 隶 改 成 树 状 以 外 ， 这 里 的 关键 在 于 将 其 纳入 内 核 的 管理 ， 而 不 是 像 以 前 那样 从 内 核 外 
部 管理 ， 那 正 是 造成 不 一 致 的 康 因 。 如 果 我 们 同 顾 一 下 前 几 章 中 的 内 容 ， 就 可 以 想起 Linux 其 实 有 - 
个 与 此 相似 的 特殊 文件 系统 ， 堵 就 是 /proc。 虽 然 管理 的 对 象 和 六 的 不 尽 相 同 ， 但 是 在 方法 上 显然 是 可 
以 借鉴 的 。 特 殊 文件 系统 devfs 正 是 为 实现 上 述 目标 而 设计 、 与 /proc 很 相似 的 “文件 系统 ”。 

日 前 ，devfs 的 使 用 还 只 是 一 个 实验 性 的 选择 项 ， 由 一 个 编译 选择 项 CONFIG_DEVFS_FS 加 以 选 
择 。 


文件 系统 类 型 devfs_fs_type 的 定义 见 fs/devfs/base.c: 
3145 static DECLARE FSTYPE (devfs fs type, DEVFS NAME, devfs read super, FS SINGLE); 
经 过 gee 的 编译 预 处 理 以 后 ， 就 会 成 为 如 下 的 定义 : 


struct file system type devfs fs type = { 
name: "devfs^, 
read super: devfs read super, 
fs flags: | FS SINGLE, 
owner: THIS. MODULE, 
} 


系统 在 初始 化 时 会 调用 init devfs fs( ) 进 行 对 devfs 特殊 文件 系统 的 初始 化 ， 这 个 函数 的 代码 在 
fs/devfs/base.c FP: 


3342 int | init init devfs fs (void) 
3343 { 

3344 int err; 

3345 
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3346 printk (“%s: v%s Richard Gooch (rgooch@atnf. csiro. au) W^, 
3347 DEVFS NAME, DEVFS_VERSTON) ; 

3348 Hifdef CONFIG DEVFS DEBUG 

3349 devfs debug = devfs debug init; 

3350 printk (“%s: devfs debug: 0x%0x\n”, DEVFS NAME, devfís debug); 
3351 Hendif 

3352 printk (/s: boot options: Ox%0x\n”, DEVFS NAME, boot options): 
3353 err = register filesystem (&devfs fs type): 

3354 if (lerr) 

3355 { 

3356 struct vfsmount *devfs mnt = kern mount (&devfs fs type); 
3357 err - PTR ERR (devfs mnt); 

3358 if ( !IS ERR (devfs mnt) ) err = 0; 

3359 ) 

3360 return err; 


3361 } /* End Function init devfs fs */ 


首先 通过 register. filesystem( ) 向 系统 登记 文件 系统 类 型 devfs_fs_type; 读者 对 这 个 函数 应 该 已 经 比 
较 熟悉 上 了 上。 然后， 就 通过 ken mount( ) 初 始 安装 特殊 文件 系统 devfs。 读 者 在 第 5 BPRS, Wt 
kern_mount( ) 安 装 的 子 系统 其 实 并 没有 纳入 以 “/” 为 根 的 文件 系统 中 ， 暂 时 还 游离 在 外 负 。 这 样 的 文 
件 系统 还 要 再 经 过 一 次 常规 的 安装 才能 纳入 到 以 “/” 为 根 的 文件 系统 由， 与 其 中 的 某 个 节点 振 上 钩 ， 
数据 结构 devfs. fs. type 的 字段 fs_flags 中 标志 位 FS. SINGLE 为 ! 也 说 明了 这 一 点 。 事 实 上 ， 此 刻 的 节 
点 “/” 还 是 空 的 , 对 devfs 的 初始 安装 先 寺 根 设 备 的 安装 。 之 所 以 此 在 安装 根 设备 之 前 先 初 始 安装 devfs， 
是 因为 在 引导 系统 时 可 以 道 过 一 个 命令 行 选择 项 指定 以 哪 一 个 设备 作为 系统 的 根 设 备 ， 所 以 在 安装 根 
设备 之 前 就 得 要 有 最 低 限 度 的 根据 设备 路 径 名 找到 其 设备 号 的 功能 。 

安装 的 本 来 意义 是 将 一 个 设备 上 的 文件 系统 子 树 跟 已 经 存在 于 文件 系统 中 的 一 个 节点 挂钩 。 可 是 ， 
特殊 文件 系统 实际 上 并 不 存在 于 某 个 设备 上 ， 所 以 要 为 其 设置 一 个 虚拟 的 设备 。 这 个 设备 的 主 设备 与 
为 UNNAMED_MAJOR， 次 设备 号 则 由 一 个 函数 get_unnamed_dev( ) 分 配 。 读 者 已 经 在 第 5 草 中 结合 
Iproc 的 安装 读 过 kern_mount( ) 的 代 公 ， 知 道 在 初始 安装 特殊 文件 系统 时 要 调用 一 个 函数 read_super( )， 
而 read_super()， 则 通过 有 具体 file_system_type £i FJ Be CERE read. super 读 入 或 生成 其 超级 块 。 从 上 
面 数据 结构 devfs fs type 的 定义 中 可 以 看 到 ，devfs 的 read. super 操作 是 devfs_read_super( ), XA tK 
的 代码 在 fs/devfs/base.c "F: | 


[init_devfs_fs( ) > kern mount( ) > read super( ) > devfs read, super( )] 


3112 static struct super block *devfs read super (struct super block *sb, 


3113 void *data, int silent) 

3114. f 

3115 struct inode *root inode = NULL; 

3116 

3117 if (get root entry ( ) == NULL) goto out no root; 
3118 atomic set (&fs info.devfsd overrun count, 0) ; 

3119 init waitqueue head (&fs info.devfsd wait queue); 
3120 init waitqueue head (&fs info.revalidate wait queue); 


591. 


Linux A Ee exco CP AD 


3121 fs info. sh = sb; 

3122 sb-^u. generic sbp = &fs info; 

3123 sb->s blocksize = 1024; 

3124 sb-^s blocksize bits - 10; 

3125 sb-^s magic = DEVFS SUPER MAGIC; 

3126 Ssb-?s op = &devfs sops; 

3127 if ( ( root inode - get vfs inode (sb, root entry, NULL) ) == NULL ) 
3128 goto out no root; 

3129 sb-»s root - d alloc root (root inodo); 

3130 if (!sb-^s root) goto out no rool; 

3131 #ifdef CONFIG DEYFS DEBUG 

3132 if (devfs_debug & DEBUG DISABLED) 

3133 printk (“%s: read super, made devfs ptr: %p\n”, 
3134 DEVFS NAME, sb-?u. generic sbp); 

3135 #ondif 

3136 return sb; 

3137 

3138 out no root: 

3139 printk ('devfs read super: get root inode failedWn^); 
3140 if (root inode) iput (root inode); 

3141 return NULL; 


3142 }  /* End Function devfs read super */ 


像 /proc —FF, devfs 在 磁盘 上 也 没有 对 应 物 ， 不 像 常规 的 文件 系统 浊 样 在 磁盘 上 有 连接 成 树 状 的 日 
录 节 点 和 尝 引 节点 ， 所 以 在 内 存 中 淆 为 之 建立 起 会 连接 成 树 状 的 数据 结构 。 对 于 devfs 文件 系统 ,这 
种 数据 结构 是 devfs_entry， 定 义 十 fs/devfs/base.c: 


630 struct devfs entry 


631 { 

632 void *info; 

633 union 

634 { 

635 struct directory_type dir; 

636 struct fcb type reb; 

637 struct symlink type symlink; 

638 struct fifo_type fifo; 

639 } 

640 u; 

641 struct devfs entry *prev; /* Previous entry in the parent directory */ 
642 struct devís entry *next; /* Next entry in the parent directory */ 
643 struct devfís entry *parent; /* The parent directory */ 
644 struct devfs entry *slave; /* Another entry to unregister */ 
645 struct devfs_inode inode; 

646 umodo t mode; 

647 unsigned short namelen; /* I think 64k+ filenames are a way off... */ 
648 unsigned char registered:l; 

649 unsigned char show unreg:l; 
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651 
652 
653 
654 
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unsigned char hide:l; 

unsigned char no persistence:l; 

char name[li; /* This is just a dummy: the allocated array is 
bigger. This is NULL-terminated */ 


结构 中 的 字符 数组 name[ Jia 18 544. HACE A EL PL CIR ES 2 RO IUIS A ERE HH 


长 度 确定 。 每 个 devfs_entry 结构 通过 指针 prev. next. parent 和 slave EIZ RRR, WK 9:810— 7 X: 
件 系 统 子 树 。 从 数据 结构 的 定义 可 以 看 出 ，devfs FR PAW AA DUAR A Kea. BR 种 是 dir, BD 
Ho, 这 是 不 言 口 明 的 。 第 二 种 是 feb. M“ LAFER”, 这 是 devfs 子 树 中 的 叶 节点 。 第 一 种 是 symlink. 
这 也 是 个 言 自明 的 。 最 后 一 种 是 fifo， 专 门 用 于 管道 文件 。 因 节点 类 型 的 不 同 ，devfs_entry 结构 中 的 
union u 也 相应 地 解释 成 不 同 的 数据 结构 。 这 早先 看 一 下 feb type 数据 结构 的 定义 (fs/devfs/base.c): 


577 
578 
579 
580 
581 
582 
583 
584 
585 
586 
587 
588 
589 
590 
591 
592 
593 
594 
595 
596 
597 
598 
599 
600 
601 
602 
603 


struct file type 


{ 
J3 


unsigned long size; 


struct device type 


{ 


unsigned short major; 
unsigned short minor; 


struct fcb type /* Filo, char, block type */ 


{ 


= 


uid t default uid; 

gid t default gid; 

void *ops; 

union 

{ 

struct file type file; 

struct device Lype device; 

) 

u; 

unsigned char auto owner:l; 

unsigned char aopen notify:l; 

unsigned char removable:1;/* Belongs in device typo, but save space */ 
unsigned char open:1; /* Not entirely correct */ 


可 见 ，devfs 中 的 叶 节 点 有 两 种 类 型 ， 种 是 文件 ， 男 一 种 是 设备 。 对 十 设 备 ，fcb._type 结构 提供 


了 16 位 的 让 /次 设备 号 。 Ait, 如 前 所 述 , 在 devfs PIKE SS AAEM KR, 
而 起 动态 分 配 的 。 每 个 fe type 数据 结构 中 都 有 个 指针 ops， 根 据 需要 指向 具体 的 file operations 或 其 


他 数据 结构 。 
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内 核 中 还 有 个 数据 结构 fs. info, +H. XT fs/devfs/base.c: 


668 struct fs info /* This structure is for each mounted devfs */ 
669 { 

670 unsigned int num inodes; /* Number of inodes created */ 
671 unsigned int table size; /* Size of the inode pointer table */ 
672 struct devfs entry **table; 

673 struct super block *sb; 

674 volatile struct devfsd buf entry *devfsd buffer; 

675 volatile unsigned int devfísd buf in; 

676 volatile unsigned int devfsd buf out; 

671 volatile int devfsd sleeping; 

678 volatile int devfsd buffer in use; 

679 volatile struct task struct *devfsd task; 

680 volatile struct file *devfsd file; 

681 volatile unsigned long devfsd event mask; 

682 atomic t devfsd overrun count; 

683 wait queue head t devfsd wait queue; 

684 wait queue head t revalidate wail. queue; 

685 =}; 


这 个 数据 结构 中 的 指针 table 指向 一 个 devfs entry 指针 数组 ，table_size 为 数组 当前 的 大 小 。 这 个 
数组 中 的 指针 分 别 指向 所 有 已 经 分 配 的 devfs_entry 数据 结构 ， 或 者 说 devfs 子 树 中 当前 的 所 有 节点 。 
一 开始 时 内 核 中 没有 已 经 分 配 的 devfs_entry 数据 结构 ， 所 以 这 个 数组 的 大 小 为 0。 

内 核 在 设备 驱动 程序 中 仍然 使 用 设备 号 ,不 过 主 /次 设备 号 都 己 改 成 16 位 ,并 从 中 划 出 一 块 供 devfs 
动态 分 配 。 原 来 已 经 分 配 了 主 /次 设备 号 的 还 继续 延 用 原 米 的 设备 写 ， 而 未 经 分 配 的 则 吕 以 华 初 始 化 阶 
段 向 devfs 登记 时 让 devfs 动态 地 分 配 -- 个 。 动 态 分 配 的 设备 号 只 是 临时 的 ， 其 作用 仅 在 村 在 devfs 中 
的 节点 与 数组 chrdevs[ ] 或 blk_dev[ ] 小 的 元 素 建 立 起 联系 。 这样 , 只 要 应 用 软件 按 预 定 的 路 答 名 打开 设 
备 文件 ， 谍 能 得 到 目标 疫 备 当前 的 设备 号 。 

对 于 学 符 设备 与 块 设备 ， 供 devfs IADE RRA MIN_DEVNUM 开始 (fs/devfs/base.c): 


527 define MIN DEVNUM 36864 /* Use major numbers 144 */ 
528 tdefine MAX DEVNUM 61439 /* through 239, inclusive */ 


688 static unsigned int next devnum char = MIN DEVNUM; 
689 static unsigned int next devnum block - MTN DEVNUM; 


第 .个 devfs entry 数据 结构 当然 应 该 是 devfs 的 根 节 点 ， 函 数 get root, entry( ) 的 代码 在 
fs/devts/base.c 中 : 


[init_devfs_fs( ) > kern mount( ) > read, super( ) > devfs read super( ) > get_root_entry( )] 


841 / 
842 * get root entry - Get the root devfs entry. 
843 * 
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844 * Returns the root devfs entry on success, else %NULL. 

845 */ 

846 

847 static struct devfs entry *get root entry (void) 

848 { 

849 struct devfs entry *new; 

850 

B51 /* Always ensure the root is created */ 

852 if (root entry != NULL) return root entry; 

853 if ( ( root entry = create entry (NULL, NULL, 0) ) == NULL ) return NULL; 
854 root_entry—>registered = TRUE; 

855 root_entry—>mode = S IFDIR; 

856 /* Force an inode update, because lookup( ) is never done for the root */ 
857 update_devfs_inode from_entry (root_entry) ; 

858 /* And create the entry for ".devfsd' */ 

859 if ( ( new = create entry (root entry, ".devfsd", 0) ) == NULL ) 
860 return NULL; 

861 new-^registered = TRUE; 

862 new-»u. fcb. u. device. major = next devnum char >> 8; 

863 new->u. fcb. u. device. minor = next devnum char & Oxff; 

864 ++next_devnum_char; 

865 new->mode = S IFCHR | S TRUSR | S IWUSR; 

866 new->u. fcb. default uid = 0; 

867 new->u. fcb. default gid = 0; 

868 new->u. fcb. ops = &devísd fops; 

869 return root_entry; 


870 )  /* End Function get root entry */ 


先 创建 devfs 的 根 节 点 root entry, XEHE root. entry 是 个 全 局 量 。 


[init devfs fs( ) > kern_mount( ) > read. super( ) > devfs read super( ) > get. root. entry( ) > create, entry( )] 


764 static struct devfs entry *create entry (struct devfs_entry *parent, 
765 const char *name, unsigned int namelen) 

766 { 

767 struct devfs entry *new, **tahle; 

768 

769 /* First ensure table size is enough */ 

770 if (fs info. num_inodes >= fs info.table size) 

771 { 

772 if ( ( table = kmalloc (sizeof *table * 

773 (fs_info. table_size + INODE_TABLE_INC), 

774 GFP_KERNEL) ) == NULL ) return NULL; 

775 fs info.table size += INODE TABLE INC; 

776 #ifdef CONFIG_DEVFS_DEBUG 

777 if (devfs_debug & DEBUG_I_CREATE) 

778 printk (“%s: create entry( ): grew inode table to: %u entries\n’, 
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779 DEVFS NAME, fs info.table size); 

780 Hendif 

781 if (fs_info. table) 

782 { 

783 memcpy (table, fs_info. table, sizeof *table *fs_info. num inodes); 
784 kfree (fs info. table); 

785 ] 

786 fs_info. table = table; 

787 } 

788 if ( name && (namelen < 1) ) namelen = strlen (name); 

789 if ( ( new = kmalloc (sizeof *new + namelen, GFP KERNEL) ) == NULL ) 
790 return NULL; 

791 /* Magic: this will set the ctime to zero, thus subsequent lookups will 
792 trigger the call to <update_devfs inode from entry? */ 

793 memset (new, 0, sizeof *new + namelen): 

794 new->parent = parent; 

795 if (name) memcpy (new->name, name, namelen)-; 

796 new->namelen = namelen; 

797 new->inode. ino = fs info.num inodes + FIRST INODE; 

798 new->inode. nlink = 1; 

799 fs info. table[fs info. num inodes] = new; 

800 ++fs_ info. num_inodes; 

801 if (parent == NULL) return new: 

802 new-?prev = parent-?u. dir. last; 

803 /* Insert into the parent directory's list of children */ 

804 if (parent-^u.dir. first == NULL) parent->u. dir. first = new; 

805 else parent->u. dir. last—>next = new; 

806 parent-?u. dir. last = new; 

807 return new; 


808 }  /* End Function create entry */ 


当 fs info 数据 结构 中 的 num inodes 字段 和 table size 字段 相等 时 , xm BT FH fs. info.table 所 指 
的 devfs entry 指针 数组 了 。 每 次 扩充 部 在 原来 的 大 小 上 增加 INODE. TABLE INC. Hil 250 个 指针 的 容 
量 。 显 然 ， 创 建 devfs 的 根 节 点 时 这 两 个 字段 都 是 0， 所 以 此 为 最 初 的 250 MEE ALS Al. WIA 
第 一 次 分 配 空间 ， 则 还 要 把 已 经 存在 的 数组 复制 到 新 的 空间 中 ， 并 释放 原 有 的 空间 。 接 着 ， 就 要 为 
devfs entry 数据 结构 本 映 (连同 节点 名 字符 串 ) 分 配 空间 .用 于 devfs 根 WAR] inode 号 为 FIRST_INODE,， 
即 1， 以 后 则 逐次 递增 。 除 根 节点 外 ，devfs 文件 系统 中 的 全 个 节点 都 有 个 父 节 点 ， 而 其 父 节 点 必定 是 
POST, 802—806 行将 新 的 节点 与 父 节点 以 及 同一 目 半 中 的 其 他 节点 链接 在 -起 。 

周到 get_root_entry( H, F PEE devfs 的 根 节点 下 创建 一 个 节点 “.devfsd”。 这 个 节点 是 个 fcb 
WA. TE devfs 中 ， 没 备 号 是 由 系统 自动 分 配 的 ， 设 备 号 起 点 是 〈(((? ? ? ))) RSE, HAS 
在 devfs 中 并 不 起 着 原来 那么 重要 的 作用 。 此 外 ，fcb 节点 部 有 个 指针 ops 指向 一 个 file_operations 数据 
结构 。 对 二 节点 “.devfsd”， 这 个 数据 结构 是 定义 十 fs/devfs/base.c 的 devfsd_fops: 


715 /* Devfs daemon file operations */ 
716 static struct file operations devfsd fops - 
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717 { 
718 read: devfsd_read, 
719 ioctl: devfsd ioctl, 
720 release: devfsd_close, 
721 m 


这 是 个 特殊 的 节点 ， 这 个 节点 并 不 是 代表 着 … 项 具体 的 设备 ， 而 是 反映 者 devis 当前 的 内 容 变化 ， 
其 意图 是 在 用 户 空间 创建 -个 devfs 的 “保护 神 ” 进 称 devfsd。 这 个 进程 的 主体 是 个 无 穷 循环 ， 并 总 是 
因为 读 /dev/.devfsd 受 阴 而 有 睡眠。 但 是 ， 每 当 devfs 的 内 容 发 生变 化 时 ， 例 如 创建 或 删除 一 个 节点 或 打 
开 一 个 设备 文件 时 ， 内 核 就 (通过 一 个 叫 devfsd. noufy( ) 的 函数 ) 将 这 个 进程 唤醒 。 这 样 ， 就 可 以 安排 这 
个 进程 每 当 devfs 的 内 容 发 生变 化 时 就 作出 一 些 反应 ， 例 如 在 屏幕 上 显示 ' 行 信息 “/dev/x/y/z/l is up". 

回 到 devfs read super( ) 的 代码 中 ， 下 十 就 是 填写 devfs 的 super. block 数据 结构 的 内 容 ， 注 意 这 里 
把 指针 s op 设置 成 指 癌 devfs_sops， 定 义 于 fs/devfs/base.c: 


2364 static struct super operations devfs sops = 
2365 { 

2366 read_inode: devfs read inode, 

2367 write inode: devfs write inode, 

2368 statfs: devfs statfs, 

2369 E 


然后 就 通过 get. vfs inode( ) 为 devfs 的 根 节点 创建 A inode 数据 结构 (fs/devfs/base.c): 


[init devfs fs()» kern mount( ) > read_super( ) > devfs_read_super( ) > get vfs inode ( )] 


2381 static struct inode *get vfs inode (struct super block *sb, 


2382 struct devfs entry **do, 
2383 struct dentry *dentry) 
2384 { 
2385 struct inode *inode; 
2386 
2387 if (de->inode. dentry !- NULL) 
2388 { 
2389 printk (“%s: get vfs inode (%u): V 
old de >inode. dentry: %p \"%s\” new dentry: %p \"%s\"\n’, 
2390 DEVFS NAME, de~->inode. ino, 
2391 de-^inode. dentry, de->inode. dentry-5d name. name, 
2392 dentry, dentry ?d name. name); 
2393 printk ("^ old inode: %p\n”, de->inode. dentry—>d_ inode); 
2394 return NULL; 
2395 } 
2396 if ( ( inode = iget (sb, de—>inode. ino) ) == NULL ) return NULL; 
2397 de-^inode.dentry - dentry; 
2398 return inode; 


2399 ) /x End Function get vfs inode */ 
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读者 在 第 S 章 中 已 经 看 到 ，iget( ) 首 先 在 inode 结构 的 杂凑 队列 中 查找 ,如果 找 不 到 就 新 创建 一 个 。 
最 后 , 通过 d_alloc_root( ) 为 devfs 的 根 节点 创建 一 个 dentry 数据 结构 ,这 个 节点 也 叫 “/”, 但 只 是 devfs 
AAR, SHES RANT A E. 

完成 了 对 超级 块 的 处 理 以 后 ，kern_mount( ) 将 devfs 的 根 节点 暂时 “安装 ”到 了 devfs 的 
file system type 数据 结构 devfs fs type 上 ， 使 其 指针 kem mnt 指向 用 作 “ 连 接 件 ” 的 vfsmount 结构 ， 
为 以 后 进一步 安装 作 好 了 准备 。 所 以 ， 这 种 初始 的 安装 也 可 以 称 作 “ 预 安装 ”， 有 关 详 情 可 参阅 /proc 
文件 系统 的 安装 。 

在 安装 了 系统 的 总 根 以 后 ， 系 统 的 初始 化 过 程 还 会 调用 mount_devfs_fs( ) 对 devfs 作 进 一 步 的 安装 
(fs/devfs/base.c): 


3363 void | init mount devfs fs (void) 


3364 { 

3365 int err; 

3366 

3367 if ( (boot options & OPTION NOMOUNT) ) return; 

3368 err = do mount ("none”, "/dev^, “devfs”, 0, ^): 

3369 if (err == 0) printk ("Mounted devfs on /dev\n”); 

3370 else printk ("Warning: unable to mount devfs, err: %d\n”, err); 


3371 } /x End Function mount devfs fs */ 


可 见 ， 特 殊 文件 系统 devfs 的 安装 点 是 “/dev”。 山 于 devfs. fs type 中 的 FS. SINGLE 标志 位 为 1， 
安装 时 会 把 保存 在 devfs fs type 中 的 vfsmount 结构 指针 安装 到 “/dev” 节 点 上 。 


完成 了 devfs 的 安装 以 后 ， 各 种 设备 的 驱动 程序 就 可 以 通过 devfs register chrdev( ) 或 
devfs register blkdev( ) j] devfs 登记 ， 从 而 在 /dev 目录 下 创建 起 相应 的 节点 。 
(1) iÑ devfs_register_chrdev( )|4] devfs 登记 一 类 设备 的 主 设备 号 、 设备 名 以 及 包 e_operations 数 
据 结 构 ， 建 立 起 三 者 间 的 联系 。 主 设备 与 可 以 是 静态 指定 的 ， 也 可 以 要 求 devfs 动态 地 分 配 。 
(2) 或 者 通过 devfs register blkdev( ) 向 devfs 登记 -类 设备 的 主 设备 号 、 设 备 名 以 及 
block device operations 数据 结构 , 建立 起 三 者 间 的 联系 。 同样 , 主 设备 号 可 以 是 静态 指定 的 ， 
也 可 以 要 求 devfs 动态 度 分 配 。 
(3) ”通过 devfs mk dir( ) 建 立 目录 节点 。 
(4) ”通过 devfs_register( ) 痘 记 具 体 的 设备 ， 并 在 指定 目录 下 建立 叶 节 点 。 
在 “可 安装 模块 ”一 节 所 3 引 的 实例 中 ， 读 者 可 以 看 色 一 个 鹿 卡 驱 动 模块 在 初始 化 时 首先 道 过 
devfs register chrdev( ) 登 记 豫 动 程序 ， 并 且 看 到 这 个 孙 数 实际 上 通过 register_chrdev( ) 完 成 登记 。 所 谓 
“登记 ” 实际 上 就 是 把 给 定 的 file operations 结构 指针 填 入 chrdevs[ ] 中 的 某 个 元 素 ， 向 设备 的 主 设备 
号 ， 则 就 十 用 于 这 个 数组 的 下 标 。 人 在 老 的 方案 中 ， 主 设备 号 部 是 静态 地 指定 好 的 ， 声 尺 设备 的 主 设 备 
号 就 是 SOUND MAJOR. Mø devfs 中 ， 则 既 可 以 继续 延 用 静态 的 主 设备 号 ， 也 可 以 在 调用 
devfs register chrdev( ) 或 register_chrdev( ) 时 以 0 为 主 设备 号 ， 表 示 划 求 devis 动态 地 分 配 个 。 其 实 ， 
不 管 是 否 采 用 devfsg， 都 要 先进 行 登 记 ， 这 样 才能 在 打开 文件 时 根据 主 设备 号 找到 该 设备 的 
file operations 结构 。 不 同 的 是 ， 企 老 方案 中 这 个 主 设备 号 必须 是 预知 的 ， 这 样 才能 从 内 梳 外 部 通过 
mknod( )7E/dev 日 录 下 创建 起 相应 的 节点 。 而 在 devfs 中 ， 则 可 以 先 动态 分 配 主 设备 号 (并 登记 )， 然 后 
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才 在 内 核 中 (内 部 ) 通 过 devfs_register( ) 在 特殊 文件 系统 中 创建 节点 。 市 且 ， 在 devfs_register( ) 之 及 还 可 
以 根据 需要 道 过 devfs_mk dir( ) 建 立 起 若干 中 间 节 点 。 这 样 ， 只 要 在 设备 驱动 模块 与 应 用 程序 在 路 径 名 
的 使 用 上 有 默契 就 行 了 ， 主 设备 号 的 使 用 实际 上 是 透明 的 。 所 以 ，devfs_mk_dir( ) 和 devfs register( ) 才 
是 devfs 的 关键 所 在 。 先 看 devfs_mk_dir( )， 其 代码 在 fs/devfs/base.c "P: 





1530  /** 

1531 * devfs mk dir - Create a directory in the devfs namespace. 

1532 * (dir: The handle to the parent devfs directory entry. If this is %NULL the 
1533 * new name is relative to the root of the devfs. 

1534 * (name: The name of the entry. 

1535 * @info: An arbitrary pointer which will be associated with the entry 

1536 * 

1537 * Use of this function is optional. The devfs register( ) function 

1538 * will automatically create intermediate directories as needed. This function 
1539 * is provided for efficiency reasons, as it provides a handle to a directory. 
1540 * Returns a handle which may later be used in a call to devfs unregister( ). 
1541 * On failure “NULL is returned 

1542 */ 

1543 

1544 devts handle t devfs mk dir (devfs handle t dir, const char *name, void *info) 
1545 { 

1546 int is new; 

1547 struct devfs entry **de; 

1548 

1549 if (name == NULL) 

1550 { 

1551 printk (“%s: devfs mk dir( ): NULL name pointer\n”, DEVFS NAME); 

1552 return NULL: 

1553 } 

1554 de = search for entry (dir, name, strlen (name), TRUE, TRUE, &is new, 

1555 FALSE) ; 

1556 if (de == NULL) 

1557 { 

1558 printk (“%s: devfs mk dir( ): could not create entry: \“%s\"\n", 

1559 DEVFS NAME, name); 

1560 return NULL; 

1561 ) 

1562 if (!S TSDTR (de >mode) && de-^registered) 

1563 { 

1564 printk (“%s: devfs mk dir( ): existing non-directory entry: \"%s\"\n’ 
1565 DEVFS NAME, name); 

1566 return NULL; 

1567 } 

1568 . ,Bifdef CONFIG DEVFS DEBUG 

1569 if (devfs debug & DEBUG REGISTER) 

1570 printk ("%s: devfs mk dir(%s): de: %p *sWn', 

1571 DEVFS NAME, name, de, is new ? “new” : “existing”) ; 
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1572 Rendif 


1573 if (!S ISDIR (de->mode) && !is new) 

1574 ( 

1575 /* Transmogrifying an old entry */ 

1576 de->u dir. first = NULL; 

1571 de->u. dir. last = NULL; 

1578 } 

1579 de—>made = S IFDIR | S IRUGO | S_1XUGO; 

1580 de->info = info; 

1581 if (tde->registered) de->u. dir. num removable = 0; 
1582 de->registered = TRUE; 

1583 de->show_unreg = (boot options & OPTION SHOW) ? TRUE : FALSE; 
1584 de-^hide = FALSE; 

1585 return de; 


1586 } /* End Function devfs mk dir */ 


参数 dir 指向 父 目录 的 devfs entry 结构 ,数据 类 型 devfs_handle_t 实际 上 就 是 devfs. entry 指针 , 定 
SCF include/linux/devfs_fs_kernel.h: 


45 typedef struct devfs entry * devfs handle t; 


这 个 函数 的 主体 是 search for entry( )， 通 过 它 在 dir FIN CM B3 3 4 Oe ETAGE 
devfs_entry 结构 。 然 后 ， 如 果 是 新 创 的 站 点 ， 则 加 以 设置 。 函 数 search_for_entry( ) 的 代码 也 在 
fs/devfs/base.c FP: 


[devfs mk dir( ) » search for entry( )] 


873 /* 

874 * search for entry - Search for an entry in the devfs tree. 

875 * @dir: The parent directory to search from. If this is %NULL the root is used 
876 * (name: The name of the entry. 

877 * @namelen: The number of characters in @name. 

878 * @mkdir: If WTRUE intermediate directories are created as needed. 

879 * @mkfile: If “TRUE the file entry is created if it doesn't exist. 

880 * Qis new: If the returned entry was newly made, %TRUE is written here. If 
88 1 * this is *NULL nothing is written here. 

882 * (traverse symlink: If XTRUE then symbolic links are traversed 

883 * 

884 * If the entry is created, then it will be in the unregistered stato. 

885 * Returns a pointer to the entry on success, else %NULL. 

886 */ 

887 

888 static struct devfs entry *search for entry (struct devfs_entry *dir, 

889 const char *name, 

890 unsigned int namelen, int mkdir, 

891 int mkfile, int *is now, 

892 int traverse symlink) 
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893 { 

894 int. len; 

895 const char *subname, *stop, *ptr; 

896 struct devfs entry *eniry; 

897 

898 if (is new) *is new = FALSE; 

899 if (dir == NULL) dir = get root entry( ) ; 

900 if (dir — NULL) return NULL; 

901 /* Extract one filename component */ 

902 subname - name; 

903 stop = name + nameien; 

904 while (subname < stop) 

905 { 

906 /* Search for a possible '/' */ 

907 for (ptr = subname; (ptr € stop) && (*ptr !- '/); ++ptr); 
908 if (ptr >= stop) 

909 { 

910 /* Look for trailing component */ 

911 len = stop ~ subname; 

912 entry = search for entry in dir (dir, subname, len, 
913 traverse symlink); 

914 if (entry !- NULL) return entry; 

915 if (Imkfile) return NULL; 

916 entry - create entry (dir, subname, len); 

917 if (entry && is new) *is new - TRUE; 

918 return entry; 

919 ] 

920 /* Found '/': search for directory */ 

921 if (strnemp (subname, ^../^, 3) == 0) 

922 { 

923 /* Going up */ 

924 dir = dir >parent: 

925 if (dir == NULL) return NULL; /* Cannot escape from devfs */ 
926 subname += 3; 

927 continue; 

928 } 

929 len = ptr - subname; 

930 entry = search for entry in dir (dir, subname, len, traverse symlink); 
931 if (!entry && !mkdir) return NULL; 

932 if (entry == NULL) 

933 { 

934 /* Make it */ 

935 if ( ( entry = create_entry (dir, subname, len) ) == NULL ) 
936 return NULL; 

937 entry—>mode - S_IFDIR | S IRUGO | S IXUGO ! S IWUSR; 
938 if (is new) *is new - TRUE; 

939 } 

940 if ( !S ISDIR (entry->mode) ) 
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941 { 

942 printk (“%s: existing non-directory entry\n”, DEVFS NAME); 
943 return NULL; 

944 } 

945 /* Ensure an unregistered entry is re-registered and visible */ 
946 entry—>registered = TRUE; 

947 entry-^hide = FALSE; 

948 subname = ptr + 1; 

949 dir = entry; 

950 } 

951 return NULL; 


952 ) /* End Function search for entry */ 


这 个 函数 返回 指向 找到 或 新 创建 的 devfs_entry 结构 的 指针 ， 并 通过 副作用 返回 参数 is new, BJ 
这 个 devfs entry 结构 是 任 新 创 。 如 果 参 数 dir 为 0， 则 以 devfs HHT KART A. BA name 指向 一 
个 相对 路 径 名 。 代 码 中 通过 一 个 while 循环 顺 着 相对 路 径 名 中 的 节点 逐步 向 前 排 进 ， 每 一 步 部 通过 
search_for_entry_in_dir( ) 在 当前 日 录 中 找到 下 个 节点 (930 47), UREA Beta create_entry( ) 自 动 
补 上 一 个 中 间 节 点 。 最 后 ， 当 路 径 名 中 独 下 的 部 分 不 再 有 “/” 字 符 存在 时 ， 这 就 是 日 标 节 点 了 (908 行 )。 
对 于 日 标 节 点 , 也 是 先 遂 过 search_for_entry_in_dir( ) 在 当前 日 录 中 寻找 , 如 上 果 找 不 到 就 通过 create. entry 
创建 。 对 于 读 过 path_walk( ) 的 读 省 ， 这 只 不 过 是 “小菜 TR”. 全 于 search_for_entry_in_dir( )， 其 代码 
也 在 fs/devfs/base.c H, 我 们 把 它 列 在 下 面 供 恋 者 自己 岗 读 , 从 中 可 以 理解 对 devfs_entry 结构 中 的 union 
的 运用 。 


[devfs mk, dir( ) > search_for_entry( ) > search_for_entry_in_dir( )] 


738 static struct devfs_entry *search for entry in dir (struct devfs_entry *parent, 


739 const char *name, 

740 unsigned int namelen, 

741 int traverse symlink) 

742 { 

743 struct devfs entry *curr; 

144 

745 if ( !S ISDIR (parent-^mode) ) 

746 { 

747 printk (“%s: entry is not a directory\n”, DEVFS NAME); 

748 return NULL; 

749 } 

750 for (curr = parent—>u. dir. first; curr != NULL; curr = curr—>next) 
751 { 

752 if (curr->namelen != namelen) continue; 

153 if (mememp (curr->name, name, namelen) == 0) break; 

754 /* Not found: try the next one */ 

755 } 

756 if (curr == NULL) return NULL; 

757 if (!S_ISLNK (curr->mode) || !traverse symlink) return curr; 
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758 /* Need to follow the link: this is a stack chomper */ 

759 return search for entry (parent, 

160 curr-?u. symlink. linkname, curr-?u. symlink. length, 
761 FALSE, FALSE, NULL, TRUE); 


762 | /* End Function search for entry in dir */ 


通过 devfs mk dir( ) 创 建 了 所 需 的 日 录 节 点 以 后 ， 就 在 devfs 的 目录 系统 中 为 目标 设备 建立 起 了 一 
个 框架 ， 最 后 述 要 通过 devfs_register( ) 为 其 体 的 设备 创建 昌 标 和 节点。 这 个 聊 数 的 代码 在 fs/devfs/base.c 
"m: 


1214 /* 

1215 * devfs register - Register a device entry. 

1216 * @dir: The handle to the parent devfs directory entry. lf this is %NULL the 
1217 * new name is relative to the root of the devfs 

1218 * (name: The name of the entry. 

1219 * @flags: A set of bitwise-ORed flags (DEVFS FL *). 

1220 * (major: The major number. Not needed for regular files. 

1221 * (minor: The minor number. Not needed for regular files. 

1222 * (mode: The default file mode. 

1223 * @ops: The &file operations or &block device operations structure. 
1224 * This must not be externally deallocated. 

1225 * @info: An arbitrary pointer which will be written to the Gprivato data 
1226 * field of the &file structure passed to the device driver. You can set 
1227 * this to whatever you like, and change it once the file is opened 

1228 * (the next file opened will not see this change). 

1229 * 

1230 * Returns a handle which may later be used in a call to devfs unregister( ). 
1231 * On failure “NULL is returned 

1232 */ 

1233 

1234 devfs handle t devfs register (devfs handle t dir, const char *name, 

1235 unsigned int flags, 

1236 unsigned int major, unsigned int minor, 

1237 umode t mode, void *ops, void *info) 

1238 1 

1239 int is new; 

1240 struct devfs entry *de; 

1241 

1242 if (name == NULL) 

1243 { 

1244 printk (“%s: devfs register( ): NULL name pointer\n”, DEVFS NAME); 
1245 return NULL; 

1246 } 

1247 if (ops == NULL) 

1248 { 

1249 if ( S_ISBLK (mode) ) ops = (void *) get blkfops (major); 

1250 if (ops == NULL) 
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1252 
1253 
1254 
1255 
1256 
1257 
1258 
1259 
1260 
1261 
1262 
1263 
1264 
1265 
1266 
1267 
1268 
1269 
1270 
1271 
1272 
1213 
1274 
1275 
1276 
1277 
1278 
1279 
1280 
128] 
1282 
1283 
1284 
1285 
1286 
1287 
1288 
1289 
1290 
1291 
1292 
1293 
1294 
1295 
1296 
1297 
1298 
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printk (“%s: devfs_register (%s): NULL ops pointer|n^ 
DEVFS NAME, name); 
return NULL; 
} 
printk (“%s: devfs_register(%s): NULL ops, got *p from major table\n’, 
DEVFS NAME, name, ops); 
} 
if ( S_ISDIR (mode) ) 
{ 
printk(“%s: devfs_register (%s): creating directories is not allowed\n’, 
DEVFS NAME, name) ; 
return NULL; 
} 
if ( S_ISLNK (mode) ) 
{ 
printk (^s: devfs_register (%s): creating symlinks is not allowed\n’, 
DEVFS_NAME, name); 
return NULL; 
} 
if ( S_ISCHR (mode) && (flags & DEVFS FL AUTO DEVNUM) ) 
1 
if (next devnum char >= MAX DEVNUM) 
{ 
printk (“%s: devfs_register(%s): exhausted char device numbers\n’, 
DEVFS NAME, name); 
return NULL; 
} 
major = next devnum char >> 8; 
minor ~ next devnum char & Oxff; 
-*next devnum char; 
} 
if ( S ISBLK (mode) && (flags & DEVFS FL AUTO DEVNUM) ) 
{ 
if (next devnum block >= MAX DEVNUM) 
{ 
printk (“%s: devfs register(%s): exhausted block device numbers\n”, 
DEVFS NAME, name); 
return NULL; 
} 
major = next_devnum block >> 8; 
minor = next devnum block & Oxff; 
++next_devnum black: 
} 
de = search for entry (dir, name, strlen (name), TRUE, TRUE, &is new, 
FALSE) ; 
if (de == NULL) 
{ 
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1299 printk (“%s: devfs register( ): could not create entry: \"%s\"\n" 
1300 DEVFS NAME, name); 

1301 return NULL; 

1302 } 

1303 #ifdef CONFIG DEVFS DEBUG 

1304 if (devfs debug & DEBUG REGISTER) 

1305 printk ("%s: devfs_register(%s): de: Xp %s\n”, 

1306 DEVFS NAME, name, de, is new ? “new” : existing”); 
1307 Hendif 

1308 if (lis new) 

1309 { 

1310 /* Existing entry */ 

1311 if ( !S ISCHR (de->mode) && !S ISBLK (de->mode) && 
1312 !S ISREG (de->mode) ) 

1313 { 

1314 printk (“%s: devfs register( ): existing non-device/file entry: \“%s\"\n", 
1315 DEVFS NAME, name); 

1316 return NULL; 

1317 } 

1318 if (de->registered) 

1319 { 

1320 printk("%s: devfs register( ): device already registered: \“%s\"\n’ 
1321 DEVFS NAME, name); 

1322 return NULL; 

1323 } 

1324 } 

1325 de->registered = TRUE; 

1326 if ( S ISCHR (mode) |. S ISBLK (mode) ) 

1327 { 

1328 de->u. fcb. u. device. major > major; 

1329 de-?u. feb. u. device. minor = minor; 

1330 } 

1331 else if ( S ISREG (mode) ) de->u. fcb. u. file. size = 0; 
1332 clse 

1333 { 

1334 printk ("%s: devfs register( ): illegal mode: XxWn^, 
1335 DEVFS NAME, mode); 

1336 return (NULL); 

1337 ] 

1338 de->info = info; 

1339 de->mode = mode; 

1340 if (flags & DEVFS FL CURRENT OWNER) 

1341 { 

1342 de->u. fcb. default uid = current-^uid; 

1343 de->u. fcb. default gid = current—>gid: 

1344 } 

1345 else 

1346 { 
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1347 de->u. fch. default uid = 0; 

1348 de->u. fcb. default gid = 0; 

1349 } 

1350 de->registered = TRUE; 

1351 de->u. fcb. ops = ops; 

1352 de->u. fcb. auto owner = (flags & DEVFS FL AUTO OWNER) ? TRUE : FALSE; 
1353 de->u. fcb. aopen notify = (flags & DEVFS FL AOPEN NOTIFY) ? TRUE : FALSE; 
1354 if (flags & DEVFS PL REMOVABLE) 

1355 { 

1356 de->u. fcb. removable = TRLE; 

1357 ++de->parent—>u. dir. num removable; 

1358 } 

1359 de->u. fcb. open = FALSE; 

1360 de-^show unreg = ( (boot options & OPTION SHOW) 

1361 || (flags & DEVFS FL SHOW UNREG) ) ? TRUE : FALSE; 

1362 de->hide = (flags & DEVFS FL HTDE) ? TRUE : FALSE; 

1363 de-^no persistence = (flags & DEVPS FL NO PERSISTENCE) ? TRUE : FALSE; 
1364 devfsd notify (de, DEVFSD NOTIFY REGISTERED, flags & DEVFS FL WAIT); 
1365 return de; 


1366 j  /* End Function devfs registor */ 


我 们 知道 ,“ 设 备 文 件 ” 节 点 的 实质 就 在 于 : RRS ARS ARES) 5 RARI ERR" 
HELEH, 包括 一 套 驱 动 程序 (通过 主 设 备 号 ) 以 及 具体 的 数据 结构 (通过 次 设备 与)。 在 老 的 方案 中 , E 
设备 号 就 惟 -… 地 俏 定 了 一 个 file_operations 数据 结构 。 相 比 之 下 ， 在 devfs PRET EAERI E 
调用 devfs_register( ) 时 可 以 通过 参数 ops 传 下 一 个 file operations 结构 指针 ， 只 是 当 ops 为 0 WAKA 
由 主 设备 号 确定 的 file operations BURA. EMR AS ILE WEA Bae OK, thal bh RS” 
AE 

同样 ， 这 里 也 是 道 过 search, for entry( ) 在 以 dir 为 根 的 子 树 中 找到 或 创建 目标 节点 的 devfs entry 
数据 结构 (1295 行 )， 只 不 过 这 一 次 把 devfs_entry 结构 用 作 feb id, mie Hox nau. Eun. ARE 
调用 了 ARA devfsd notify( )， 上 只 的 在 于 为 devfsd 进程 准备 下 - 些 信息 并 将 其 唤醒 ， 让 它 知 道 现在 
devfs 中 又 多 了 一 个 设备 节点 。 

此 后 应 用 进程 就 可 以 遂 过 新 的 devfs 格式 的 路 径 名 打 升 设备 文件 , 此 后 的 操作 就 与 原来 的 没有 什么 
不 同 了 。 显 然 ， 如 果 把 月 标 闻 点 直接 建立 在 devfs 的 根 日 了 录 ， 即 /dev 下 和 面 ， 并 日 符合 从 前 对 设备 名 的 约 
定 ， 那 么 从 应 用 程序 的 角度 看 就 与 老 的 方案 没有 什么 不 同 了 。 
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9.1 概述 


在 过 去 的 10 SEAL, 微 处 型 器 的 速度 增长 了 近 100 倍 ,但 是 尽管 如 此 ，CPU 的 最 高速 典 总 是 受到 当 
时 技术 条 件 的 限制 。 在 给 定 的 时 间 里 ，CPU 能 达到 的 最 高 速度 总 是 给 定 的 ， 表 要 提 访 速度 就 只 好 设法 
增加 并 行 度 ， 方 法 之 一 中 是 在 计算 机 中 使 用 多 个 处 理 器 ， 所 以 ， 多 处 理 器 结构 很 长 时 间 以 来 一 直 古 计 
算 机 科学 与 技术 的 “个 重要 分 文 。 在 长 期 的 研究 中 ， 人 们 先后 开发 了 几 种 重要 的 多 处 理 器 系统 结构 模 
型 ， 其 中 之 … 就 是 所 谈 “ 对 称 多 处 理 器 结构 ”(Semetric Multi-Processor Architecture), 457 SMP， 这 
是 一 种 比较 简单 的 多 处 理 器 系统 结构 。SMP 是 一 种 系统 结构 的 模型 ， 不 过 为 行文 的 方便 我 们 在 本 书 中 
也 常常 把 采用 SMP 结构 的 计算 机 系统 简称 为 SMP 结构 。 还 有 ， 在 本 蔬 中 讲 到 SMP 结构 时 大 多 专 指 采 
用 Intel Pentium 处 理 器 的 系统 ， 但 是 也 有 些 场 合 是 泛 指 ， 读 者 要 根据 上 下 文 加 以 区 分 。 

在 这 种 系统 结构 中 ， 所 有 的 CPU 在 这 行 时 【〈 除 系统 引导 利 初始 化 以 外 ) 都 是 “对 称 ” 的 ， 或 者 说 
都 是 “平等 ”的 ， 没 有 主 次 之 分 ， 通 季 物 理 上 也 采用 同一 种 CPU 《在 这 样 的 系统 上 由， 实际 上 已 经 没有 
所 谓 “ 上 由 央 处 理 器 ”了 ， 佣 为 了 行文 方便 我 们 仍 使 用 CPU 表示 “处 理 器 ”)。 所 有 的 CPU 通过 同一 条 
总 线 上 共享 同一 个 内 存 以 及 所 有 的 外 设 。 为 了 减少 访问 内 存 的 冲突 ，SMP 结构 中 的 各 个 CPU 通常 都 有 白 
山 的 高 速 缓存 。 图 9.1 给 出 了 SMP RAAR A. 

对 于 Intel 的 Pentium 处 理 器 (以 及 商 十 Pentium 的 处 惠 器 ， 下 同 )， 系 统 中 最 多 可 以 容纳 32 个 平 
1T BORDER AS o 

各 个 CPU 动态 地 从 系统 的 就 绪 进 程 队 刻 中 调度 〔 挑 选 出 ) 进程 如 以 执行 。 一 个 进程 在 相同 的 时 间 
电 可 以 在 不 同 的 CPU 上 运行 ; 中断 请 求 则 动态 地 分 配给 其 中 的 某 个 CPU， 由 这 个 CPU 提供 中 断 服务 。 
除 一 般 的 共享 内 存 外 ， 处 埋 嚣 间 的 通信 手段 还 有 进程 间 通 信和 处理 器 之 间 的 中 断 请 求 。 如 前 所 述 ， 通 
常 每 个 CPU 都 配备 了 自己 的 高 速 缓冲 存储 些 ， 以 减少 访问 内 存 时 的 冲突 ; o 方面 ， 虽 然 系 统 中 所 有 
的 处 理 器 都 采用 相同 的 时 钟 脉 冲 ， 但 是 由 寺 指 令 的 长 短 不 一 ， 加 上 访问 内 存 时 可 能 会 有 的 冲突 以 及 高 
速 缓存 的 使 用 等 等 因素 ， 一 般 而 癌 指 令 的 边界 是 不 能 对 齐 的 。 因 此 ， 系 统 中 的 各 个 CPU 都 在 独立 地 、 
异步 地 执行 指令 。 
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外 部 设备 





图 9.1 SMP 结构 模型 


这 样 的 结构 适合 于 此 求 提高 系统 总 的 “吞吐 草 ”， 但 站 系统 中 的 各 个 进程 则 互相 独立 的 那些 应 用 。 
例如 ， 网 络 服务 器 就 是 一 个 很 好 的 例子 ， 因 为 网 络 服务 器 存 同 时 间 中 要 响应 人 量 的 “点 而 ”， 而 对 这 
些 点 击 的 服务 又 是 苹 相 独立 的 〈 尽 管 实际 执行 的 程序 很 可 能 相同 )。 考 虑 到 这 一 点 ， 以 及 近 和 后来 对 网 络 
服务 器 的 大 量 需 求 , 就 不 难 明 白 为 什么 这 几 年 SMP 结构 变 得 这 么 热门 了 。 至 十 是 否 可 以 通过 采用 SMP 
结构 的 计算 机 来 提 襄 解 算 大 问题 的 迷 度 ， 则 取决 十 是 否 存 在 好 的 开行 算法 ， 从 而 可 以 有 效 地 把 给 定 的 
大 问题 分 解 成 若干 可 以 并 发 执行 的 进程 。 男 一 方面 ，SMP 证 种 通用 的 系统 结构 ， 用 它 来 实现 EE 
要 的 并 行 算法 往往 不 如 一 些 专 用 的 系统 结构 如“ 向量 机 ”结构 〉 那么 有 效 。 

但 是 ， 与 单 处 理 器 结构 树 比 ，SMP 结构 的 实现 有 “ 些 特殊 的 问题 需 紫 考 碟 和 解决 。 


首先 是 处 理 器 问 的 同步 与 据 帮 。 从 宏观 上 说 这 也 十 个 进程 间 通 信和 的 问题 ， 但 是 多 个 处 理 占 的 存在 
使 这 个 问题 更 复杂 化 了 ,在 单 处 理 器 结构 中 ， 各 个 进程 在 宏观 上 是 并 行 的， 但 是 在 微观 上 却 是 强行 的 ， 
因为 在 同一 时 间 点 上 只 有 :个 进程 真 止 在 运行 《系统 中 只 有 一 个 处 理 器 )， 因 此 称 为 “并 发 *。 在 这 样 
的 系统 中 ， 保 证 进程 间 的 同步 与 互 斥 是 比较 容易 的 。 同 顾 一 个 “临界 区 ”的 实现 ， 就 可 以 明白 进程 问 
的 同步 实际 上 可 以 归结 到 对 临界 资源 的 互 斥 操作 。 在 单 处 理 器 结构 中 ， 只 要 能 保证 企 对 临界 资源 的 操 
作 中 途 不 会 发 牛 进程 调度 ， 并 且 不 会 发 生 中 断 ， 或 者 即使 友 生 了 中 断 也 与 操作 的 对 象 无 六， 焉 保证 了 
操作 的 互 斥 性 。 即 使 在 极端 的 情况 下 〈 例 如 不 多 许 关 中 断 )， 只 要 对 临 几 资源 的 操作 能 在 单条 指令 中 完 
成 ， 那 也 保 让 了 操作 的 互 斥 性 ， 因 为 中 断 只 能 发 生 于 指令 之 间 ， 而 不 会 发 咎 在 执行 一 条 指令 的 路 途 。 
一 般 而 音 ， 只 要 能 保证 对 临界 资源 操作 的 “ 原 了 性 ”， 互 斥 性 就 你 证 了 。 所 以 ， 在 单 处 理 器 结构 中 ， 能 
够 在 单条 指令 中 完成 的 操作 就 认为 十“ 原 了 操作 ”。 这 也 是 为 什么 一 些 CPU 指令 系统 中 设置 了 “测试 
并 设置 “测试 并 清除 ”等 指令 的 原因 , 这 些 指 令 主 晓 都 是 用 十 对 临界 资源 的 筷 斥 操作 。 中 是, 在 SMP 
结构 中 就 不 同 了 了， 由 于 系 统 小 有 多 个 处 理 器 在 独立 地 运行 ， 即 使 能 企 单 条 指令 中 完成 的 操作 也 有 可 能 
受到 干扰 。 就 以 “测试 下 设置 ”这 条 指令 为 例 ， 它 先 从 菏 个 内 存单 元 读 出 其 内 容 ， 济 试 其 中 的 菜 一 位 ， 
并 把 这 一 位 设置 成 1 (也 可 能 原来 就 是 1)， 再 写 冉 内 存单 元 中 ， 并 根据 测试 的 结果 设置 标志 位 麻生 器 
中 的 相应 标志 位 。 可 见 ， 华 这 条 指令 的 执行 过 程 中 费 访 问 内 存 册 次 ， 形 成 一 个 “ 读 一 改 一 写 ” 的 过 和 信 。 
这 个 过 程 中 的 每- 步 部 是 “个 “ 微 操 作 ”， 整 条 指令 则 由 若干 微 操 作 构 成 。 二 是 ， 在 SMP AHP ase 
全 有 可 能 发 生 这 样 的 情况 ; 

(D CPUI 从 一 个 特定 的 内 存单 死 读 出 ， 并 测试 到 其 中 的 某 - 位 (假定 是 bit4) 为 0， 然 后 将 这 位 
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改 成 1。 
(2) 在 CPU1 还 没有 来 得 及 把 修改 后 的 结果 气 回 该 内 存单 元 之 前 ，CPU2 也 从 辐 内 存单 元 读 出 ， 
也 测试 到 bit4 为 0， 然后 也 将 这 -位 改 成 1。 
3) 然后 ，CPU1 把 修改 后 的 结果 写 回 内 存单 元 。 山 于 该 内 存单 元 的 bit 原来 是 0，CPU1 便 以 为 
取得 了 该 项 临界 资源 ， 并 且 确 信和 不 会 有 其 他 进程 前 来 打扰。 在 CPU1 看 来 ， 忆 已 经 把 这 个 内 
存单 元 的 bit4 改 成 了 1， 如 果 其 他 进程 再 来 对 此 项 临界 资源 执行 “测试 并 设置 ”操作 ， 就 会 
因此 而 被 关 在 门 外 。 
(4) 然后 ，CPU2 也 把 修改 后 的 结果 汉 回 内 存单 元 ， 也 以 为 取得 了 该 项 临界 资源 ， 也 确信 不 会 有 
其 他 进程 可 以 前 来 打扰 。 
可 是 ， 实 际 上 这 两 个 CPU 之 间 的 互相 于 扰 已 是 十 分 可 能 的 了 。 这 个 例子 告诉 我 们 ， 与 单 处 理 器 结 
RIEL, SMP 结构 对 隆 斥 操作 的 缴 灿 “分 辨 率 ” TR, 有些 在 单 处 理 器 结构 中 的 “原子 操作 ”在 SMP 
结构 中 不 再 是 原子 的 了 。 


第 二 个 问题 是 高 速 缓存 与 内 存 之 间 ( 内 容 的 ) 的 一 敏 性 问题 ,在 单 处 理 结构 中 , 使 用 高 速 缓存 的 日 的 
仪 在 于 通过 提高 CPU 取 指 令 和 读 / 写 数据 的 速度 来 改善 系统 的 性 能 。 高 速 缓存 与 内 存 的 关系 跟 缓 冲 页 
面 与 磁盘 上 记录 鼎 的 关系 相似 。 当 CPU 此 从 内 存 读数 据 时 ， 高 速 缓存 的 硬件 会 先 根据 目标 地 址 检查 这 
部 分 数据 是 和 否 忆 经 在 高 速 缓 人 在 中 ， 如 果 是 ， 就 不 需要 从 内 存 中 读 了 ; AW, BANE BE - 
小 块 数据 ， 称 为 :条 缓冲 线 (cache line)， 以 较 高 的 速度 装 入 高 述 缓存 。- HOR AT ee, FEAR 
于 同 ，- 缓 冲 线 的 内 存单 元 读数 据 时 就 能 在 高 速 缓 在 中 “命中 ”， 因 出 不 需要 到 内 存 中 去 恋 了 。 高 速 缓存 
中 的 内 容 也 像 缓 冲 页 面 那 样 随时 间 而 “老化 ” 当 高 迷 缓 存 的 容量 不 够 时 就 把 最 老 的 缓冲 线 内 容 丢 弃 ， 
从 而 达到 周转 使 用 高 速 缓存 空间 的 目的 。 此 外 ， 软 件 也 可以 通过 特定 的 指令 主动 将 商 速 缓存 中 属 丁 某 
个 内 存 区 间 的 内 容 丢 齐 ， 以 后 要 从 这 个 区 间 读 时 就 又 从 内 存 装 入 。 读 者 以 前 看 到 过 ， 通 过 DMA 操作 ， 
从 外 设 读 入 以 后 要 丢 齐 与 DMA 缓冲 区 对 应 的 缓冲 线 内 容 ， 就 是 因为 DMA 污 操 作 改 变 了 内 存 中 DMA 
缓冲 区 的 内 容 ， 使 得 高 速 缓存 与 内 存 不 一 和 化 了 。DMA 操作 是 趾 没 备 驱 动 程序 安排 启动 的 ， 所 以 设备 驱 
动 程序 知道 应 该 在 操作 完成 以 后 丢弃 高 速 缓存 的 内 容 。 人 是 ， 在 SMP 结构 中 情况 就 更 复 东 了 ， 因 为 一 
个 CPU 并 不 知道 别 的 CPU 会 在 何 时 改变 内 存 的 内 容 。 采 用 高 速 缓存 时 的 写 操作 有 两 种 模式 ， 一 种 称 
为 “ 穿 透 ”(Write-Through) 模 式 ， 企 这 种 模式 中 高 迷 绥 存 对 于 写 操作 就 好 像 不 存 存 一样， 每 次 写 时 都 直 
接 写 到 内 存 中 ， 所 以 实际 上 只 是 对 读 操 作 使 用 高 速 绥 存 ， 因 而 效 举 相 对 较 低 。 另 一 种 称 为 “ 回 写 ” 
(Write-Back) 模式 ， 写 的 时 候 先 写 入 高 速 缓存 ， 然 后 由 高 速 缓存 的 使 件 在 周转 使 用 缓冲 线 时 日 动 写 入 
内 存 ， 或 者 由 软件 主动 地 “冲刷 ”有 关 的 缓冲 线 。 因 此 ， 在 改变 了 缓冲 页 面 的 内 容 ， 并 启动 DMA € 
操作 将 其 写 同 磁 枚 之 前 要 先 “ 冲 刷 ” 高 速 缓存 中 有 关 的 缓冲 线 ， 因 为 改变 了 的 内 容 可 能 还 没有 回 写 到 
内 存 缓冲 区 中 。 

从 功能 和 作用 的 角度 看 ， 可 以 把 高 速 缓存 分 成 三 部 分 。 

(1) 对 访问 内 存 的 缓冲 (Cache)， 其 作用 类 似 于 访问 磁盘 时 的 缓冲 ， 包 括 对 数据 和 指令 册 方 面 的 组 

冲 ， 这 一 部 分 是 本 来 意义 上 的 “ 启 速 缓存”。 不 过 ， 对 指令 的 缓冲 基本 上 是 透明 的 ， 我 们 这 
里 关心 的 只 是 对 数据 的 缓冲 。 此 外 ， 高 壕 缓存 在 物理 上 往往 分 成 级 (L1) 和 二 级 (L2) 两 部 分 ， 
但 是 从 软件 的 角度 看 并 无 不 同 。 

(2) 页 而 了 映 射 目 下 和 和 页面 映 射 表 的 缓冲 存储 (CTLB)。 我 们 在 第 2 SPSS, AS ute mk 
射 的 速度 ， 在 页 面 映 射 的 过 程 实际 上 并 不 是 每 次 玫 到 内 存 中 访问 页 向 映射 目 未 利 页 面 映射 
志 ， 而 是 将 它们 所 在 的 页 而 装 入 CPU 内 部 ， 以 加 快 地 此 转换 的 速度 。 这 里 所 谓 “CPU 内 部 ” 
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Buffers );， 因 为 其 目的 在 于 地 址 映射 。 
3) 第 二 部 分 是 写 内 存 缓冲 区 (Write Buffer)。 在 多 处 理 器 系统 中 ， 当 个 处 理 器 启动 对 内 存 的 写 
操作 时 ， 有 可 能 系统 总 线 已 被 锁 住 ， 或 者 其 他 处 理 器 正在 装 入 / 气 回 -条 缓冲 线 ， 此 时 CPU 
把 要 写 的 内 容 暂 时 放 在 缓冲 区 中 ， 继 续 往 下 执行 而 不 必 停 下 来 等 待 。 然 后 ， 当 条 件 允 许 时 ， 
缓冲 区 的 有 关 硬 件 会 把 暂时 缓冲 着 的 内 容 写 加 内 存 。 

高 速 缓存 与 内 存 一 致 性 的 问题 ， 对 于 TLB 和 数据 的 缓冲 在 表现 上 和 处 理 上 有 所 不 同 。 

在 CPU 中 有 个 寄存 器 ， 称 为 “存储 类 型 及 范围 寄存 器 ”(Memory Type Range Register)MTRR, ii 
过 这 个 寄存 器 可 以 将 内 存 中 的 不 同 区 间 设 置 成 使 用 或 不 使 用 高 速 缓 存 ， 以 及 对 于 写 操作 采用 穿 透 模式 
或 回 写 模式 。 具 体 地 ， 可 以 把 每 一 个 内 存 区 间 设 党 成 下 列 几 种 模式 : 

(1) PÆ. 

Q) Zn, Wu. 

(3) ZW. BIGEX. 

(4) 写 保 护 ， 只 人 允许 读 不 允许 写 。 

此 外 ，MTRR 还 支持 种 “结合 写 ”(write combining) 模 式 ， 用 于 跟 写 入 次 序 无 关 的 区 闻 。 例 如 ， 
图 像 缓 冲 区 就 是 这 样 的 区 间 : 把 个 像素 很 快 地 先 写 成 红 ， 髓 写成 黄 ， 再 写成 绿 ， 女 直接 写成 绿 在 效 
果 上 并 无 不 同 。 当 然 ， 这 种 模式 对 于 拘 作 系统 内 核 是 不 适合 也 

其 实 ， 除 MTRR 以 外 ， 遂 过 其 他 控制 寄存 器 也 能 从 总 体 上 或 按 贞 面 方式 控制 高 速 缓存 的 方式 只 
是 没有 采用 MTRR 时 那样 的 灵活 性 和 控制 精度 而 已 。 再 说 在 Pentium 以 前 的 处 理 器 中 根本 就 没有 
MTRR， 所 以 在 Linux 内 核 中 是 否 采用 MTRR 十 个 选择 项 。 

还 有 个 与 高 速 缓存 密切 相关 的 重要 问题 ， 就 是 高 速 缓冲 的 过 用 有 可 能 改变 对 内 人 存 操作 的 次 序 。 候 
定 有 两 个 观察 者 ， 一 个 观察 CPU 内 部 高 速 缓存 受到 访问 的 次 序 ， 而 另 一 个 观察 内 存 受到 访问 的 次 序 ， 
则 二 者 可 能 会 有 相当 大 的 关 溯 。 前 者 就 是 程序 小 编排 好 的 次 序 , 所 以 称 作 “指令 序 ” (program ordering). 
后 者 则 是 实际 出 现在 处 理 器 外 部 ， 即 系统 总 线 上 的 次 序 ， 所 以 称 作 “处 理 器 序 ”(processor ordering). 
显然 ， 不 使 用 高 速 缓存 时 二 者 必然 相同 。 而 如 果 使 用 高 速 缓 冲 ， 沙 就 此 看 具体 的 情况 和 操作 。 如 果 保 
证 “处 理 器 序 ” 与 “指令 序 ” 相 同 ， 就 称 作 “ 强 序 ”(strong ordering); 反之 ， 旭 果 “ 处 理 器 序 ” 有 时 
候 可 能 个 同 于 “指令 序 ”， 就 称 作 “ 弱 序 ”(weak ordering)。 对 于 单 处 理 器 结构 的 系统 ， 这 二 者 的 不 同 
并 不 成 什么 问题 ， 然 而 对 SMP 结构 的 系统 却 可 能 成 为 问题 。 

此 外 ，gcc 在 编 详 过 程 中 进行 的 优化 也 可 能 会 改变 操作 的 次 序 。 这 种 情况 下 的 “指令 序 ” 本 身 就 可 
能 与 程序 编写 者 的 意图 人 不同， 在 单 处 理 器 系统 中 己 吕 能 造成 问题 ， 在 SMP 结构 中 就 更 加 中 能 了 。 

在 SMP 结构 中 ， 高 速 缓存 的 作用 比 人 在 单 处 理 器 结构 中 更 为 重 归 ， 因 为 它 不 但 可 以 提高 取 指 令 和 读 
/ 写 数据 的 速度 ， 偿 有 利于 减少 多 个 CPU 在 访问 内 存 时 的 冲突 。 一 般 的 内 在 都 不 允许 在 同一 时 间 内 ( 同 

-个 “内 存 访问 周期 ”内 ) 受到 多 个 CPU 的 访问 ， 所 以 ， 在 SMP 结构 中 通常 每 个 CPU AUG BECK 
速 缓 存 ， 从 而 … 量 把 高 速 组 存 装 满 以 后 ， 就 可 以 运行 相当 长 的 时 间 击 无 需 经 常 地 读 / 写 物 埋 上 的 内 存 。 

如 上 所 述 ， 单 处 理 器 系统 中 的 DMA 操作 都 是 山 设备 驱动 程序 主动 地 启动 的 ， 所 以 设备 驱动 程序 
(确切 地 说 是 程序 员 ) 知道 什么 时 候 应 该 玉 闻 哪 些 缓冲 线 的 内 容 ， 什 么 时 候 应 该 冲刷 哪些 缓冲 线 的 内 
容 。 可 是 在 SMP 结构 中 就 复杂 了 ， 此 时 每 个 CPU 都 有 可 能 改变 内 存 中 的 内 容 ， 帆 且 是 异步 地 改变 。 
跳 是 说 ， 每 个 CPU 都 只 知道 自己 何 时 会 改变 内 存 的 内 容 (包括 自己 启动 的 DMA 操作 )， 但 是 者 不 知道 
别 的 CPU 会 在 什么 时 候 改 变 内 存 的 内 容 ， 也 不 知道 白 己 本 地 的 高 这 缓存 中 的 内 容 是 否 凯 经 与 内 存 中 椒 
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一 致 。 反 过 来 ， 每 个 CPU 都 可 能 因为 改变 了 内 存 的 内 容 而 使 其 他 CPU 的 高 速 缓存 变 得 不 一 致 了 。 


第 三 个 问题 是 对 中 断 的 处 理 。 在 单 处 理 器 结构 中 ， 整 个 系统 只 有 -个 CPU， 所 有 的 中 断 请 求 都 由 
这 个 CPU 响应 和 处 理 。 可 是 ， 在 SMP 结构 中 怎么 办 呢 ? 是 固定 让 其 中 的 某 一 个 CPU 处 理 所 有 的 中 断 
请 求 ， 还 是 让 所 有 的 CPU 轮流 处 理 ? 如 果 是 固定 让 一 个 CPU 处 理 ， 那 么 其 他 的 CPU 是 省 就 没有 任何 
HE, 连 称 为 “心跳 ”的 时 钟 中 断 也 没有 了 ? 要 是 那样 ， 万 一 在 那些 CPU 上 运行 的 进程 陷入 了 死 循环 ， 
从 而 永远 没有 机 会 进行 系统 调用 ， 这 些 CPU 岂 不 是 就 永远 不 会 有 进程 调度 了 ? 如 果 是 让 所 有 的 CPU 
轮流 处 理 ， 或 者 谁 空闲 谁 处 理 ， 那 又 怎样 把 中 断 请 求 分 配给 不 同 的 CPU We? 

还 有 ， 后 面 读 者 会 看 到 ， 为 了 解决 上 述 的 问题 ， 就 像 进 程 之 间 要 有 “进程 间 通 信 ” 的 手段 一 样 ， 
处 理 器 之 闻 也 要 有 “处 理 器 间 中 断 ” 的 手段 ， 这 显然 不 是 单 舍 软件 就 能 解决 的 。 


下 面 ， 我 们 将 结合 Intel 的 1386 结构 ， 主 要 是 Pentium 处 理 器 ， 以 及 Linux 内 核 中 的 有 关 源 代码 来 
看 这 些 问题 是 如 何 解决 的 。 这 里 要 说 明 一 点 ， 限 于 本 书 的 篇 幅 ， 我 们 不 可 能 对 SMP 结构 这 个 课题 作 全 
面 而 详尽 的 介绍 ， 那 本 身 就 已 经 足够 一 本 专著 的 内 容 。 事 实 上 ，Curt Schimmel ff) (UNIX Systems for 
Modern Architectures) 书 就 是 这 方面 的 经 典 著作 。 同 时 ， 我 们 也 不 可 能 就 Pentium 处 理 器 对 SMP £i 
构 的 支持 作 详尽 的 介绍 。 需 要 深入 研究 SMP 结构 的 读者 应 该 进一步 阅读 有 关 的 专著 和 Intel 提供 的 技 
AERE. Cn] AA Intel 的 网 站 下 载 )。 


92 SMP 结构 中 的 互 斥 问题 


Intel 在 80386 的 设计 时 就 在 一 定 程度 上 考虑 到 了 SMP 结构 的 需要 。 后 来 ， 随 着 应 用 中 逐渐 增长 的 
需求 和 技术 的 发 展 ， 又 对 i386 系统 结构 逐步 作 了 加 强 ， 到 推出 Pentium 处 理 器 〈 上 更 确切 地 说 是 PO 系 
州 ) 的 时 候 就 已 经 有 了 比较 完整 的 解决 方案 。 

4B i386 系列 的 处 理 器 ， 特 别 是 Pentium， 是 怎样 解决 SMP 结构 中 对 临界 资源 操作 的 原子 性 问题 
的 。 首 先 ， 单 纯 的 读 或 写本 来 就 是 原 了 的 。 不 管 是 8 位 、16 位 ， 还 是 32 EME, MARTA 
读 / 写 微 操 作 就 能 完成 ， 所 以 是 不 可 分 割 的 。 问 题 在 于 一 些 既 要 读 又 要 写 ， 因 而 需要 两 个 或 两 个 以 上 的 
微 操作 才能 完成 的 指令 ， 如 前 述 的 “ 读 一 - 改 一 写 ” 操 作 就 是 一 个 例子 。 对 于 这 样 的 指令 ，i386 CPU fe 
供 了 在 指令 执行 期 间 对 总 线 加 锁 的 于 段 。CPU 芯片 上 有 -条 引线 LOCK， 如 果 汇 编 语 言 的 程序 中 在 -- 
条 指令 前 面 加 上 前 缀 “LOCK” 经 过 汇编 以 后 的 机 器 代码 就 使 CPU 在 执行 这 条 指令 的 时 候 把 引线 LOCK 
的 电位 拉 低 ， 从 而 把 总 线 锁 住 ， 这 样 同一 总 线 上 别 的 CPU 就 暂时 不 能 通过 总 线 访问 内 在 了 。 这 方面 还 
有 个 特例 , 就 是 在 执行 指令 xchg 的 时 候 CPU 会 自动 将 总 线 锁 住 , 而 不 需 此 在 程序 中 使 用 前 织 “LOCK”。 
xchg 指令 将 个 内 存单 元 中 的 内 容 与 一 个 寄存 器 的 内 容 对 换 ， 因此 常常 用 于 对 内 核 信号 量 (Semephore) 
的 燥 作 。 显 然 ， 这 是 一 条 既 有 读 义 有 写 的 操作 指令 。 下 面 的 函数 spin_trylock( ) 就 是 一 个 使 用 xchg 的 实 
例 ， 取 自 include/asm-i386/spinlock.h: 


68 static inline int spin trylock(spinlock t *lock) 


69 { 

10 char oldval; 

71 __asm__ __ volatile _ ( 
72 “xchgb %b0, %1” 
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73 :=d” (oldval), "-m" (lock->lock) 
74 :^0^ (0) : "memory^); 

75 return oldval > 0; 

76] 


JR oR BUH ERTO, Bil oldval 先 设 置 成 0， 然后 与 把 作 数 %1， 即 内 存单 元 lock->lock 的 内 容 对 
换 。 如 果 lock->lock 的 内 容 原 米 就 是 0, 就 说 明 这 个 锁 lock 在 此 之 前 已 经 被 锁 上 了 , 所 以 spin_trylock() 
返回 0 表示 加 馈 失 败 。 反 之 ， 如 果 lock->lock 的 内 容 原 来 非 0， 则 现在 变 成 了 0， 加 锁 就 成 功 了 ， 所 以 
spin trylock( ) 返 加 1。 由 于 在 执行 xchg 指令 时 CPU 会 自动 锁 住 总 线 ， 所 以 不 需要 在 这 条 指令 前 面 加 前 
缀 “LOCK”。 再 看 对 这 个 函数 的 使 用 (kernel/softirq.c): 


244 spinlock t global bh lock = SPIN LOCK UNLOCKED; 


245 

246 static void bh, action(unsigned long nr) 
241 { 

248 int cpu = smp processor id( ); 

249 

250 if (!spin trylock(&global bh lock)) 
251 goto resched; 

256 if (bh base[nr]) 

257 bh base[nr] ( ) ; 

260 spin unlock(&global bh. lock) : 

261 return; 


265 resched: 
266 mark bh(nr); 
267 | 


这 里 的 global bh lock 是 用 于 bh 函数 执行 机 制 的 锁 ，spinlockt 数据 结构 的 定义 在 
include/asm-1386/spinlock.h 'T': 


17 /* 

18 * Your basic SMP spinlocks, allowing only a single CPU anywhere 
19 */ 

20 

21 typedef struct | 

22 volatile unsigned int lock; 

23 Sif SPINLOCK DEBUG 

24 unsigned magic; 

25 #endif 


26 ) spinlock t; 


从 250 行 的 spin. trylock( ) € 260 行 的 spin unlock( ) 之 间 是 需要 保证 互 斥 、 且 在 同一 时 间 中 只 允许 
一 个 CPU 在 里 面 执行 的 临界 区 。 所 以 ，CPU 在 进入 这 个 区 间 前 ， 先 要 通过 spin trylock( me, m 
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global bh lock 的 初始 值 非 0。 如 果 spin_trylock( ORDR LED 0 就 表示 已 经 有 CPU fS dtr fo PH 
以 就 跳 过 对 bh 函数 的 执行 而 转 到 resched 处 。 这 样 ， 利 用 xchg 指令 的 原子 性 ， 就 实现 了 对 临界 资源 
global bh lock 操作 的 互 斥 性 ， 进 而 实现 了 整个 临界 区 中 操作 的 互 斥 性 。 

显然 ， 在 竞争 (或 者 说 抢夺 ) 临 界 资源 时 ， 只 有 系统 中 所 有 的 CPU 都 位 实 是 在 对 同一 个 内 存单 元 执 
行 xchg 指令 才 有 意义 。 如 困 各 个 CPU 只 是 对 global bh lock 在 其 高 速 缓存 中 的 一 个 副本 执行 xchg 指 
令 ， 而 执行 的 结果 又 不 能 立即 为 其 他 CPU 所 见 ， 则 spin_trylock( ) 就 毫 尤 作用 了 。 读 者 在 下 一 广 中 将 看 
Bl], Intel 在 Pentium 处 理 器 中 提供 了 -种 称 为 snooping 的 机 制 ， 能 自动 维持 高 速 缓存 与 内 存 的 数据 一 
致 性 ， 使 这 个 问题 对 于 软件 成 为 透明 。 桂 则 ， 就 必须 把 global bh lock 放 在 一 个 不 加 缓冲 的 区 问 中 。 

再 来 看 (计数 ) 信号 量 的 实现 ， 函 数 down ) 的 代码 读者 以 前 看 到 过 了 ， 这 时 只 列 出 其 中 儿 行 供 读 
省 比较 和 领会 (include/asm-i386/semaphore.h): 


114 static inline void down(struct semaphore * sem) 
115 { 

120 asm | volatile ( 

121 ^& atomic down opcration\n\t” 

122 LOCK "decl %0\n\t” /* --sem—>count */ 
123 "js 2f\n” 

129 :”=m” (sem ?count) 

130 :^c^ (sem) 

131 :^memory^); 

132 } 


这 里 使 sem-»count 的 数值 减 1 的 操作 是 通过 dec 指令 完成 的 。 显 然 ， 这 条 指令 执行 的 也 是 “ 读 一 
改 一 扎 ” 反 作 ， 为 了 保证 操作 的 原子 性 ， 在 指令 前 面 如 上 了 前 缀 “LOCK ”。 


前 向 讲 过 ， 高 速 缓存 的 使 用 可 能 会 使 实际 的 内 存 操作 改变 次 序 。 从 访问 内 存 的 角度 看 ， 这 右 使 得 
CPU 可 能 会 有 一 些 逻 辑 上 已 经 完成 、 但 是 物理 上 尚未 实现 的 内 存 操作 。 在 SMP 结构 中 ,这 种 次 序 的 改 
变 也 可 能 影响 到 CPU 间 的 同步 与 孔 斥 。 所 以 ， 需 要 有 一 种 手段 ， 使 得 在 某 些 操 作 之 前 把 这 种 “ 欠 下 ” 
的 内 存 操作 全 都 最 终 地 、 物 理 地 完成 ， 跳 好 像 把 从 下 的 债 部 结 清 ， 然 后 再 开始 新 的 《通常 是 比较 竺 并 
的 ) 活动 一 样 。 这 种 于 段 称 为 “内 存 路 障 ”(memory barrier), XF SMP 结构 也 是 很 重 此 的 。intel 在 
Pentium 处 理 器 中 通过 多 种 方式 提供 内 存 路 障 : 
(1) ”凡是 对 系统 总 线 加 锁 的 操作 都 起 着 内 存 路 障 的 作用 。 所 以 ， 在 down( ) 中 的 dec 指令 就 十 个 
内 存 路 障 ，CPU 在 执行 这 条 指令 之 前 会 门 动 拒 岂 经 写 入 高 速 缓存 、 伺 是 尚 森 最终 写 回 内 存 的 
内 容 先 冲刷 出 去 。 

(2) 一 些 特殊 的 指令 和 操作 起 着 内 存 路 障 的 作用 。 这 样 的 指令 有 iret, cpuid、 sfence， 以 及 以 控 
制 寄存 器 或 程序 调试 寄存 器 为 口 标 的 mov 指令 , 还 有 对 GDTR. LDTR, IDTR 等 寄存 器 的 装 
入 操作 和 对 高 速 绥 存 的 控制 操作 。 这 里 特别 值得 一 提 的 是 指令 cpuid， 我 们 有 时 候 会 让 汇编 
代码 中 看 到 似乎 与 程序 逻辑 无 关 的 cpuid 指令 ， 那 其 实 就 起 起 着 路 障 的 作用 。 

为 了 编 当 程序 的 方便 ， 内 核 的 代码 中 定义 了 儿 个 用 作 路 障 的 宏 操 作 ， 具 体 有 mb) rmb ) 以 及 
wmb( )， 均 定义 十 include/asm-i386/system.h A. Xf T Intel 结构 的 CPU， 如 Pentium，rmb( ) 实 际 土 就 

- 613 . 


Linux 内 核 源 代 码 情景 分 析 “ 下 册 》 


是 mb( ). 

257 /* 

258 * Force strict CPU ordering. 

259 * And yes, this is required on UP too when we're talking 

260 * to devices. 

261 * 

262 * For now, "wmb( )" doesn’t actually do anything, as all 

263 * Intel CPU's follow what Intel calls a *Processor Order*, 
264 * in which all writes are seen in the program order even 

265 * outside the CPU. 

266 * 

267 * I expect future Intel CPU's to have a weaker ordering, 

268 * but I'd also expect them to finally get their act together 
269 * and add some real memory barriers if so. 

270 * 

271 * The Pentium III docs add a real memory barrier with the 
212 * sfence instruction, so we use that where appropriate 

273 * / 

274 Hifndef CONFIG X86 XMM 

215 define mb( ) — asm, | volatile | V(^lock; addl $0,0(9*esp)^: : :”memory”) 
276 #else 

277 ttdefine mb( ) asm volatile | (“sfence”: : :^memory^) 


278 &endi f 

279 #define rmb( ) mb() 

280 tdefine wnb( ) | asm volatile — ("^: : ;^memory") 
281 


这 里 的 指令 sfence BA “HAE” (storage fence)， 是 专 为 存储 器 闻 步 出 设 的 。 与 cpuid 相 比 ， 
sfence 没有 任何 副作用 ， 而 cpuid 则 会 改变 %eax 等 寄存 器 的 内 容 。 但 是 ， 并 不 是 所 有 的 Pentium CPU 
都 提供 sfence 指令 , 所 以 对 不 提供 这 条 指令 的 CPU 就 通过 一 条 带 前 缀 LOCK 的 指令 来 实现 , 但 是 又 要 
不 产生 任何 副作用 ， 所 以 把 下 在 堆栈 顶部 的 那个 数据 作为 操作 对 象 ， 在 它 上 和 面 加 .上 0。 全 于 wm )， 
代 人 码 的 作者 在 注释 中 说 日 前 Intel 的 CPU 对 写 操作 自动 地 保证 “处 理 器 序 ”， 所 以 并 不 需 此 做 什么 事 。 
这 些 昂 数 还 有 个 作用 ， 就 是 使 gee 在 编 详 时 不 会 试图 跨 过 这 些 函 数 进行 优化 。 

于 面 是 一 个 在 程序 中 调用 函数 mb( ) 设 置 内 存 路 障 的 实例 ， 取 自 kernel/softirq.c。 


269 void init bh(int nr, void (*routine) (void)) 


270 { 

271 bh base[nr] = routine; 
272 mb( ) ; 

213 } 


作用 与 冲刷 TLB 相似 。 
所 以 ， 对 于 现代 的 CPU， 不 同 处 理 器 对 临界 资源 操作 的 蔚 斥 性 和 次 序 的 正确 性 主要 是 靠 使 件 解决 
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的 ， 软 件 只 起 着 辅助 的 作用 。 
顺便 提 :下 ， 前 面 bh_action( ) 的 代码 中 引用 了 一 个 inline 函数 smp_processor_id( )， 目 的 是 此 知道 
当前 进程 在 哪 一 个 CPU 上 运行 ， 与 此 相似 的 还 有 个 hard smp processor id( )， 均 定义 才 
include/asm-i386/smp.h 内 : 


72 /* 

73 * This function is needed by all SMP systems. It must _always_ be valid 
74 * from the initial startup. We map APIC BASE very early in page setup( ), 
75 * so this is correct in the x86 case 

76 */ 

77 

78 #define smp processor id( ) (current->processor) 

79 

80 extern __ inline int hard_smp_processor_id (void) 

81 { 

82 /* we don’t want to mark this access volatile - bad code generation */ 
83 return GET APIC_1D(*(unsigned long *) (APIC_BASE+APIC_ID)) ; 

84 |} 


每 当 一 个 CPU 调度 一 个 进程 运行 时 ， 都 把 自己 的 逻辑 序号 设置 在 该 进程 的 task struct 结构 中 的 
processor 字段 中 。 这 个 序号 从 哪儿 来 昵 ? 很 简单 , 米 电 调度 之 前 原来 在 这 个 CPU 上 运行 的 进程 。 那么 ， 
第 一 个 在 此 CPU 上 运行 的 进程 (空转 进程 ) 又 从 哪里 取得 这 个 序号 呢 ? APE CPU， 这 个 序号 是 0， 而 
次 CPU 的 序号 则 取决 于 让 CPU 启动 它们 运行 的 先后 。 至 于 hard smp processor id( )， 则 从 本 地 APIC 
中 读 出 其 物理 序号 。 

在 单 CPU 系统 中 这 两 个 蚂 数 都 问 定 返回 0。 


9.3 高速 缓存 与 内 存 的 一 致 性 


本 章 第 一 节 中 讲 到 的 第 二 个 问题 是 各 个 CPU 私有 的 、 局 部 的 高 速 缓存 与 公共 的 、 合 局 的 内 存 如 何 
同步 的 问题 。 

对 寺 高 速 缓存 中 的 第 一 部 分 ， 实 际 上 一 般 只 有 数据 才 有 - 致 性 的 问题 ， 因 为 对 指令 一 般 都 是 只 读 ， 
而 并 不 在 运行 的 过 程 中 动态 地 加 以 改变 。Jntel 在 Pentum CPU 中 为 已 经 装 入 高 速 缓存 的 数据 提供 了 一 
Pha SW ER BOWL, PR “BEER” (snooping). ++ CPU 内 部 都 有 一 部 分 专门 的 硬件 ， 一 
晶 启 用 了 高 速 缓 存 以 后 就 时 刻 监视 着 系统 总 线 上 对 内 存 的 操作 。 由 于 对 内 存 的 操作 ~… 定 要 经 过 系统 总 
线 ， 所 以 没有 一 次 实际 访问 内 存 的 操作 是 能 够 逃 过 其 监视 的 。 如 果 发 现 有 来 自 其 他 CPU 的 写 操作 ， 而 
本 CPU 的 高 速 缓存 中 又 缓冲 存储 着 该 次 写 操作 的 月 标 ， 就 会 自动 把 相应 的 缓冲 线 废弃 ， 使 得 在 需要 用 
到 这 些 数 据 时 重新 将 其 装 入 高 速 缓存 ， 以 此 达到 二 者 的 一 致 。 这 样 一 来 ，SMP 结构 中 高 速 缓存 与 内 存 
的 数据 一 致 性 问题 对 于 软件 而 言 就 是 透明 的 了 。 显 然 ， 这 种 机 制 大 大 地 简化 了 软件 的 设计 与 实现 。 读 
者 可 以 回顾 一 下 SMP 结构 中 对 临界 资源 加 锁 ( 见 第 4 章 ) 的 过 程 。 如 果 没 有 这 种 自动 保持 - 致 的 机 制 ， 
就 必须 把 所 有 用 于 spinlock 的 变量 全 都 放 在 一 个 不 加 缓冲 的 区 间 ， 否 则 各 个 CPU 所 测试 和 改变 的 可 能 
只 是 自己 高 速 缓存 中 的 内 容 ， 而 根本 起 不 到 spinlock 的 作用 。 

对 于 高 速 缓存 中 的 TLB 部 分 ， 问 题 便 有 所 人 不同 。 这 个 问题 可 以 通过 IPI、 即 “处 理 器 问 中 断 ” 来 
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解决 。 每 当 一 个 CPU 改变 了 内 存 中 某 个 页 面 映射 日 录 或 页 面 喘 射 表 的 内 容 ， 从 而 可 能 引起 其 他 CPU 
的 TLB 与 此 不 一 致 时 ， 就 向 系统 中 正在 使 用 这 个 映射 表 的 CPU 发 出 一 个 中 断 请 求 ， 请 它们 废弃 各 由 
TLB 中 的 内 容 。 后 而 读者 将 会 看 到 ， 人 在 1386 SMP 结构 中 采用 的 是 “高 级 可 编程 中 断 控制 器 ”APIC， 

在 APIC 中 专门 为 此 而 没 立 了 -种 中 断 请 求 , HRR EA INVALIDATE_TLB_VECTOR。 当 一 个 CPU 
收 到 这 种 中 断 请 求 时 ， 就 会 在 相应 的 中 断 服务 程序 中 将 其 TLB 中 的 部 分 或 企 部 内 容 作 废 (Invalidate)。 

TLB 中 的 内 容 作废 以 后 ， 就 会 在 需 娄 用 到 这 些 内 容 时 自动 重新 装 入 ， 这 样 就 保证 了 内 容 的 一 致 性 。 同 
时 ， 内 核 中 还 提供 了 一 个 通用 的 清 数 send_IPI_ mask( )， 当 一 个 CPU 需要 向 其 他 CPU 发 出 某 种 中 断 请 
求 时 , 处 吓 以 用 相应 的 中 断 向 量 为 参数 调用 这 个 哨 数 来 完成 。 对 十 INVALIDATE_TLB_VECTOR 中 断 ， 
内 核 还 在 send_IPI_mask( ) 的 基础 上 提供 了 个 函数 flush_tlb_others( )。 当 一 个 CPU OR Heft CPU E 
ARA TLB 中 的 内 容 时 ， 就 可 以 调用 flush_tlb_others( ) 达 到 “冲刷 其 他 (进程 的 J)TLB” 的 日 的 。 注 意 这 
里 所 谓 “冲刷 ”实际 上 是 废弃 。 

我 们 通过 一 个 实例 来 看 对 flush_tlb_others( ) 的 调用 。 在 第 2 章 中 ， 读 者 看 到 过 内 核 线 程 kswapd( ) 
通过 try. to. swap. out( ) 试 图 换 出 某 个 进程 的 一 个 页 面 的 过 程 。 在 函数 try_to_swap_out( ) 中 , 先 对 给 定 表 
项 所 映射 的 内 存 页 面 进行 了 种 种 检查 。 如 果 决 定 要 断 井 这 个 页 面 的 映射 ， 就 先 把 这 个 表 项 清 成 0， 然 后 
再 根据 其 体 的 情况 决定 是 否 党 要 将 这 个 表 项 设置 成 指向 各 上 的 页 面 映 象 。 卜 面 是 这 个 函数 中 的 一 个 片 
上 断 (mnmyvmscan.c)。 


[kswapd( ) > do_try_to_free_pages( ) > refill inactive ( ) > swap. out( ) > swap out mm( ) > 
swap. out. vma( ) > swap. out. pgd( ) > swap out pmd( ) > try to swap out( )] 


38 static int try to swap out(struct mm struct * mm, struct vm area struct* vma, 
unsigned long address, pte t * page table, int gfp mask) 

39 { 

78 /* From this point on, the odds are that we're going to 

T9 * nuke this pte, so read and clear the pte. This hook 

80 * is needed on CPUs which update the accessed and dirty 

81 * bits in hardware. 

82 */ 

83 pte = ptep get and clear(page table); 

84 flush tlb page(vma, address): 

157 } 


这 里 的 83 行 通过 ptep get and clear( ) 将 指针 page table 所 指 的 表 项 清 成 0， 接 着 就 谓 骨 
flush, tlb page( ) 冲 刷 CPU 的 高 速 缓存 。 这 里 要 说 明 : kswapd( ) 是 个 内 核 线程 , 正在 共 一 个 CPU 上 运行 ， 
而 止 在 处 理 中 的 页 面 表 却 通常 是 届 丁 男 一 个 进程 的 ， 那 个 进程 上 有 串 能 下 在 男 一 个 CPU 上 运行 着 。 如 果 
事 样 ， 则 它 的 奥 面 表 很 可 能 已 被 装 入 那个 CPU 的 襄 速 缓存 中 。 所 以 ， 此 时 要 向 正在 运行 着 日 标 进程 的 
CPU 发 送 一 个 INVALIDATE_TLB_VECTOR 中 断 请 求 , thE RAR SRR PNA Be RACE 
改变 了 的 页 面 映射 表 。 这 是 由 flush tib page( ) 完 成 的 ， 其 代码 在 arch/i386/kernel/smp.c H: 


[kswapd( ) > do try to free pages( ) > refill inactive ( ) > swap. out( ) > swap out mm( )> swap out, vma( ) 
> swap out pgd( ) > swap. out pmd( ) > try to swap out( ) > flush tlb page( )] 
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372 void flush tlb page(struct vm area struct * vma, unsigned long va) 


373 

374 struct mm struct *mm - vma-^vm mm; 

375 unsigned long cpu mask = mm->cpu vm mask & "(1 «€ smp processor id( )); 
376 

377 if (current->active mm == mm) { 

378 if (current >mm) 

379 __ flush tlb one (va); 

380 else 

381 leave mm(smp processor id( )); 
382 } 

383 

384 if (cpu mask) 

385 flush tib others(cpu mask, mm, va); 
386 } 


读者 应 该 还 记得 ， 进 程 的 虚 存 空间 是 由 一 个 mm, struct 数据 结构 代表 的 。 在 mm_struct 数据 结构 中 
有 个 字段 cpu_ym_mask， 这 是 个 位 图 ， 表 示 有 了 哪 一 些 CPU 正在 使 用 这 个 空间 。 系 统 中 的 个 A CPU 
都 对 应 着 这 个 位 图 中 的 一 位 ， 如 果 是 单 CPU 系统 则 只 有 bito 有 意义 。 当 :个 CPU 在 进程 调度 中 从 
个 老 进程 切换 到 一 个 新 进程 的 时 候 ， 就 要 修改 这 两 个 进程 所 使 用 的 mm struct. 数据 结构 中 的 位 图 ， 在 
新 进程 的 mm_struct 结构 中 把 相应 的 标志 位 设 览 成 1， 而 老 进 称 的 mm_struct 结构 中 则 把 相应 的 标志 位 
设置 成 0〈 详 见 switch_mm( ) 的 代码 )。 每 个 CPU 都 可 以 通过 一 个 画 数 smp_processor_id( ) 取 得 其 在 系 
统 中 的 编号 ， 这 就 决定 了 它 在 位 图 中 的 位 置 。 以 前 ， 我 们 在 第 4 章 中 阅读 switch. mm( ) 的 代码 时 有 意 
忽略 了 这 个 细节 ， 现 在 读者 可 以 回 过 去 看 一 上 人。 上 面 的 375 行 把 正在 处 理 的 mm struct 结构 中 的 位 图 
取 到 发 量 cpu. mask 中 ， 但 是 将 正在 执行 这 个 此 数 的 CPU 本 身 除 外 。 这 样 ， 如 果 cpu mask 为 非 0 就 说 
明 系 统 中 全 少 还 有 一 个 CPU 正在 这 行使 用 这 个 mm_struct 结构 的 进程 ， 从 而 止 在 使 用 相应 的 页 面 表 ， 
所 以 此 进一步 调用 flush_tlb_others( )。 至 于 代码 中 的 377 一 382 行 ， 那 只 是 在 当前 进程 ， 就 是 正在 当前 
CPU 上 这 行 的 进程 ， 恰 好 也 与 日 标 mm_struct 结构 有 关 的 时 候 才 执行 ， 我 们 在 这 时 对 此 并 不 关心 。 限 
数 flush_tlb_others( ) 的 代码 在 arch/i386/kernel/smp.c 中 !; 


[kswapd( ) > do_try_to_free_pages( )> refill inactive ( ) > swap_out( ) > swap_out_mm( ) > swap. out. vma( ) 
> swap. out, pgd( ) > swap out, pmd( ) > try to swap out( ) > flush tlb page( ) > flush tlb others( )] 


304 static void flush tlb others (unsigned long cpumask, struct mm struct *mm, 
305 unsigned long va) 

306 { 

307 /* 

308 * A couple of (to be removed) sanity checks: 
309 * 

310 x — we do not send IPIs to not-yet booted CPUs 
311 * - current CPU must not be in mask 

312 * — mask must exist :) 

313 */ 

314 if (!cpumask) 

315 BUG( ) ; 
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316 
317 
318 
319 
320 
321 
322 
323 
324 
325 
326 
327 
328 
329 
330 
331 
332 
333 
334 
335 
336 
337 
338 
339 
340 
341 
342 
343 
344 
345 
346 


内 核 中 有 个 全 局 量 cpu_online_map， 这 也 是 个 位 图 ， 记 录 着 系统 中 所 有 的 CPU (RE 32 个 ), 参 
数 cpumask 的 内 容 只 能 是 cpu. online, map 的 一 个 子 集 , 并 且 不 能 包括 当前 CPU 本 身 。 此 外 , flush. mm. 
flush, va 以 及 flush_cpumask 都 是 全 局 量 , 用 来 作为 IPI 的 辅助 手段 。 由 于 是 全 局 量 , 系统 中 所 有 的 CPU 
都 能 看 到 这 些 变 景 。 同 时 , 对 这 些 全 局 量 的 改变 必须 互 斥 。 接 着 就 是 通过 send_IPI_mask( ) 向 有 关 的 CPU 
发 送 一 个 INVALIDATE_TLB_VECTOR 中 断 请 求 ， 发 送 以 后 要 等 待 位 图 flush_cpumask 变 成 全 0， 表示 
所 有 的 目标 CPU 都 已 经 响应 了 这 次 中 断 请 求 。 我 们 把 具体 发 送 中 断 请 求 的 过 程 留 到 下 一 节 ， 这 里 先 看 
看 日 标 CPU 在 接收 到 这 个 中 其 请 求 以 后 下 些 什么 。 读 者 将 会 看 到 , 5 INVALIDATE TLB VECTOR fH 


} 
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if ((cpumask & cpu online map) != cpumask) 
BUG( ) ; 

if (cpumask & (1 << smp processor id( ))) 
BUG( ) ; 

if (Imm) 
BUG( ) ; 


/* 
* i'm not happy about this global shared spinlock in the 
* MM hot path, but we'll see how contended it is. 
* Temporarily this turns IRQs off, so that lockups are 
* detected by the NMI watchdog. 
*/ 
spin lock(&tlbstate lock); 


flush mm = mm; 

flush va = va; 

atomic set mask(cpumask, &flush cpumask); 

/* 

* We have to send the IPI only to 

* CPUs affected. 

*/ 

send IPI mask(cpumask, INVALIDATE TLB VECTOR); 


while (flush cpumask) 
/* nothing. lockup detection does not belong here */; 


flush mm - NULL; 
flush va = 0; 
spin unlock(&tlbstate lock); 


对 应 的 中 断 响应 程序 是 smp_invalidate_interrupt( )， 其 代码 也 在 smp.c P: 


269 
270 
211 
272 
273 
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/* 


* 
* 
* 
* 


TLB flush IPT: 


1) Flush the tlb entries if the cpu uses the mm that's being flushed 


2) Leave the mm if we are in the lazy tlb mode. 
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274 */ 

275 

276 asmlinkage void smp invalidate interrupt (void) 

277 d 

278 unsigned long cpu = smp processor, id( ); 

279 

280 if (!test bit(cpu, &flush cpumask)) 

281 return; 

282 /* 

283 * This was a BUG( ) but until someone can quote me the 
284 * line from the intel manual that guarantees an IPI to 
285 x multiple CPUs is retried only on the erroring CPUs 
286 * its staying as a return 

287 * 

288 * BUG( ) ; 

289 */ 

290 

291 if (flush mm — cpu tlbstate[cpu].active mm) | 

292 if (cpu tlbstate[cpuJ. state == TLBSTATE OK) | 

293 if (flush va == FLUSH, ALL) 

294 local flush tib( ); 

295 else 

296 . flush tlb one(flush va); 

297 } else 

298 leave mm(cpu); 

299 } 

300 ack APIC irq( ) ; 

301 clear bit(cpu, &flush cpumask); 

302  ] 


内 核 中 有 个 全 局 的 tb. state 数据 结构 数组 cpu. tlbstate[ ]， 定 义 于 smp.c: 
106 struct tlb state cpu tlbstate[NR CPUS] = ([0 ... NR CPUS-1] = { &init mm, 0 }}; 
其 类 型 定义 在 include/asm-i386/pgalloc.h F: 


214 #define TLBSTATE OK 1 
215 define TLBSTATE LAZY 2 


216 

217 struct tlb_state 

218- f 

219 struct mm struct *active mm; 
220 int state; 

29R o 


数组 cpu. dbstate[ ] 中 所 有 元 素 的 初 值 都 是 { &init mm, 0}, 106 行 中 的 这 种 表示 方法 也 是 gcc 对 C 
语言 的 -种 扩充 。 每 个 CPU 在 这 个 数组 中 都 有 “个 b state 结构 。 在 switch mm( ) 中 ， 每 当 一 个 CPU 
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要 切换 到 一 个 进程 的 虚 存 空间 时 ， 就 把 这 个 结构 中 的 指针 active_mm 设置 成 指向 新 的 mm. struct 结构 ， 
AA CPU 正在 使 用 这 个 虚 在 空间 ， 并 且 把 状态 state 没 置 成 TLBSTATE_OK， 实 际 上 是 1。 在 一 般 
的 情况 下 ， 个 CPU 的 TLB 状态 总 是 TLBSTATE_OK， 表 示 如 果 正 在 使 用 中 的 碳 面 目录 或 页 面 表 内 
容 发 生 了 变化 就 要 刷新 TLB 的 内 容 。 

但 是 ， 是 下 只 要 页 而 县 录 或 页 面 表 内 容 发 生 了 变化 就 一 定 此 刷新 TLE AAW? WRIA E 
果 有 把 握 地 知道 可 能 发 生 的 变化 绝 不 会 影响 CPU 的 运行 ， 就 没有 这 个 必要 。 我 们 不 妨 这 样 想 ， 内 核 中 
代码 所 点 的 页 面 是 不 会 改变 的 ， 其 他 的 页 面 也 没有 换 入 / 换 出 的 问题 ， 而 内 核 线程 又 没有 用 户 空间 ， 所 
以 与 页 面 的 换 入 / 换 出 盛大 。 事实 上 , 内 核 中 可 能 改变 页 面 映 射 的 只 有 儿 种 情况 ， -种 与 vmalloc( ) 有 关 ， 
另 一 种 与 HIGHMEM 的 映射 有 关 ， 还 有 就 是 与 外 设 总 线 (如 PCI 总 线 ) 有 关 的 映射 。 内 此 ， 只 要 一 个 内 
核 线程 与 这 些 操作 无 关 ， 那 么 这 个 内 核 线程 就 可 以 “任凭 风 浪 起 ， 稳 坐 钓 鱼 船 ?>。 所 以 ， 在 “. 些 特 珠 的 
情况 上 站 CPU 虽然 还 企 使 用 属于 某 个 虚拟 空间 的 页 而 日 录 或 页 面 表 ， 佬 是 即使 这 些 页 面 月 冰 或 页 而 表 
发 生 了 变化 也 没有 必要 刷新 TLB 的 内 容 。 例 如 ， 在 执行 系统 调用 exit( ) 的 过 程 中 ， 即 使 当前 进程 的 页 
面 日 录 或 忠 面 表 发 牛 了 灾 化 ， 也 已 经 没有 必 紫 串 新 TLB 的 内 容 了 。 还 有 - -种 情况 是 ， 当 CPU 切换 到 
一 个 不 具有 用 户 空间 的 内 核 线程 时 ， 要 借用 在 它 之 前 运行 的 那个 进程 的 active_mm ( 详 见 “进程 的 调度 
与 切换 ”)， 所 以 此 时 进程 切换 了 ， 但 是 页 面目 录 利 页面 表 却 没有 切换 。 然 而 ， 在 运行 这 个 内 核 线程 的 
期 间 ， 邮 使 用 户 空间 的 页 面 日 录 或 负面 表 发 生 了 变化 也 没有 必要 更 新 TLB 的 内 容 ， 央 为 内 核 线程 本 来 
DUAR RP). CANT T. Bat inline ef A enter. lazy. tlb(), 将 当前 CPU 的 TLB 状态 
设置 成 TLBSTATE_LAZY， 表 示 懒 得 殉 新 。 这 个 函数 的 代码 在 include/asm-i386/mmu. context. F: 





17 static inline void enter lazy tlb(struct mm struct *mm, 
struct task struct *tsk, unsigned cpu) 
18 1 
19 if(cpu tlbstate[cpu]. state -- TLBSTATE OK) 
20 cpu tlbstate[cpu]. state - TLBSTATE LAZY; 
21 } 


WASAARAHA, Ab hE YE exit_mm()'{', EAT 处 是 在 schedule( ) 中 ， 其 他 是 
GE WIM MERE, ASIST BE AT BY th EA RARER 

对 TLB AO CERERA) 可 以 是 针对 整个 TLB 的 ， 也 可以 是 针对 … :个 具体 页 面 的 。 对 整个 
TLB 的 冲刷 由 local_flush_tib( ) 进 行 ， 这 是 个 宏 答 作 ， 定 义 于 include/asm-i386/pgalloc.h tF: 


199 #define local flush tlb( ) \ 
200 — [lush tlb( ) 


这 里 的 flush_tlb( ) 又 是 个 宏 操 作 ， 共 定义 也 在 间 文件 中 : 


37 define _ flush tlb( ) \ 

38 do { \ 

39 unsigned int tmpreg; \ 

40 \ 

41 ..asm volatile ¢ \ 

42 "movl %%er3, %0; # flush TLB W^ \ 
43 “movl %0, %her3; \n” \ 
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44 : “=r” (tmpreg) \ 
45 :: “memory”) ; \ 
46 } while (0) 


此 废弃 整个 TLB 的 内 容 很 简单 , OSCE WS ROTEL. 即 控 制 寄存 器 %ecr3 SUSPEN DOR 
可 以 了 。 所 以 这 里 把 %cr3 中 的 内 容 先 读 到 临时 变量 tmpreg 中 ， 然 后 再 把 它 写 四 %cr3 就 成 了 。 虽 然 这 
个 操作 的 前 后 9%cr3 的 内 容 并 无 改变 ， 但 是 对 %er3 的 窟 操作 本 颖 就 起 到 了 废弃 整个 TLB 的 内 容 ， 从 新 
装 入 页 而 且 录 的 作用 。 

再 看 废弃 某 个 具体 页 面 的 操作 ， 这 是 由 宏 操 作 __flush_tlb_one( ) 完 成 的 ， 定 义 十 问 一 文件 中 : 


87 Hdefine __ flush tlb one(addr) \ 
88 asm. volatile  ('invlpg %0”: :"m^ (*(char *) addr)) 


指令 invlpg 将 TLB PREFER AARH. TLB Ejk 32 T “RIR” KRI, TASS 
定 贞 面 的 内 容 未 必 全 部 在 TLB 中 ， 在 TLB 中 的 内 容 也 未 必 连 续 。 这 条 指令 的 作用 就 是 把 TLB 小 凡是 
BAe RAN AREF 

如 果 CPU 当前 的 TLB 状态 是 TLBSTATE_LAZY, 3i THE HEU", 通过 leave_mm( ) 退 出 
当前 mm. struct 结构 小 的 位 图 cpu. vm. mask, 以 后 再 有 类 似 的 改变 就 不 会 向 这 个 CPU 发 出 中 断 请 求 了 。 
这 个 函数 的 代码 在 arch\i386\kernel\smp.c 中 : 


[smp_invalidate_interrupt( ) > leave, mm( )] 


219 — /* 

220 * We cannot call mmdrop( ) because we are in interrupt context, 
221 * instead update mm-?cpu vm mask. 

222 */ 

223 static void inline leave mm (unsigned long cpu) 

224 { 

225 if (cpu tlbstate[cpu]. state == TLBSTATE OK) 

226 BUG( ) ; 

221 clear bit(cpu, &cpu tlbstatelepu]. active mm-^cpu vm mask): 
228 ] 


所 以 ， 如 果 当 前 CPU 的 tlb. state 数据 结构 中 的 指针 指向 某 个 mm_struct 结构 ， 而 这 个 结构 内 的 位 
图 cpu, vm. mask 又 木 包 括 当 前 CPU， 那 就 说 明 这 个 CPU 的 TLB 实际 上 已 经 不 一 致 了 ， 只 不 过 因为 当 
前 进程 是 内 核 线程 ， 这 种 不 一 致 不 会 引起 什么 后 果 而 凯 。 到 下 -次 进程 调度 的 时 候 ， 旭 果 要 切换 到 
个 使 用 着 不 同 页 面 月 录 的 进程 ， 就 会 让 切换 时 装 入 新 的 页 侧 晶 录 ， 并 且 扎 当前 CPU 的 TLB 状态 又 改 
为 TLBSTATE_OK， 这 样 ， 事 情 就 偷懒 过 去 了 。 但 是 ， 如 果 新 的 进程 使 用 的 恰好 就 是 这 个 内 核 线程 所 
借用 的 mm. struct 结构 呢 ? 在 单 CPU 结构 的 系统 中 此 时 不 用 做 任何 事 , 因为 不 需要 切换 虚 作 空间, TLB 
小 的 内 容 又 肯定 是 A. WE SMP 结构 的 系统 小 ， 这 时 候 上 就 要 检查 一 下 了， 如 果 发 和 了 上 述 的 情况 
就 得 补 上 一 次 TLB 刷新 ， 因 为 页 耐 日 洪 或 抽 面 表 中 已 经 发 生 的 变化 对 即将 运行 的 进程 是 有 影响 的 。 下 
ili. inline 函数 switch_mm( ) 中 的 个 片段 ， 在 include/asm-i386/mmu_context.h 中 : 


28 static inline void switch mm(struct mm struct *prev, 
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struct mm struct *next, struct task struct *tsk, unsigned cpu) 


29 { 

30 if (prev != next) { 

45 ) 

46 #ifdef CONFIG SMP 

4T else { 

48 cpu_tlbstate[cpu]. state = TLBSTATE OK; 

49 if(cpu_tlbstate[cpu]. active mm != next) 

50 BUG( ); 

51 if(!test and set bit(cpu, &next-^cpu vm mask)) { 

52 /* We were in lazy tlb mode and leave mm disabled 
33 * tlb flush IPI delivery. We must flush our tlb. 
54 */ 

55 local flush tlb( ); 

56 } 

57 ) 

58 Hendif 

59 } 


读者 不 妨 同 到 第 4 章 中 ， 带 着 问题 再 读 一 下 有 关 的 代 倘 。 

回 到 smp_invalidate_interrupt( ) 的 代码 中 。 最 后 ， 通 过 ack_APIC_irq( ) 向 APIC 发 出 一 个 确认 ， 然 
后 把 当前 CPU 在 位 图 flush. cpumask 中 的 对 应 位 清 0, 使 发 出 中 断 请 求 的 CPU 能 知道 当前 CPU BAE 
FS TLB 中 的 内 容 。 另 一 方面 ， 发 出 中 断 请 求 的 CPU 此 时 正在 flush_tlb_others( ) 中 通过 一 个 while f 
坏 等 待 位 图 flush. cpumask 变 成 全 0， 当 所 有 的 目标 CPU 都 完成 了 中 断 服务 时 ，flush_tb_others ( ) 的 执 
行 也 就 完成 了 。 

我 们 在 前 面 flush_tlb_page( ) 的 代码 中 跳 过 了 对 本 地 TLB 的 “冲刷 风 但 是 从 代码 中 可 以 看 出 ， 具 
体 的 处 理 同样 也 是 由 __flush_tlb( ) 或 leave_mm( ) 完 成 的 。 

在 try_to_swap_out( ) 中 之 所 以 调用 flush_tlb_page( )， 是 因为 要 改变 了 - -个 页 面 映射 表 的 内 容 ， 而 
一 个 页 面 了 射 表 正 好 占 一 个 页 面 ， 所 以 只 要 废弃 TLB 中 属于 这 个 页 面 的 内 容 就 可 以 了 。 可 是 ， 如 果 改 
变 的 是 页 面 峡 射 目 录 的 内 容 呢 ? 虽然 页 面 映 射 目 下 也 占 一 个 页 面 ， 但 是 映射 目录 的 改变 兴味 着 整个 映 
射 的 改变 ， 因 为 目录 中 的 每 一 项 都 指向 一 个 页 面 映射 家。 所 以 ， 仅 仅 废 弃 映 射 目录 所 在 的 页 而 是 不 够 
的 ， 此 时 需要 废弃 的 是 TLB 中 的 人 部 内 容 。 为 了 这 个 目的 ， 内 核 中 还 有 个 孙 数 flush_tlb_mm( )， 用 来 
RAWEA TLB 的 内 容 ， 其 代码 在 arch/i386/kernel/smp.c t: 


358 void flush tlb mm {struct mm struct * mm) 


359 { 

360 unsigned long cpu mask = mm-^cpu vm mask & “(1 << smp processor id( )); 
361 

362 if (current-^active mm == mm) { 

363 if (current-^mm) 

364 local flush tlb( ); 

365 else 

366 leave mm(smp processor id( )); 

367 } 
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368 if (cpu mask) 
369 flush tlb others(cpu mask, mm, FLUSH ALL); 
370. } 


代码 中 的 local_flush_tlb( ) 实 际 上 就 是 __flush_tlb( )， 定 义 于 include/asm-i386/pgalloc.h: 


199 #define local flush tlb( ) \ 
200 flush tlb( ) 


将 flush_tlb_mm( ) 与 flush_tlb_page( ) 作 一 比较 ， 就 可 以 发 现 二 者 基本 上 是 相同 的 ， 只 是 调用 
flush_tlb_others( ) 时 的 一 个 参数 为 FLUSH_ALL， 而 不 是 有 具体 的 地 址 。 前 面 我 们 已 经 看 到 ， 当 参数 为 
FLUSH ALL 时 各 个 CPU 者 通过 _flush_tlb( ) 重 新 装 入 控制 寄存 器 %er3， 这 就 起 到 了 废弃 TLB FEX 
内 容 ， 然 后 随 着 运行 的 需要 重新 装 入 的 日 的 。 


9.4 SMP 结构 中 的 中 断 机 制 


传统 的 1386 处 理 器 都 采用 8259A 中 断 控制 器 ， 读 者 在 第 3 章 看 到 过 对 这 种 内 件 的 初始 化 。 一 般 而 
言 , 8259A 的 作用 是 提供 多 个 外 部 小 断 源 与 单一 CPU 之 间 的 连接 。 如 果 在 SMP 结构 中 还 是 采用 8259A 
中 岂 控 制品 ， 那 就 只 能 静态 地 把 所 有 的 外 部 中 断 源 划 分 成 若干 组 ， 分 判 把 每 一 组 部 连接 到 一 个 8259A， 
而 8259A 则 与 CPU 有 一 对 一 的 连接 。 然 而 这 样 ， 就 达 不 到 动态 地 分 队 中 晰 请 求 的 日 的 ， 也 使 便 任 的 设 
计 变 得 很 不 简 洒 。 lt, Intel 为 Pentiun 处 理 器 设计 了 一 种 网 为 通用 的 中 断 控 制 器 ， 称 为 “高 级 可 绵 程 
oh rd Hl] 8” (Advanced Programable Interrupt Controllorn， 缩 写成 APIC。 另 一 方面 ， 考 虑 到 “处 理 器 间 
PENER” HEH, FA CPU 实际 上 都 需 昌 有 个 本 地 的 APIC， 因 为 ”个 CPU 常常 半 有 日 标 地 向 系统 
中 的 其 他 CPU 发 出 中 断 请 求 , 所 以 ， 从 Pentium 开始 ，Intel 就 在 CPU 芯片 内 部 集成 了 一 个 本 地 APIC。 
但 是 ， 在 SMP 结构 中 还 需要 -个 外 部 的 、 全 局 的 APIC， 从 而 形成 如 图 9.2 所 示 的 结构 。 

一 般 而 言 ， 集 成 在 CPU 45)T VJ BERU A3. APIC 与 外 部 的 VO APIC 是 配合 使 用 的 ， 实 际 上 可 以 认为 
是 将 个 器 件 分 成 了 鸯 部 分 , 既 可 以 用 于 SMP 结构 , 也 可 以 用 十 单 CPU ig. 另 ” 方面 , 在 本 地 APIC 
中 有 个 可 以 用 于 时 钟 中 断 源 的 定时 器 ， 所 以 即使 没有 VO APIC 的 配合 ， 也 可 以 选择 使 用 本 地 APIC. 
MH. MERAT APIC， 仍 然 可 以 把 各 个 CPU 单独 连接 到 8259A PITA, AA 9.2 中 的 “本 地 中 
断 请 求 ”就 是 指 米 自 各 和 捐 外 部 中 断 控制 器 的 中 断 请 求 ， 以 及 由 CPU 内 部 产生 的 中 断 请 求 〈 如 陷阱 )。 
在 内 核 的 代码 中 , 因 采 几 本 地 APIC 侧 需 要 的 代码 都 放 在 条 件 编 详 选择 项 CONFIG. X86. LOCAL. APIC 
Fil. 

读者 在 第 3 章 中 曾经 看 人 到， 内 核 中 的 中 断 响应 程序 是 通过 一 些 宏 操 作 利用 gee PUR SRI SEAT HUS 
换 和 拼接 功能 自动 生成 的 。 同 样 ， 几 个 为 SMP 结构 专用 的 中 断 响应 程序 也 是 由 这 样 的 宏 操 作 生 成 的 ， 
这 个 宏 操 作 定 义 于 include/asm-i386/hw-irq.h 中 : 
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CPU 


本 地 中 断 请 求 


CPU 


本 地 中 断 请 求 













本 地 中 断 请 求 


APIC 总 线 


| | 


外 部 中 断 请 求 





图 9.2 SMP 结构 中 的 中 断 控 制 机构 


123 #define BUILD SMP INTERRUPT (x, v) XBUILD SMP INTERRUPT (x, v) 
124 . #define XBUILD SMP INTERRUPT (x, v) \ 

125 asmlinkage void x(void); V 

126 asmlinkage void call ##x(void); \ 

127 | asm, (VN 

128 ^Nn" |. ALIGN_STR”\n” \ 

129 SYMBOL NAME STR(x) “:\n\t” \ 


130 "pushl $"#v"\n\t” \ 

131 SAVE ALL \ 

132 SYMBOL NAME STR(call ##x)”:\n\t” \ 

133 "call “SYMBOL NAME STR(smp_##x)”\n\t” \ 
134 “jmp ret from intr\n”); 


文件 arch/i386/kernel/i8259.c 中 引用 了 这 个 宏 操 作 : 


74 /* 

75 * The following vectors are part of the Linux architecture, there 
76 * is no hardware TRQ pin equivalent. for them, they are triggered 
77 * through the TCC by us (TPTs) 

78 */ 


79 &ifdef CONFIG SMP 

80 BUTLD SMP INTERRUPT (reschedule interrupt, RESCHEDULE_ VECTOR) 

8] BUTLD SMP INTERRUPT (invalidate interrupt, INVALLDATE TLB VECTOR) 
82 BUILD SMP INTERRUPT (call function interrupt, CALL FUNCTION VECTOR) 
83 Hendif 


以 这 里 的 80 行为 例 ， 经 过 gcc 的 预 处 埋 以 后 就 会 必 成 这 样 : 
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asmlinkagc void reschedule interrupt(void); ^ 
asmlinkage void call reschedule interrupt(void); \ 
| asm. ( 
reschedule interrupt: 

pushl $RESCHEDULE VECTOR 

SAVE ALL 
call smp reschedule interrupt: 

call smp reschedule interrupt 

jmp ret from intr 


) 


因此 ， 当 发 生 RESCHEDULE, VECTOR 中 断 时 ， 响 应 程序 的 入 口 是 reschedule_interrupt( ), i SE 
Es Ab E HE ERIS NV FS] pp CI] A smp_reschedule_interrupt( )。 

同样 的 道理 ， 与 INVALIDATE TLB VECTOR 相对 应 的 入 口 症 invalidate_interrupt( )， 而 实际 处 理 
中 断 响 应 的 则 是 smp_invalidate_interrupt( ); 5 CALL FUNCTION VECTOR 相对 应 的 入 口 候 
call function interrupt( )， 而 实际 处 理 小 断 响应 的 是 smp_call_function_interrupt( )。 

RNA WW : 节 中 已 经 看 过 invalidate interrupt( KARTS, REAR AAS — 7 rn Ur Hi 9s RET 
smp. reschedule interrupt( URES. MAE, IPS ERE CPU 应 系统 中 另 一 CPU 之 请 求 而 进行 一 次 
进程 调度 ， 其 代 公 在 arch/i386/kernel/smp.c F: 


513 /* 

514 * Reschedule call back. Nothing to do, 

515 * all the work is done automatically when 

516 * we return from the interrupt. 

517 */ 

518 asmlinkage void smp reschedule interrupt (void) 
519 ( 

520 ack APIC irq( ) ; 

521  ] 


MEHLE, XA BRUTUS OUT E a ack APIC irq( ) 向 CPU 中 的 APIC 发 出 对 中断 请 求 的 
iA, BMX ST include/asm-i386/apic.h: 


54 extern inline void ack APIC irq(void) 


55 | 

56 /* 

57 * ack APIC irq( ) actually gets compiled as a single instruction: 
58 * — a single rmw on Pentium/82489DX 

59 * — a single write on P6+ cores (CONFIG X86 GOOD APIC) 
60 * ... yummie. 

61 */ 

62 

63 /* Docs say use 0 for future compatibility */ 

64 apic write around(APIC EOI, 0); 

65 } 
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中 断 请 求 ， 这 个 函数 在 arch/i386/kernel/smp.c 中 : 





415 
416 
417 
418 


MERILE A INA AE TAR TURE, RENNE 次 中 断 。 至 于 日 村 
CPU 在 执行 完 中 断 服务 程序 以 后 是 否 进行 进程 调度 ， 那 得 要 看 事先 或 者 处 理 中 断 的 过 程 中 症 否 将 当前 


void smp send reschedule (int cpu) 


{ 
send IPI_mask(l << cpu, RESCHEDULE VECTOR); 


} 


进程 的 need resched 标志 设置 成 了 1. 


相应 地 ， 在 系统 初始 化 时 荧 在 函数 init IRQ( ) 中 为 这 几 个 中 断 设 置 好 相应 的 中 断 门 。 我 们 企 第 3 
章 中 看 过 函数 init IRQC ) 的 代码 ， 当 时 忽略 了 与 SMP 结构 有 关 的 部 分 ， 现 在 应 该 补 上 。 这 个 水 数 在 


arch/i386/kernel/i8259.c rf. 


438 
439 
440 
44] 
442 
443 
444 
445 
446 
447 
448 
449 
450 
451 
452 
453 
454 
455 
456 
451 
458 
459 
460 
461 
462 
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void | init init IRQ (void) 
{ 


int 1*5 


#ifndef CONFIG X86 VISWS APIC 
init ISA irqs( ); 
Helse 
init VISWS APTC irqs( ); 
#endif 
/* 
* Cover the whole vector space, no vector can escape 
* us. (some of these will be overridden and become 
* 'special! SMP interrupts) 
*/ 
for (i = 0; i € NR IRQS; i++) { 
int vector = FIRST EXTERNAL VECTOR + i; 
if (vector != SYSCALL VECTOR) 
set intr gate(vector, interrupt[il); 


#ifdef CONFTG SMP 
/* 
* TRQO must be given a fixed assignment and initialized 
* because it’s used before the 10-APIC is set up. 
*/ 


PEE “个 0， 表 示 已 经 收 到 了 中 断 请 求 ， 如 此 而 已 。 可 是 ， 实 
际 上 对 这 种 中 电 请 求 的 服务 隐藏 在 内 核对 中 断 处 理 的 公共 部 分 。 读 者 在 第 3 章 中 看 到 ， 木 管 是 什么 中 
断 请 求 ， 内 核 在 针对 特定 中 断 请 求 的 服务 完成 以 后 都 要 检 肖 〈 本 CPU) 是 否 应 该 进行 次 进程 调度 ， 
而 这 正 是 smp_reschedule_interrupt( ) 所 要 达到 的 及 的 。 当 一 个 CPU 需要 另 :个 CPU 进行 一 次 进程 调度 
时 ， 就 可 以 道 过 调用 … 个 函数 smp_send_reschedule( Xi] H$&s CPU Kil} 个 RESCHEDULE_VECTOR 


463 
464 
465 
466 
467 
468 
469 
470 
471 
472 
473 
474 
475 
476 
ATT 
478 
479 
480 
481 
482 
483 
484 
485 
486 
487 
488 
489 
490 
491 
492 
493 
494 
495 
496 
497 
498 
499 
500 
501 
502 
503 
504 
505 
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set intr gate(FIRST DEVICE VECTOR, interrupt[0]); 


/* 

* The reschedule interrupt js a CPU-to-CPU reschedulc-helper 
* IPI, driven by wakeup. 

*/ 

set intr gate (RESCHEDULE VECTOR, reschedule interrupt); 


/x IPI for invalidation */ 
set intr gate(INVALIDATE TLB VECTOR, invalidate interrupt); 


/* TPT for generic function call */ 
set intr gate(CALL FUNCTION VECTOR, call function interrupt); 
#endif 


üifdef CONFIG X86 LOCAL APIC 
/* self generated IPI for local APIC timer */ 
set intr gate (LOCAL TIMER VECTOR, apic timer interrupt); 


/* IPI vectors for APIC spurious and error interrupts */ 

set intr gate(SPURTOUS APIC VECTOR, spurious interrupt); 

set intr gate(ERROR APIC VECTOR, error, interrupt); 
Hendif 


/* 

* Set the clock to HZ Hz, we already have a valid 

* vector now: 

*/ 

outb p(0x34, 0x43) ; /* binary, mode 2, LSB/MSB, ch 0 */ 
outb p(LATCH & Oxff , 0x40); /* LSB */ 

outb(LATCH >> 8 , 0x40); /* MSB */ 


#ifndef CONFIG VISWS 
setup irq(2, &irq2); 
Sendif 


/* 
* External FPU? Set úp irql3 if so, for 
* original braindamaged LBM FERR coupling. 
*/ 
if (hoot cpu data. hard math && !cpu has, fpu) 
setup irq(13, &irq13) ; 
) 


代码 中 452 行 的 for 循环 原 已 设置 了 从 FIRST. EXTERNAL, VECTOR. HI 0x20 并 始 的 224 个 中 断 


门 向 量 ， 而 如 果 是 SMP 系统 就 修改 了 其 中 的 4 个 ， 它 们 分 北 对 应 着 下 列 4 Pie Ce 
include/asm-i386/hw. irq.h): 
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41 #define JNVALIDATE TLB VECTOR  Oxfd 
42 H#dotine RESCHEDLLE VECTOR Oxfe 
43 Hdefine CALL FUNCTION VECTOR Ox fb 


52 /水 

53 * First APIC vector available to drivers: (vectors 0x30-Oxee) 

54 * we start at 0x31 to spread out vectors evenly between priority 
55 * levels. (0x80 is the syscall vector) 

56 */ 


57 #define FIRST DEVICE VECTOR 0x31 
58 define FIRST SYSTEM VECTOR Oxef 


Ar] ris & FIRST. DEVICE VECTOR is E IO]: W SPI A interrupt[0]. 辐 顾 一 下 第 3 章 小 的 有 
关内 容 使 可 以 知道 , 3X4 PEJT- AL IRQOXOI interrupt ). 进 入 这 个 函数 以 后 就 会 把 数值 一 256, BI OxffffffO0 
压 入 堆栈 ， 然 后 转 入 common_interrupt， 最 后 进入 do IRQ( )， 余 可 类 推 。 其 中 从 0x31 到 Oxef 是 用 于 
外 部 APIC ER VO APIC 的 中 断 向 量 。 这 个 区 间 的 中 断 向 量 茶 本 上 没有 什么 变化 ， 还 与 采用 8259A 时 大 
致 相同 。 然 而 ， 在 SMP 结构 路 这些 中 断 请 求 将 要 由 外 部 APIC Ci AN AE 8259A) 送 达 各 个 CPU， 所 以 
还 费 通 过 个 函数 setup_IO_APIC( ) 对 外 部 APIC 心 片 进行 初始 化 ， 并 关闭 8259A。 与 此 有 关 的 代码 都 
在 arch/i386/kernel/io apic.c 中 。 因 代码 过 十 专门 ， 我 们 在 这 里 就 从 略 了 。 有 兴趣 或 需要 的 读者 可 结合 
Intel 的 外 部 APIC 心 片 (82489DX) 技术 资料 阅读 这 些 代码 。 

此 外 ，479 一 484 行为 CPU 的 内 部 APIC 设置 中 断 向 量 ， 主 归 是 时 钟 中 断 。 在 单 CPU 的 系统 中 ， 
是 否 采 用 内 部 APIC 是 个 编译 选 搓 项 。 

不 管 是 外 部 还 是 内 部 ，APIC CERA 0x20 到 Oxff 共 240 个 不 同 的 中 断 向 量 CO—Ox1f 用 于 CPU 
本 身 的 陷阱 )。 这 些 中 断 向 量 分 成 15 个 优先 级 ， 可 以 按 中 断 间 其 号 除 于 16 算得 ， 优 先 级 15 09g 
每 个 CPU 都 通过 设置 其 内 部 APIC 表明 准备 响应 哪 一 些 中 断 请 求 。 不 过 ,每 个 CPU 都 应 将 准备 如 以 响 
应 的 中 断 向 量 信 量 均匀 地 分 布 于 不 同 的 优先 级 中 ,lntel 的 技术 资料 规定 个 个 CPU 在 每 个 优先 级 中 使 用 
的 中 断 向 量 不 超过 上 山 个 ， 桔 则 就 有 可 能 丢失 中 断 请 求 。 

外 部 APIC 报 负 着 把 来 自 外 部 设备 的 中 断 请 求 提交 和 分 配给 系统 中 各 个 CPU 的 任务 。 对 于 他 个 
中 汤 向 量 ， 可 以 将 外 部 APIC 设置 成 静态 或 动态 黄种 不 同 模式 之 一 。 如 果 某 … 个 中 断 向 量 是 静态 分 配 
的 ， 则 外 部 APIC 把 这 种 中 断 请 求 提 父 给 预 设 的 一 个 或 多 个 CPU; 否则 就 提交 给 优先 级 最 低 的 CPU. 
而 各 个 CPU 当前 的 优先 级 也 是 可 以 通过 内 部 APIC 设置 的 。 与 此 有 关 的 代码 部 在 arch/i386/kernel/apic.c 
里 ,这 些 代 码 也 过 于 专门 ,我 们 就 不 深入 进去 了 .外 部 APIC 的 初始 化 是 由 主 CPU 通过 setup. IO. APIC() 
进行 的 ， 其 代码 在 arch/i386/kernel/io_apic.c P: | 


1521 void | init setup IO APIC (void) 


1522 [ 

1523 enable TO APIC( ) ; 

1524 

1525 io apic irqs = ~PTC_IRQS; 

1526 printk (“RNABLING IO-APIC IRQs\n”) ; 

1527 

1528 /* 

1529 * Sei up the IO-APIC IRQ routing table by parsing the MP-BIOS 
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1530 * mptable: 

1531 */ 

1532 setup ioapic ids from mpc( ); 
1533 sync Arb IDs( ); 

1534 setup 10 APIC irqs( ); 

1535 init IO APIC traps( ); 

1536 check timer( ); 

1537 print IO APIC( ) ; 

1538 ] 


考虑 到 本 书 的 篇 幅 ， 我 们 无 法 在 这 里 深入 到 这 些 代码 中 了 。 事 实 上 ， 光 是 与 APIC 有 关 的 内 容 和 
代码 就 已 经 够 号 ABT. 


除外 部 APIC 可 以 把 来 自 外 部 设备 的 中 断 请 求 提交 系统 中 的 各 个 CPU 外 , 每 个 CPU 也 都 可 以 通过 
其 内 部 APIC 向 其 他 CPU 发 出 中 断 请 求 。 当 :个 CPU 此 引起 其 他 CPU 的 INVALIDATE_TLB_VECTOR 
或 RESCHEDULE_VECTOR 中 断 时 ， 可 以 通过 调用 send_IPI_mask( ) 来 达到 目的 。 这 个 通 数 的 代码 在 
arch/i386/kernel/smp.c H: 


172 static inline void send IPI mask (ini mask, int vector) 
173 { 

174 unsigned long cfg; 

175 unsigned long flags; 

176 

177 __save_flags (flags); 

178 ee bec 

179 

180 /水 

181 * Wait for idle. 

182 */ 

183 apic wait icr idle( ); 

184 

185 /水 

186 * prepare target chip field 

187 */ 

188 cfg = | prepare_1]CR2 (mask) ; 

189 apic_write around(APIC_ICR2, cfg) ; 
190 

191 /* 

192 * program the ICR 

193 */ 

194 cfg = | prepare ICR(0, vector); 
195 

196 /* 

197 * Send the TPT. The write to APIC_ICR fires this off 
198 */ 

199 apic write around(APIC ICR, cfg); 
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200 . restore flags(flags); 
201 ] 


CPU 的 内 部 APIC 有 一 些 控制 寄存 器 ，APIC_ICR 种 APIC ICR2 是 其 中 的 两 个 。 要 向 系统 中 的 某 
一 个 CPU 发 出 中 断 请 求 时 ， 首 先 要 通过 apic wait icr idle( )， 确 认 或 等 待 APIC_ICR 处 二 空闲 状态 ， 
然 厂 通过 __prepare ICR( ) 和 __prepare_ICR2( )， 准 备 好 要 写 入 这 两 个 寄存 器 的 数值 
(arch/i386/kernel/smp.c): 


114 static inline int __prepare_ICR (unsigned ini shortcut, int vector) 
115 { 

116 return APIC DM FIXED | shortcut | vector | APIC DEST LOGICAL; 
17  ] 

118 

119 static inline int . prepare ICR2 (unsigned int mask) 

120 { 

121 return SET APIC DEST FIELD (mask) ; 

122 . 


寄存 器 APIC_ICR2 主 此 用 来 说 明 发 送 中 断 请 求 的 日 标 , 这 种 目标 可 以 是 其 体 的 CPU, 也 可 以 是 除 
发 送 者 自 号 以 外 的 所 有 CPU, 还 可 以 是 包括 发 送 者 自身 在 内 的 所 有 CPU, RAMEKER AY. 最 后 ， 
把 含有 发 送 目 标的 数值 写 入 寄存 器 APIC_ICR2, 89A 8 Bir] Cun RESCHEDULE_VECTOR) 的 数 
值 写 入 寄存 器 APIC_ICR， 就 完成 了 中 断 请 求 的 发 送 操作 。 

还 有 一 个 处 埋 嚣 间 中 断 向 量 是 CALL. FUNCTION. VECTOR, HiK E] bx CPU 执行 一 个 指定 的 
限 数 。 发 送 者 先 设置 好 个 全 局 的 call data struct 数据 结构 ， 然 后 同日 标 CPU 发 出 请 求 。 这 个 数据 结 
构 的 定义 在 arch/i386/kernel/smp.c P: 


420 /* 

421 * Structure and data for smp call function( ). This is designed to minimise 
422 * static memory requirements. It also looks cleaner. 
423 */ 

424 static spinlock t call lock = SPIN LOCK UNLOCKED; 

425 

426 struct call data struct | 

427 void (kfunc) (void *info); 

428 void *info; 

420 atomic t started; 

430 atomic_t finished; 

431 int wait; 

432 Lb 

433 


434 static struct call data struct * call data; 


数据 结构 中 的 函数 指针 func HEBERT BUT RR. AMEE info 则 为 参数 。 读 者 在 前 面 已 
经 看 到 , XF CALL_FUNCTION_VECTOR AJ} d SS BFE smp. call. function, interrupt( )， 其 代码 
££ arch/i386/kernel/smp.c +}: 
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523 asmlinkage void smp call function interrupt (void) 


524 f 

525 void (func) (void *info) = call data->func; 

526 void *info = call data-^info; 

527 int wait = call data-^wait; 

528 

529 ack APIC irq( ); 

530 /* 

531 * Notify initiating CPU that I've grabbed the data and am 
532 * about to execute the function 

533 */ 

534 atomic inc (&call_data->started) ; 

535 /* 

536 * At this point the info structure may be out of scope unless wait--l 
537 */ 

538 (*func) (info) ; 

539 if (wait) 

540 atomic_inc (&cal]_data->finished) ; 

541  ] 


MA, — REAR BULLE A BB HU CPU 来 执行 的 ， 系 统 中 所 有 的 CPU Sin AE FRI TAS 
FUE. CA at Ah Be CPU ftr. BR ARS RAG BA te CPU 才能 完成 。 
例如 ，Pentium 处 理 器 有 一 条 指令 cpuid， 遂 过 这 条 指令 可 以 查询 本 CPU 是 什么 型 号 、 什 么 版 本 ， 是 否 
支持 一 些 特 妹 的 功能 ， 当 前 的 功能 设置 等 等 的 信息 。 伺 是 这 条 指令 从 能 由 具体 的 CPU AGNI, fit 
能 由 别 的 CPU 人 代替。 这样， 如 果 要 知道 系统 中 某 一 个 CPU 的 有 关 情 况 ， 就 只 能 道 过 这 种 处 理 器 问 中 
断 来 实现 。 基体 的 函数 为 cpuid_smp_cpuid( ), 其 代码 在 arch/i386/kernel/cpuid.c F, 读者 可 以 白山 阅读 。 

有 时候 需要 把 中 断 请 求 发 送 给 除 当 前 CPU 自身 以 外 的 所 有 CPU， 此 时 可 以 通过 
send IPI allbutself( )， 发 出 广播 式 的 中 断 请 求 。 其 代码 在 arch/i386/kernel/smp.c 中 : 


151 static inline void send IPI allbutself (int vector) 


152 { 

153 /* 

154 * if there are no other CPUs in the system then 
155 * we get an APIC send error if we try to broadcast 
156 * thus we have to avoid sending IPIs in this case. 
157 */ 

158 if (smp num cpus > 1) 

159 send IPl shoricut(APIC DEST ALLBUT, vector); 
160  ] 


有 具体 的 发 送 操作 由 __send_IPL shortcut( ) 完 成 ， 其 代 僻 也 在 同一 文件 中 : 
[send_IPI allbutself( ) > __ send_IPI_shortcut( )] 


124 static inline void __send_IPI_shortcut (unsigned int shortcut, int vector) 
]Z5. a 
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126 
127 
128 
129 
130 
131 
132 
133 
134 
135 
136 
137 
138 
139 
140 
141 
142 
143 
144 
145 
146 
147 
148 
149 


} 
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/* 


* Subtle. In the case of the 'never do double writes’ workaround 
* we have to lock out interrupts to be safe. As we don’t care 

* of the value read we use an atomic rmw access to avoid costly 
* cli/sti. Otherwise we use an even cheaper single atomic write 
* to the APIC. 

*/ 


unsigned int cfg; 


/* 

* Wait for idle 

*/ 

apic wait icr idle( ): 

/* 

* No need to touch the target chip field 
*/ 

cfg = | prepare ICR(shortcut, vector); 

/* 

* Send the IPI. The write to APIC ICR fires this off. 
*/ 


apic write around(APIC ICR, cfg); 


可 见 ， 广 播 式 的 中 断 请 求 发 送 操作 要 略为 简单 一 些 。 


在 所 有 的 中 断 请 求 中 ， 时 钟 中 汤 扮 活着 特殊 的 重要 和 角色。 以 前 讲 过 ， 人 们 把 时 钟 中 断 比 喻 作 “ 心 
BE". 在 SMP 结构 的 系统 中 ， 内 部 APIC AU RAAT A 32 位 可 编程 定时 器 ， 所 以 各 个 CPU 订 以 选 
择 使 用 本 地 的 时 钟 中 断 源 ， 也 可 以 选择 使 用 外 部 的 全 局 时 钟 中 断 源 。 所 谓 吕 编程 定时 器 实质 上 是 个 计 
数 器 ， 设 置 好 计数 器 的 初 值 以 后 ， 和 人 每 米 一 个 时 钟 脉冲 计数 器 就 碱 1， 减 到 0 时 就 发 出 一 个 路 断 请 求 。 在 
系统 初始 化 阶段 ， 主 CPU 在 启动 次 CPU 运行 以 后 便 通 过 setup_APIC_clocks( ) 设 置 APIC 中 的 时 钟 中 


断 源 ， 这 个 函数 的 代码 在 arch/i386/kernel/apic.c FP: 


[start_kernel( ) > smp init( ) > smp. boot, cpus( ) > setup. APIC, clocks( )] 


597 
598 
599 
600 
601 
602 
603 
604 
605 
606 
607 
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void 


{ 


.init setup APIC clocks (void) 
cli( ); 


calibration result - calibrate APIC clock( ); 
/* 

* Now set. up the timer for real. 

*/ 


setup APIC timer((void *)calibration result); 


JT): 


608 
609 
610 
611 


} 
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/* and update all other cpus */ 
smp call function(setup APIC timer, (void *)calibration result, 1, 1); 


在 此 之 前 ， 系 统 先 设置 了 个 外 部 时 钟 中 断 源 供 所 有 CPU 共享 ， 放 且 以 此 为 基准 测算 各 个 CPU 


的 运算 速度 。 到 初始 化 基本 完成 时 再 遂 过 这 个 函数 为 各 个 CPU 设置 其 内 部 APIC 中 的 定时 器 ， 以 作为 
本 地 的 时 钟 中 断 源 。 这 蝶 ， 先 通过 calibrate_APIC_clock( )， 测 算出 时 钟 中 断 相对 于 APIC 总 线 二 时 钟 
脉冲 的 周期 。 所 有 CPU 的 APIC 者 通过 APIC 总 线 连 在 一 起 ， 它 们 都 有 相同 的 时 钟 脉冲 周期 ， 根 据 这 
个 时 钟 脉冲 周期 就 可 以 计算 出 时 钟 中 断 的 周期 。 具体 的 设置 是 由 setup_APIC_timer( ) 完 成 的 。 当 然 ， 各 
个 CPU 只 能 设置 其 自己 的 APIC， 而 不 能 只 接 设置 其 他 CPU 的 APIC， 所 以 通过 smp_call_function( ) 
向 所 有 的 次 CPU 部 发 出 一 个 处 理 器 间 中 断 请 求 ， 让 各 个 次 CPU 也 来 执行 这 个 函数 。 其 函数 代码 也 在 
arch/1386/kerneVapic.c 中 : 


469 
470 
471 
472 
473 
474 
475 
476 
AT? 
478 
479 
480 
481 
482 
483 
484 
485 
486 
487 
488 
489 
490 
491 
492 
493 
494 
495 
496 
497 
498 
499 
500 





void setup APIC timer (void * data) 


( 


unsigned int clocks = (unsigned int) data, slice, t0, tl; 
unsigned long flags; 
int. delta; 


. save flags(flags); 

a Stil); 

/* 

ok, Intel has some smart code in their APIC that knows 

if a CPU was in 'hlt' lowpower mode, and this increases 
its APIC arbitration priority. To avoid the external timer 
IRQ APIC event being in synchron with the APIC clock we 
introduce an interrupt skew to spread out timer events. 


X d X X X He * 


The number of slices within a 'big timeslice is smp num cpus*l 


*/ 


slice - clocks / (smp num cpus*1); 
printk( cpu: *d, clocks: %d, slice: %d\n", 
smp processor id( ), clocks, slice); 


f* 
* Wait for IRQO's slice: 
*/ 


wait 8254 wraparound( ); 
. Sctup APIC LVTT (clocks) ; 


tO - apic read (APIC TMICT) *XAPIC DIVISOR; 
/* Wait till TMCCT gets reloaded from TMICT... */ 
do { 
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501 tl - apic read(APIC TMCCT)*APIC DIVTSOR; 

502 delta = (int) (tO - t1 - slice*(smp processor id( )41)) ; 
503 } while (delta >= 0); 

504 /* Now wait for our slice for real. */ 

505 do { 

506 tl = apic_read(APJC_TMCCT) *APIC_DIVISOR; 

507 delta = (int) (t0 - tl ~ slice*(smp processor id( )+1)); 
508 } while (delta < 0); 

509 

510 setup APIC LVTT (clocks) ; 

511 

512 printk (“CPU%d<TO:%d, TL :%d, D:%d, S:%d, C:%d>\n”, 

513 smp processor id( ), t0, tl, delta, slice, clocks); 
514 

515 . restore flags(flags); 

516 ] 


为 了 不 让 所 有 的 CPU ATER BY AAA EI PERSE, XX EPA do-while (8988153258 CPU 5 
引入 不 同 数量 的 延迟 ， 使 各 个 CPU Bump EHH eed ETAR CE r4] Hr tarr eH 
的 周期 中 。 

我 们 把 各 个 CPU 对 本 地 时 钟 中 断 的 服务 称 序 列 出 于 下 (archi386/kernelyapic.c)， 供 读者 结合 第 3 前 
路 与 时 钟 帆 断 有 关 的 内 容 自 行 阅读 。 


709 void smp apic timer interrupt (struct pt regs * regs) 


710 { 

711 int cpu = smp processor id( ); 

712 

713 /* 

714 * the NMI deadlock-detector uses this. 

715 */ 

716 apic_timer_irqs[cpu]++; 

717 

718 /* 

719 * NOTE! We'd better ACK the irq immediately, 

720 * because timer handling can be slow. 

721 */ 

722 ack_APIC_irg( ); 

123 /* 

724 * update process times( ) expecis us to have done irq enter( ). 
125 * Besides, if we don't timer interrupts ignore the global 
726 * interrupt lock, which is the WrongThing (tm) to do. 
727 */ 

128 irq enter(cpu, 0); 

729 smp_local_timer_interrupt (regs) ; 

730 irq_exit (cpu, 0); 

731} 
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643 
644 
645 
646 
647 
648 
649 
650 
651 
652 
653 
654 
655 
656 
657 
658 
659 
660 
661 
662 
663 
664 
665 
666 
667 
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669 
670 
671 
672 
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674 
675 
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677 
678 
679 
680 
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683 
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685 
686 
687 
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FAC smp_local_timer_interrupt( ) 的 代码 也 在 arch/i386/kernel/apic.c '|': 


Local timer interrupt handler. It does both profiling and 
process statistics/rescheduling. 


We do profiling in every local tick, statistics/rescheduling 
happen only every 'profiling multiplier' ticks. The default 

multiplier is 1 and it can be changed by writing the new multiplier 
value into /proc/profile 


inline void smp_local_timer_interrupt (struct pt regs * regs) 


/* 
* 
水 
x 
水 
水 
* 
* 
*/ 
{ 
int 
int 
/* 


user = user mode (regs) ; 
cpu = smp processor id( ); 


* The profiling function is SMP safe. (nothing can mess 
* around with “current”, and the profiling counters are 
* updated with atomic operations). This is especially 

* useful with a profiling multiplier != 1 


*/ 


if (luser) 


x86 do profile(regs-^eip); 


if (--prof counter[cpu] <= 0) { 


/* 
* The multiplier may have changed since the last time we got 
* to this point as a result of the user writing to 
* /proc/profile. In this case we need to adjust the APIC 
* timer accordingly. 
* 
* Interrupts are already masked off at this point. 
*/ 
prof counter[cpu] = prof muitiplierlcpu]; 
if (prof counter(cpu] !- prof old multiplierlcpul]) { 
__setup_APTC_LVTT(calibration_result/prof_counter[cpu]) ; 
prot_old_multiplier[cpu] = prof_counter[cpu] ; 


#ifdef CONFIG SMP 


Hendif 
) 


/* 


update_process_times (user) ; 
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688 x We take the ' long! return path, and there every subsystem 

689 * grabs the apropriate locks (kernol lock/ irq lock). 

690 * 

691 * we might want Lo decouple profiling from the 'long path', 

692 * and do the profiling totally in assembly. 

693 * 

694 * Currently this isn't too much of an issue (performance wise), 
695 * we can take more than 100K local irqs per second on a 100 Miz P5. 
696 */ 

697 } 


此 外 ,读者 在 第 3 章 中 阅读 过 一 些 与 时 钟 中 断 有 关 的 代码 ， 其 中 有 些 条 件 编 译 也 是 与 SMP 结构 或 
内 部 APIC BAM, AYALA Fb. 


9.5 SMP 结构 中 的 进程 调度 


在 单 CPU 的 系统 中 ， 每 “个 给 定 的 时 刻 只 有 当前 进程 是 在 运行 中 ， 其 他 所 有 的 进程 部 不 企 运 行 。 
HÆ. T SMP 结构 的 系统 中 坤 同时 有 好 几 个 进程 在 运行 ， 所 以 需 此 在 进程 的 task. struct s de. 
上 两 个 字段 。 一 个 是 has Py 为 1 时 表 小 进程 止 在 某 个 CPU 上 运行 ， 为 0 时 则 表示 进程 不 在 运 
男 一 个 字段 是 processor， 当 has_cpu 为 1 时 这 个 字段 说 明 进程 在 哪 一 个 CPU 上 运行 。 可 想 而 知 ， > 
进程 只 有 在 has_cpu 字段 为 0 才 吕 以 接受 调度 进入 运行 ， 这 :点 从 宏 操 作 can_schedule( ) 的 定义 可 以 看 
H3(kernel/sched.c): 


108 üifdef CONFIG SMP 

109 

110 Hdefine idle task(cpu) (init taskslcpu number map(cpu)]) 
111 #define can schedule (p, cpu) ((!(p)-^has cpu) && \ 
112 ((p)—>cpus allowed & (1 «€ cpu))) 
113 

114 Helse 

115 

116 #define idle task(cpu) (&init task) 

117 &define can schedule(p,cpu) (1) 

118 

119 #endif 


这 里 的 cpus_allowed 是 task. struct 数据 结构 中 的 另 NER, Bab Cbr. (2A PAE 1 
Be Ue OON CRM CPU 上 运行 。 从 这 个 意义 上 讲 , ERE UE A TU n ETE SERE 
当 一 个 CPU 通过 schedule( ) 从 系统 的 就 绪 队 全 中 挑选 了 一 个 进程 作为 运行 的 下 一 个 进程 next， 好 

将 从 当前 进程 prey 切换 到 这 个 进程 时 ,就 将 其 task. struct 结构 中 的 has. cpu 字段 设置 成 1, 并 将 processor 
设置 成 该 CPU 的 逻辑 编写。 我 们 回 过 头 去 (第 4 章 ) 看 一 下 schedule( ) 中 有 关 的 片段 (kemel/sched.c): 


508 asmlinkage void schedule (void) 
509 { 
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518 this cpu = prev-?processor; 


587 #ifdef CONFIG SMP 


588 next-^has cpu = 1; 

589 next-^processor = this cpu; 
590 Hendif 

591 spin unlock irq(&runqueue lock); 
592 

593 if (prev == next) 

594 goto same process; 

595 

648 switch to(prev, next, prev); 
649 — Schedule tail(prev); 

690  ] 


从 进程 prev 切换 到 next 以 后 ,要 对 prev UH — ef. — schedule tail( )。 这 个 函数 的 代码 对 于 SMP 
结构 和 单 CPU 结构 有 和 较 大 的 不 同 ( 见 kernel/sched.c). 


[schedule( ) > | schedule tail( )] 


426 static inline void . Schedule tail (struct task struct *prev) 

421 { 

428 #ifdef CONFIG_SMP 

429 int policy; 

430 

431 /* 

432 * prev->policy can be written from here only before ` prev’ 
433 * can be scheduled (before setting prev >has_cpu to zero) 
434 * Of course it must also be read before allowing prev 

435 * to be rescheduled, but since the write depends on the read 
436 * to complete, wmb( ) is enough. (the spin lock( ) acquired 
431 * before setting has cpu is not enough because the spin lock( ) 
438 * common code semantics allows code outside the critical section 
439 * to enter inside the critical section) 

440 */ 

441 policy = prev-?policy; 

442 prev->policy = policy & "SCHED YIELD; 

443 wmb( ) ; 

444 

445 /* 

446 * fast path falls through. We have to clear has_cpu before 
447 * checking prev-?state to avoid a wakeup race - thus we 

448 * also have to protect against the task exiting early. 

449 */ 
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450 
451 
452 
453 
454 
455 
456 
457 


458 
459 
460 
461 
462 
463 
464 
465 
466 
467 
468 
469 
470 
A71 
472 
473 
ATA 
475 
476 
4TT 
478 
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480 
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482 
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484 
485 
486 
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488 
489 
490 
491 
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task_lock (prev) ; 

prev-^has, cpu = 0; 

mb( ); 

if (prev->state == TASK RUNNING) 
goto needs resched; 


out unlock: 
task unlock(prev); /* Synchronise here with releasc_task( ) 
if prev is TASK ZOMBIE */ 
return; 


~~ 
* 


Slow path - we 'push' the previous process and 
reschedule idle( ) will attempt to find a new 
processor for it. (but it might preempt the 

current process as well.) We must take the runqueue 
lock and re-check prev->state to be correct. It might 
still happen that this process has a preemption 

'in progress’ already - but this is not a problem and 


* 0 * X X * c6 X* X 


might happen in other circumstances as well. 
*/ 

needs_resched: 
{ 


unsigned long flags; 


fk 
* Avoid taking the runqueue lock in cases where 
* no preemption-check is necessery: 
*/ 
if ((prev == idle task(smp processor id( ))) || 
(policy & SCHED YTELD)) 
goto out unlock; 


spin lock irqsave(&runqueue lock, flags); 
if (prev-^state == TASK RUNNING) 
reschedule idle(prev); 
spin unlock irqrestore(&runqueue lock, flags); 
goto out unlock; 
} 
Helse 
prev-»policy &- ~SCHED_YIELD; 
Hendif /* CONFIG SMP */ 
} 


从 代码 中 可见 , 这 个 inline 两 数 对 于 单 CPU 系统 只 有 一 行 , 那 就 是 489 (1, 将 原来 的 当前 进程 prev 


的 SCHED_YIELD 标志 位 设 成 0 (礼让 只 是 一 次 有 效 )， 而 这 只 在 prev 通过 系统 调用 日 愿 礼让 ， 和 暂时 


放弃 


运行 时 才 有 实际 的 作用 。 可是, 对 十 SMP 结构 就 不 同 了 ,除了 也 此 把 进程 prevy 的 SCHED_YIELD 
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标志 位 设 成 0 以 外 ， 这 里 还 有 儿 件 事 要 做 。 首 先是 要 把 进程 prev 的 has. cpu. 标志 设 成 0， 表 示 这 个 进 
程 已 不 在 任何 CPU 上 运行 ,代码 中 的 443 4TA 452 行 分 别 在 写 操 作 以 后 和 读 操 作 之 前 设置 了 内 存 路 障 ， 
目的 是 : — mp i4 Hb CPU 立即 就 能 看 到 所 作 的 改变 ， 男 一 方面 是 柴 读 到 内 存 中 最 新 的 内 容 。 另 一 
件 事 是 : 如 果 进 程 prev 的 运行 是 被 测 夺 的 ， 那 就 蔡 它 找 找 出 路 , 看 是 耕 能 让 它 继续 在 男 一 个 CPU bie 
行 。 进 程 prev 的 状态 为 TASK_RUNNING， 说 明 它 的 运行 是 被 剥夺 的 ， 或 者 是 通过 系统 调用 自愿 礼让 
而 暂时 放弃 的 ， 所 以 ， 如 果 在 479 行 排除 了 礼让 的 可 能 性 ， 就 必然 是 被 剥夺 了 运行 。 不 过 ， 被 剥夺 运 
行 的 进程 并 不 一 定 有 必要 ， 或 者 不 一 定 可 以 为 它 男 找 一 个 处 理 嚣 。 如 果 这 个 进程 是 “空转 ”进程 ， 也 
就 是 当前 CPU 上 的 init 进程 (参阅 SMP 结构 的 引导 过 程 一 节 ) Ata, ARAMA ACB A, 
一 方面 也 根本 不 允许 转 旬 其 他 CPU 上 运行 。 把 这 些 情况 都 排除 了 以 后 ， 就 只 剩 下 了 OPPO HE. Aap ze 
这 个 进程 确 是 有 事 可 和 干 ， 只 是 因为 强制 性 调度 被 剥夺 了 运行 。 所 以 ， 此 时 此 调用 reschedule idle(), zx 
试 能 否 将 其 转 到 其 他 CPU 上 运行 。 这 个 函数 的 代 个 站 kemel/sched.c 中 : 


[schedule( ) > __ schedule_tail( ) > reschedule_idle( )] 


205 static void reschedule idle(struct task struct * p) 


206 { 

207 #ifdef CONFIG SMP 

208 int this cpu = smp processor id( ); 

209 struct task struct *tsk, *target_tsk; 

210 int cpu, best cpu, i, max prio; 

211 cycles t oldest idle; 

212 

213 /* 

214 * shortcut if the woken up task’s last CPU is 

215 * idle now. 

216 */ 

217 best cpu = p Pprocessor; 

218 if (can schedule(p, best cpu)) { 

219 tsk = idle task(best cpu); 

220 if (cpu eurr(best cpu) == tsk) f 

221 int need resched; 

222 send now idle: 

223 /* 

224 * If need resched == -1 then we can skip sending 
225 * the IPI altogether, tsk-^need resched is 
226 * actively watched by the idle thread 

221 */ 

228 need resched = tsk—>need_resched; 

229 tsk->need_resched = 1; 

230 if ((best cpu != this cpu) && !need resched) 
231 smp send reschedule(best cpu); 

232 return; 

233 | 

234 ) 

235 
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236 
237 
238 
239 
240 
241 
242 
243 
244 
245 
246 
247 
248 
249 
250 
251 
252 
253 
254 
255 
256 
257 
258 
259 
260 
261 
262 
263 
264 
265 
266 
267 
268 
269 
270 
271 
272 
273 
274 
275 
276 
277 
278 
279 
280 
281 
282 
283 
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* We know that the preferred CPU has a cache-affine current 
* process, lets try to find a new idle CPU for the woken-up 
* process. Select the least recently active idle CPU. (that 
* one will have the least active cache context.) Also find 
* the executing process which has the least priority. 
*/ 
oldest idle = (cycles 1) -1; 
target tsk = NULL; 
max prio = 1; 


for (i = 0; i < smp num cpus; it!) { 
cpu = epu logical map(i); 
if (!can schedule(p, cpu)) 
continue; 
tsk = cpu_curr (cpu) ; 
/* 
* We use the first available idle CPU. This creates 
* a priority list between idle CPUs, but this is not 
* a problem. 
*/ 
if (tsk == idle task(cpu)) { 
if (last schedule(cpu) € oldest idle) { 
oldest idle = last, schedule(cpu); 
target tsk - tsk; 
} 
} else { 
if (oldest idle — -1ULL) { 
int prio - preemption goodness(tsk, p, cpu); 


if (prio > max prio) | 
max prio - prio; 
target tsk - tsk; 


} 
) 
} 
} 
tsk - target tsk; 
if (tsk) | 
if (oldest idle !- -1ULL) | 
best cpu = tsk-»processor; 
goto send now idle; 
] 
tsk-^need resched = 1; 
if (tsk-^processor != this cpu) 
smp send reschedule(tsk-»processor); 
} 
return; 
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284 

285 

286 Helse /* UP */ 

287 int this cpu = smp processor id( ); 
288 struct task struct *tsk; 

289 

290 tsk = cpu curr(this cpu); 

291 if (preemption goodness(tsk, p, this cpu) > 1) 
292 tsk->need_resched = 1; 

293 #endif 

294 } 


代码 中 的 208—283 行 用 丁 SMP 结构 。 这 段 代 码 先 检查 被 剥夺 运行 的 进程 是 否 可 以 在 原来 的 CPU 
上 恢复 运行 (如 果 这 个 CPU 十 的 当前 进程 是 “空转 ”进程 的 话 )。 不 行 就 进一步 通过 一 个 for 循环 依次 
考察 系统 中 的 所 有 CPU， 如 果 被 判 夺 运 行 的 进程 允许 在 某 个 CPU 上 运行 ， 而 这 个 CPU 上 的 当前 进程 
是 “空转 ”进程 ， 或 者 其 “goodness”， 即 运行 资格 低 于 被 剥 全 运行 的 进程 ， 那 么 这 个 CPU 上 的 当前 进 
程 就 是 一 个 可 以 剥夺 的 候选 对 象 。 当 系统 中 存在 多 个 可 以 剥夺 的 进程 时 ， 就 从 中 找 出 已 经 运行 时 间 最 
长 或 运行 资格 最 低 的 进程 ， 总 之 是 “大 鱼 吃 小 鱼 兴 “柿子 拣 软 的 担 ”。 到 for 循环 结束 时 ， 如 果 找 到 了 
可 以 剥夺 的 进程 ， 就 将 其 task struct 结构 中 的 need_resched 标志 设 成 1， 再 向 其 所 在 的 CPU 发 出 一 个 
RESCHEDULE VECTOR FEAR: 否则 就 只 好 算 了 。 


信和 号 的 发 送 也 与 进程 调度 有 关 。 在 将 一 个 信号 发 送 给 一 个 进程 以 后 , 莫 通 过 signal wake up( ) 把 目 
标 进程 唤醒 。 在 单 CPU 的 系统 中 ， 如 果 目 标 进 程 正 在 运行 ， 才 就 必定 是 同一 CPU 上 的 当前 进程 ， 当 
CPU 从 中 断 或 系统 调用 返回 用 户 空 间 的 前 儿 ， 就 会 处 理 这 个 信和 号。 否则 ， 昌 标 进 程 也 许 是 就 绪 进 程 ; 
也 许 是 个 正在 睡眠 的 进程 ， 那 就 要 将 其 唤醒 。 总 之 ， 到 目标 进程 下 一 次 受 调 度 运 行 时 就 会 先 处 理 接收 
到 的 信和 号。 在 SMP 结构 中 的 情况 要 略为 复杂 一 些 ， 因 为 日 标 进程 有 可 能 正在 筋 一 个 CPU 上 和 运行。 为 
了 使 信和 号 及 时 得 到 处 理 ， 此 时 要 向 正在 执行 日 慰 进程 的 CPU 发 送 一 个 RESCHEDULE_VECTOR "tfr 
请 求 。 下 硬是 有 关 的 代码 (kernel/signal.c): 


466 static inline void signal wake up (struct task struct *t) 


467 {f 

468 t-^sigpending = l; 

469 

470 if (t->state & TASK INTERRUPTIBLE) | 

471 wake up process (t); 

472 return; 

473 } 

474 

475 #ifdef CONFIG SMP 

416 /* 

ATT * If the task is running on a different CPU 
478 * force a reschedule on the other CPU to make 
479 * it notice the new signal quickly. 

480 * 

481 * The code below is a tad loose and might occasionally 
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482 * kick the wrong CPU if we catch the process in the 

483 * process of changing - but no harm is done by that 

484 * other than doing an extra (lightweight) IPI interrupt. 
485 */ 

486 spin lock(&runqueue lock); 

487 if (t-^has cpu && t->processor != smp processor id( )) 
488 smp send reschedule(t-5processor); 

489 spin unlock(&runqueue lock); 

490 Hendif /* CONFIG SMP */ 

490  ] 


这 里 的 第 488 行 向 对 方 发 出 一 个 RESCHEDULE_VECTOR 中 断 请 求 。 rmi Kk RY A BSE AE 
于 让 对 方 进行 一 次 进程 调度 ， 前 只 是 使 对 方 产 生 一 次 中 断 ， 为 及 时 处 理 刚 投递 的 信号 创造 条 件 。 


9.6 SMP 系统 的 引导 


SMP 结构 中 的 所 有 CPU 都 起 平等 的 , 没有 主 次 之 分 , 这 实际 上 是 建立 在 系统 中 有 多 个 进程 或 者 多 
个 执行 “上 下 文 ” 前 提 下 的 。 在 同 … 时 间 中 ， -个 “于 下 文 ” 只 能 由 一 个 CPU 处 埋 ， 何 则 只 会 把 事情 
摘 糟 。 如 果 系 统 中 一 上 共 才 只 有 一 个 “上 下 文 ” 那么 有 再 多 的 CPU 存在 也 无 从 发 探 作用。 所 以 ， 系 统 
的 引导 和 初始 化 阶段 是 个 特例 ， 因 为 在 这 个 阶段 里 系统 中 只 有 一 个 “上 下 文 ” 只 能 由 一 个 处 理 器 米 处 
理 。 在 这 个 阶段 里 ， 也 就 是 在 系统 刚 加 电 或 “总 清 ”(reseb 之 后 ， 系 统 中 暂时 上 只 有 一 个 处 理 器 运行 ， 这 
个 处 理 器 称 为 “引导 处 理 器 ”BP; 其 余 的 处 理 器 则 处 于 暂停 状态 ， 称 为 “应 用处 理 器 ”AP。“ 引 导 处 
理 器 ” 完成 了 系统 的 引导 和 初始 化 ， 并 创建 起 多 个 进程 ， 从 而 可 以 由 多 个 处 理 右 同时 参与 处 理 时 , 才 
启动 所 有 的 “应 用 处 理 器” 让 它们 在 完成 自身 的 初始 化 以 后 投入 运行 。 一 旦 各 个 “应 用 处 理 器 ”者 已 
投入 运行 ， 这 种 暂时 的 主 次 关系 便 告 结束 ， 从 此 以 后 使 一 律 平等 了 。 系 统 的 引导 和 初始 化 本 是 下 一 章 
的 题材 ， 但 是 我 们 在 这 里 关心 的 是 “引导 处 理 器 ”怎样 为 各 个 “应 用 处 理 器 ” 作 好 运行 的 准备 ， 然 后 
启动 其 运行 的 过 程 。 这 个 过 程 固然 是 整个 系统 初始 化 过 程 中 的 一 部 分 ， 但 是 实际 上 与 SMP 结构 的 关系 
更 为 密切 ， 所 以 放 在 本 章 中 叙述 。 

在 初始 化 阶段 ,“ 引 导 处 理 器 ” 先 完成 自 熙 的 初始 化 ， 进 入 保护 模式 并 开启 页 式 存储 管理 机 制 ， 再 
完成 系统 特别 是 内 存 的 初始 化 ， 然 后 就 从 start_kernel( ) 调 用 smp_init( ) 进 行 SMP 结构 的 初始 化 。 这 个 
函数 的 代码 在 init/main.c 中 : 


[start kernel( ) > smp init( )] 


505 /* Called by boot processor to activate the rest. */ 
506 static void | init smp init(void) 


507 { 

508 /* Get other processors into their bootup holding patterns. */ 
509 smp_boot_cpus( ); 

510 smp_threads_ready=1; 

511 smp commence ( ); 

512 ] 
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这 个 函数 的 主体 是 smp_boot_cpus()， 它 依次 启动 系统 中 的 各 个 CPU, 让 它们 各 自 走 过 初始 化 鸣 第 
一 阶段 。 各 个 次 CPU 在 完成 了 自身 的 初始 化 以 后 部 要 停 下 来 等 待 一 个 统一 的 “起 跑 ” 命令。 而 主 CPU, 
则 在 完成 了 所 有 次 CPU 的 启动 以 后 通过 smp_commence( ) 发 出 这 个 命令 。 我 们 先 看 smp. boot. cpus( )， 
其 代码 在 rch/i386/kernel/smpboot.c 中 。 我 们 分 段 阅读 。 


[start kernel( ) > smp init( ) > smp boot cpus( )] 


829 
830 
831 
832 
833 
834 
835 
836 
837 
838 
839 
840 
841 
842 
843 
844 
845 
846 
847 
848 
849 
850 
851 
852 
853 
854 
855 
856 
857 
858 
859 
860 
861 
862 
863 
864 
865 
866 
867 
868 


void | init smp boot, cpus (void) 


int apicid, cpu; 


#ifdef CONFÍG MTRR 


/* Must be done before other processors booted */ 
mtrr init boot cpu ( ); 


gendi f 


/* 

* Initialize the logical to physical CPU number mapping 
* and the per-CPU profiling counter/multiplier 

*/ 


for (apicid = 0; apicid < NR CPUS; apicid++) { 
x86 apicid to cpulapicid] = -1; 
prof counter[apicid] = 1; 
prof oid multiplier[apicid] = 1; 
prof multiplier[apicid] = 1; 
} 


/* 

* Setup boot CPU information 

*/ 

smp store cpu info(0); /* Final full version of the data */ 
printk(“CPU%d: ^, 0); 
print cpu info(&cpu data[0]); 


/* 

* We have the boot CPU online for sure. 
*/ 

set bit(0, &cpu online map): 

x86 apicid to cpu[boot cpu id] = 0; 

x86 cpu to apicid[0] = boot cpu id; 
global irq holder - 0; 
current—>processor = 0; 

init idle( ); 

smp. tune scheduling( ); 


/* 


* If we couldnt find an SMP configuration at boot time, 
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869 * get out of here now! 
870 */ 

871 if (!smp found config) { 
872 printk(KERN NOTICE 


“SMP motherboard not detected. Using dummy APIC emulation. Wn"); 
873 #ifndef CONFIG VISWS 


874 io apic irqs = 0: 

875 Hendif 

876 cpu online map = phys epu present map = 1; 
877 smp_num_cpus = l; 

878 goto smp done; 

879 ] 

880 


Fore HEME THE. MARRE, MATER RAR YP AT CURE “AR RA”, NU 
MTRR 加 以 分 区 管理 。 例 如 某 个 区 间 采 用 “ 穿 透 ” 写 模式 ， 而 男 一 个 区 间 采 用 “ 同 写 ”模式 ， 再 另 
一 个 区 间 则 根本 就 不 缓冲 ， 等 等 。MTRR 并 不 是 非 用 不 可 的 ， 它 的 使 用 上 只是 使 管理 更 加 精细 而 已 ， 所 
CE TRA MTRR 是 个 编译 选择 项 。 但是， 如 果 选 择 了 使 用 MTRR， 就 要 在 启动 次 CPU 之 前 先 通过 
mtrr_init_boot_cpu( ) 完 成 对 主 CPU 的 MTRR 的 初始 化 。 此 外 ， 内 核 中 还 有 一 些 以 CPU 编号 为 下 标的 
数组 ， 其 中 x86 apicid to cpu[ ] 用 于 逻辑 CPU 号 到 物理 CPU 号 的 转换 ， 还 有 些 是 为 统计 信息 而 设 的 ， 
对 这 些 数 组 都 要 加 以 初始 化 。 然 后 ， 还 要 调用 smp_store_cpu_info( )， 从 CPU 收集 很 多 信息 ， 并 根据 
收集 的 信息 进行 一 些 必 要 的 拒 作 。 这 些 信息 大 多 是 通过 指令 cpuid 收集 的 , 通过 这 条 指令 可 以 收集 到 许 
ZAR CPU 本 身 的 信息 。 例 如 ， 这 些 信息 中 不 但 包括 CPU 的 型 号 ， 还 包括 由 哪 家 厂商 制造 。 如 果 
BBL CPU 是 由 AMD 制造 的 ， 就 要 相应 地 调用 一 个 针对 AMD 处 理 器 特点 的 初始 化 函数 。 这 些 信息 存 
迪 在 一 个 cpuinfo_x86 结构 数组 cpu. data[ ] 中 ,这 个 数组 中 的 内 容 可 以 通过 特殊 文件 系统 /proc 读 取 。 TE 
/proc 目录 下 有 个 文件 /proc/cpuinfo， 对 这 个 特殊 文件 的 读 操 作 就 是 从 cpu_datal ] 中 读 出 的 。 读 者 不 妨 试 

-F "more /proc/cpuinfo”， 看 看 你 的 机 器 用 的 是 什么 CPU. 

E CPU 的 逻辑 号 总 是 0， 而 物理 号 则 在 一 个 全 局 量 boot cpu id 中 ， 数 组 x86 apicid to cpu[ 1] 和 
x86_cpu_to_apicid[ ] 提 供 了 二 者 间 的 转换 。 内 核 中 还 有 个 全 局 量 smp_found_config， 由 主 CPU 在 一 个 
函数 setup_arch( ) 中 调用 find_smp_config( ), 根据 BIOS 提供 的 信息 设置 , 为 0 表示 系统 中 只 有 一 个 CPU， 
否则 就 是 多 CPU 系统 。 所 以 ， 如 果 此 时 smp_found_config 为 0， 就 结束 了 smp boot cpus ) 的 执行 ; A 
TY LAK ETE BST 


[start_kernel( ) > smp_init( ) > smp_boot_cpus( )] 


881 /* 

882 * Should not be necessary because the MP table should list the boot 
883 * CPU too, but we do it for the sake of robustness anyway. 

884 */ 

885 if (!test bit(boot cpu id, &phys cpu present map)) { 

886 printk( weird, boot CPU (#%d) not listed by the BIOS. Wn", 

887 boot cpu id); 

888 phys epu present map j= (1 << hard smp processor id( )); 

889 } 
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890 

891 /* 

892 * If we couldn't find a local APIC, then get out of here now! 
893 */ 

894 if (APIC INTEGRATED(apic version[boot cpu id]) && 

895 !test bit(X86 FEATURE APIC, boot cpu data. x86 capability)) { 
896 printk(KERN ERR "BIOS bug, local APIC #%d not detected!... W^, 
897 boot cpu id); 

898 printk(KERN ERR 


. forcing use of dummy APIC emulation. (tell your hw vendor) W^); 
899 #ifndef CONFIG VISWS 


900 io apic irgs = 0; 

901 Hendif 

902 cpu online map = phys cpu present map = 1; 
903 smp num cpus = 1; 

904 goto smp done; 

905 } 

906 

907 verify local APIC( ) ; 

908 

909 f* 

910 * [f SMP should be disabled, then really disable it! 
911 */ 

912 if (!max epus) { 

913 smp found config = 0; 

914 printk(KERN INFO 


“SMP mode deactivated, forcing use of dummy APIC emulation. m^) ; 
915 #ifndef CONFIG VISWS 


916 io apic irqs = 0; 

917 Hendif 

918 cpu online map = phys cpu present map = 1; 
919 smp num cpus = 1; 

920 goto smp done; 

921 } 

922 

923 connect bsp APTC( ); 

924 setup local APIC( ); 

925 

926 if (GET APIC ID(apic read(APIC ID)) != boot cpu id) 
927 BUG( ) ; 

928 


这 里 还 有 一 系列 检验 。 上 其中 第 894 行 检 但 主 CPU 是 否 带 有 内 部 APIC。 对 十 SMP 结构 ，CPU 带 有 
内 部 APIC 是 个 必要 条 件 。 随 后 ， 又 对 主 CPU 的 内 部 APIC 进行 了 初始 化 。 限 于 篇 幅 ， 我 们 不 能 对 谓 
几 的 子 程序 一 一 加 以 说 明了 ， 有 需 些 的 读者 可 以 结合 Intl 的 技术 资料 自己 阅读 。 这 里 的 
phys cpu present map 是 个 全 局 的 CPU 位 图 ， 由 主 CPU 在 setup arch( ) (WB 10 HH) 中 通过 
get_smp_config( )#@44VH 11 MP_processor_info( )， 根 据 BIOS 提供 的 信息 设置 。 
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至 此 ， 所 有 的 准备 工作 都 已 完成 ， 下 面 就 要 逐个 地 启动 系统 中 的 次 CPU T. 


[start_kernel( ) > smp_init( ) > smp. boot. cpus( )! 


929 
930 
931 
932 
933 
934 
935 
936 
937 
938 
939 
940 
941 
942 
943 
944 
945 
946 
947 
948 
949 
950 
951 
952 
953 


954 
955 


4f 


[x 
* Now scan the CPU present map and fire up the other CPUs. 
*/ 
Dprintk("CPU present map: %lx\n”, phys cpu present map); 
for (apicid = 0; apicid < NR CPUS; apicid++) | 
/* 
* Don t even attempt to start the boot, CPU! 
*/ 
if (apicid -- boot cpu id) 
continue; 
if (!(phys cpu present map & (1 << apicid))) 
continue; 
if ((max cpus >= 0) && (max cpus <= cpucount-1)) 
continue; 
do boot cpu(apicid); 
/* 
* Make sure we unmap all failed CPUs 
*/ 
if ((x86 apicid to cpu[apicid] -- -1) && 


(phys cpu present map & (1 << apicid))) 
printk( phys CPU #%d not responding - cannot use it. m^, 
apicid); 


内 核 中 有 个 全 局 量 max_cpus， 表 示 系 统 中 有 多 少 个 CPU 其 值 就 是 多 少 , 但 是 也 可 以 企 系 统 引 导 合 
中 指定 只 用 其 中 儿 人 个。 此外， 这 里 的 cpucount 是 个 计数 器 ， 初 值 为 0。 代码 中 的 for 循环 根据 位 图 


phys cpu present map 依次 对 各 个 “应 用 人 处理 器 ”调用 do boot cpu( )， 为 其 投入 运行 作 好 准备 ， 并 几 


动 其 


运行 。 这 个 限 数 的 代码 在 arch/i386/kernel/smp.c 中 。 由 于 比较 长 ， 我 们 也 上 只 好 分 段 阅 读 。 


[start_kernel( ) > smp_init( ) > smp, boot, cpus( ) > do, boot, cpu( )] 


541 
542 
543 
544 
545 
546 
547 
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static void init do boot cpu (int apicid) 
{ 
struct task struct *idle; 
unsigned long send status, accept status, boot status, maxlvt; 
int timeout, num starts, j, cpu; 
unsigned long start eip; 


6. 


548 
549 
550 
551 
552 
553 
954 
955 
996 
557 
558 
559 
560 
561 
562 
563 
064 
565 
566 
567 
568 
569 
570 
511 
572 
573 
574 
575 
576 
577 
978 
979 
580 
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cpu — ++cpucount; 
/* 
* We can’t use kernel thread since we must avoid to 
* reschedule the child 
*/ 
if (fork by hand( ) < 0) 
panic("failed fork for CPU %d”, cpu); 


/* 
* We remove it from the pidhash and the runqueue 
* once we got the process: 


*/ 
idle = init task.prev task; 
if (lidle) 


panic(“No idle process for CPU %d”, cpu): 
idle~>processor = cpu; 
x86_cpu_to_apicid[cpu] = apicid; 
x86 apicid to cpu[apicid] = cpu; 
idle-^has cpu = 1; /x we schedule the first task manually */ 
idle->thread. cip = (unsigned long) start secondary; 


del from runqueue (idle); 
unhash process (idle); 
init tasks[cpu] = idle: 


/* start eip had better be page aligned! */ 
start eip = setup trampoline( ); 


/* So we see what's up */ 
printk(^Booting processor %d/%d eip %ix\n’, cpu, apicid, start eip); 
stack start.esp = (void *) (1024 + PAGE SIZE + (char *)idlo); 


EYRI, BEDCPUEIAIT HE DAA AKL PX, SGT Sx ECT AIST EL SERA. Ix 


而 倒 会 造成 损害 。 所 以 ， 必 须 为 每 个 CPU 都 准备 卜 一 个 初始 进程 (线程 ;。 那 怕 这 个 初始 进程 本 身 实际 
上 并 没有 什么 事 要 做 ， 也 得 要 有 这 么 一 个 进程 才能 月 动 这 个 CPU。 而 CPU 一 旦 开始 了 初始 进程 的 运行 ， 
以 后 就 可 以 通过 进程 调度 从 系统 中 挑选 其 他 进程 运行 了 .所 以 ,第 . 件 要 做 的 事 就 是 通过 fork_by_hand( ) 
为 日 标 CPU 创 建 起 一 个 内 核 线程 。 


[start_kernel( ) > smp_init( ) > smp boot cpus( ) > do_boot_cpu( ) > fork by hand()] 


493 
494 
495 
496 
497 


static int __init fork by hand (void) 
{ 

struct pt_regs regs; 

/水 


* don't care about the eip and regs settings since 
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498 * we ll never reschedule the forked task. 

499 */ 

500 return do fork(CLONE VM|CLONE PTD, 0, &regs, 0); 
501 } 


读者 对 do_fork( ) 已 经 不 陌生 了 。 这 里 的 第 一 个 参数 表示 fork 的 是 一 个 线程 ， 共 译 父 进程 ， 即 当前 
进程 的 用 户 空间 ， 并 且 还 共享 父 进 程 的 进程 号 。 第 二 个 参数 木 米 应 该 是 用 户 空间 堆栈 的 起 始 地 址 ， 第 
四 个 参数 为 堆栈 的 大 小 ， 但 是 因为 创建 的 是 内 核 线 程 ， 所 以 这 两 个 参数 都 是 0. a fF asl regs 的 其 体 
内 容 在 这 里 并 没有 实际 的 作用 。 创 建 了 所 需 的 内 核 线程 以 后 ，do_ftork( ) 遂 过 SET LINKS( )， 把 它 的 
task, struct 数据 结构 链接 人 在 就 线 进 程 队列 中 init task 的 前 面 , 所 以 第 560 行 可 以 通过 init task 取得 指向 
这 个 task. struct 数据 结构 的 指针 idle. 

代码 中 的 568 行将 idle->thread.eip 设置 成 指向 start_secondary( )， 这 是 所 有 的 次 CPU， 即 “应 用 处 
HOS”, 完成 了 初始 化 以 后 进入 正常 调度 时 的 入 口 。 后 而 我 们 会 看 到 它 的 代码 。 然 后 , del from runqueue( ) 
和 unhash, process( ) 将 这 个 task. struct 结构 从 就 绪 进程 队列 和 杂凑 队列 中 有 删 去 ， 并 把 它 的 指针 放 在 数组 
init tasks[ ] 中 。 这 样 就 只 能 根据 CPU 序号 找到 这 个 task, struct 结构 ， 而 不 能 像 常规 的 进程 奢 样 通过 进 
程 导 找 到 它 了 。 读 者 后 而 会 看 到 ， 这 个 线程 就 想 给 定 CPU 的 “ 宁 转 ”进程 。 所 有 CPU 的 空转 进程 者 
具有 相同 的 进程 号 0, 并 且 痢 不 杜 入 就 绪 进 程 队 列 和 杂 凌 队列 内 ,J 出 由 数组 init_tasks[ ] 的 名 个 元 素 指向 
相应 的 task_struct 结构 。 

函数 start_secondary( ) 的 执行 有 个 前 提 ， 那 距 是 次 CPU 已 经 完成 了 其 本 身 的 初始 化 ， 已 进入 了 保 
护 模式 ， 并 开启 了 页 式 存 储 管理 。 可 是 ， 次 CPU 本 堵 的 这 些 初始 化 涉及 其 内 部 寄存 岁 的 操作 ， 因 而 只 
能 由 它 自己 完成 ， 卡 CPU 无 法 包办 代 蔡 。 再 说 ， 当 证 CPU 启动 一 个 次 CPU 运行 的 时 候 ， 这 个 次 CPU 
一 开始 时 还 处 于 实地 址 模式 ， 根 本 就 不 能 正确 地 执行 start_secondary( ) 的 代码 。 因 此 ，start_secondary( ) 
的 作用 其 实 还 只 是 中 转 性 质 的 ， 次 CPU 仍然 不 能 “一 步 登 人 ”进入 这 个 因数 中 执行 ， 而 要 先进 入 一 个 
初始 化 程序 startup_32( )， 完 成 CPU 水 身 的 初始 化 〈 见 第 10 音 )。 吕 是 ， 即 使 startup_32( ) 的 执行 也 还 
有 前 提 ， 所 以 次 CPU 在 受到 启动 之 初 甚 至 述 不 能 直接 进入 初始 化 的 第 一 阶段 startup_32( )， 而 址 要 有 
块 “ 跳 板 ” 舞 来 一 次 中 转 。 读 者 在 第 10 章 中 将 会 看 到 ， 主 CPU 在 进入 startup. 32()Z Bl 28167] 38 
助 程序 小 进行 了 一 些 准备 ， 包 括 进 入 保护 模式 ， 次 CPU 同样 需 旧 这 些 准备 。 此 外 ， 次 CPU 在 进入 
startup 32( ) 之 前 应 该 拒 %ebx BAA Bee 1 (TE CPU 则 为 0)。 显 然 ， 这 些 准 备 工作 都 要 在 进入 
startup 32( ) 之 前 完成 。 这 就 是 为 什么 次 CPU 需要 “跳板” 而 主 CPU 却 并 不 需要 的 筷 因 。 这 里 575 行 
通过 setup_trampoline( ) 为 次 CPU 复制 好 一 块 跳 板 ， 实 际 上 是 一 段 半 : 编 语 言 程序 ， 并 拒 这 上 段 程序 的 入 口 
dha Ee start eip tle ATLA, starteip 中 的 地 址 是 启动 次 CPU 时 的 第 站， 龙 低 级 阶段 。 而 
idle->thread.eip 中 的 地 址 则 是 次 CPU 在 宪 成 了 白 身 的 初始 化 ， 建 立 起 了 页 面 器 射 以 后 才 开 始 执行 的 新 
起 点 ， 是 第 二 站 ， 是 高 级 阶段 。 函 数 setup_trampoline( ) 的 代码 在 arch/i386/kemel/smpboot.c 中 ， 





[start kernel( ) > smp. init( ) > smp boot, cpus( ) > do boot cpu( ) > setup trampoline( )] 


101 /* 

102 * Trampoline 80x86 program as an array. 
103 */ 

104 


105 extern unsigned char trampoline data [ ]; 
106 extern unsigned char trampoline end [ ]; 
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107 static unsigned char **trampoline base; 

108 

109 /* 

110 * Currently trivial. Write the real~>protected mode 
111 * bootstrap into the page concerned. The caller 

112 * has made sure it's suitably aligned. 

113 */ 

114 

115 static unsigned long init setup trampoline (void) 
116 { 

117 memcpy (trampoline base, trampoline data, trampoline end - trampoline data); 
118 return virt to phys(trampoline, baso) ; 

119. ] 


这 段 程序 是 再 简单 不 过 的 了 ， 但 是 读者 … 定 会 对 这 “跳板 ”到 底 是 什么 感 兴趣 。 这 段 代 码 在 
arch/i386/kernel/trampoline.S 中 (trampoline it ABE IN x 48.2: 


3T ENTRY (trampoline data) 


38 r base =. 

39 

40 mov %cs, %ax 4 Code and data in the same place 

41 mov %ax, %ds 

42 

43 mov $1, %bx 8 Flag an SMP trampoline 

44 cli # We should be safe anyway 

45 

46 movi $0xA5A5A5A5, trampoline data - r basc 

4T # write marker for master knows we're running 
48 

49 lidt idt 48 - r base # load idt with 0, 0 

50 lgdt gdt 48 - r base # load gdt with whatever is appropriate 
51 

52 xor ax, %ax 

53 inc %ax # protected mode (PE) bit 

54 ]msw %ax # into protected mode 

55 jmp flush instr 

56 flush_instr: 

57 ] jmpl $ KERNEL CS, $0x00100000 

58 # jump to startup 32 in arch/i386/kernel/head. S 
59 

60 idt 48: 

61 . word 0 # idt limit = 0 

62 . word 0, 0 8 idt base = OL 

63 

64 gdt 48: 

65 . word 0x0800 # edt limit = 2048, 256 GDT entries 

66 . long gdt table- PAGE OFFSET: gdt base = gdt (first SMP CPU) 
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67 
68 .globl SYMBOL NAME(trampoline end) 


我 们 在 这 里 不 深入 解读 这 段 程序 了 ， 读 者 不 妨 自己 加 以 研究 。 我 们 只 指出 三 点 ;第 一 ，43 行 把 寄 
存 器 %bx 的 内 容 设置 成 1， 表 示 这 是 一 个 次 CPU. 第 二 ，52 一 54 行将 控制 寄存 器 CRO 的 内 容 设置 成 1， 
就 是 把 CRO 中 的 PE 位 (最 低位 ， 为 1 表示 保护 模式 ) 设 置 成 1， 其 余 位 则 全 都 为 0， 这 样 就 使 CPU 进入 
了 保护 模式 , 但 是 页 式 存储 管理 则 尚未 启用 (最 高 位 PG 为 0)。 第 三 , 57 行 跳 转 到 代码 段 _KERNEL_CS 
中 地 址 为 0x00100000 的 地 方 。 污 者 在 第 2 PBB, WA KERNEL CS 的 值 定义 为 0x10， 而 段 描 
述 表 gdt 48 中 与 此 相应 的 段 描述 项 提供 的 基地 址 为 0， 所 以 跳 转 的 目标 是 0x00100000。 这 就 是 1MB 
处 ， 就 是 系统 在 引导 以 后 初始 化 程序 的 起 点 startup_32( )。 那 正 是 下 一 章 的 重点 之 一 。 

读者 可 能 还 有 个 问题 : 为 什么 要 把 这 段 代 码 复制 到 trampoline base PW? 说 来 话 长 。 当 让 CPU 
过 APIC 启动 次 CPU 运行 时 ， 要 把 一 个 局 动 地 址 发 送 给 次 CPU。 可 是 ， 由 于 APIC 的 内 部 结构 ， 实 际 
上 能 发 送 的 只 是 一 个 8 位 的 物理 页 面 号 ， 称 为 “向 量 ” 这 样 ， 就 给 启动 地 址 加 上 了 限制 ， 首先 ， 必 须 
与 页 面 边界 对 齐 ; 其 次 ， 必 须 在 IMB 以 下 。 显 然 ， 这 里 的 trampoline_data( ) 是 不 满足 这 两 个 条 件 的 ， 
所 以 要 另行 在 IMB 以 下 分 配 一 个 物理 页 面 ， 把 trampoline, data( ) 的 代码 复制 到 这 个 负面 中 ， 这 就 是 
trampoline_base， 是 在 主 CPU 的 初始 化 阶段 道 过 个 函数 smp_alloc_memory( ) 分 配 的 。 

回 到 do boot, cpu( ) 的 代码 中 ,579 行 把 次 CPU 执行 start_secondary( ) 时 的 堆栈 ,设置 在 其 task_struct 
数据 结构 所 在 的 两 个 页 面 中 ( 详 见 第 3 章 )。 我 们 继续 往 下 出 读 。 


[start_kernel{ ) > smp init( ) > smp. boot cpus( ) > do boot cpu( )] 


581 /* 

582 * This grunge runs the startup process for 

583 * the targeted processor. 

584 */ 

585 

586 atomic set(&init deasserted, 0); 

587 

588 Dprintk( "Setting warm reset code and vector. Wn"); 

589 

590 CMOS WRITE(Oxa, Oxf); 

591 local flush tlb(); 

592 Dprintk (^1. W^) ; 

593 *((volatile unsigned short *) phys to virt(0x469)) = start eip >> 4; 
594 Dprintk (^2. \n”); 

595 *((volatile unsigned short *) phys to virt(0x467)) = start eip & Oxf; 
596 Dprintk(^3. \n”); 

597 


E CPU 在 启动 次 CPU 之 前 ， 先 要 通过 其 本 地 APIC 对 次 CPU 的 APIC 执行 一 次 初始 化 操作 ， 在 
此 期 间 还 把 一 个 全 局 量 init deasserted 设 成 0， 到 完成 了 对 上 月 标 APIC 的 初始 化 以 后 ， 再 把 这 个 变量 设 
置 成 1。 此 外 ， 上 述 start_eip 中 的 入 口 地 址 不 仪 用 丁 本 次 初始 化 ， 还 用 十 系统 的 “ 热 启动 "” 所 以 按照 
规定 将 其 写 入 物理 地 址 为 0x467 All 0x469 处 。 

MÆ, E CPU 可 以 执行 给 定 次 CPU 的 启动 了 。 限 于 篇 幅 ， 我 们 在 下 面 将 不 深入 考察 对 APIC 寄存 
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eS 


器 的 操作 ， 有 兴趣 或 有 需要 的 读 老 可 自己 加 以 研究 。 总 而 言 之 ， 这 上段 代码 通过 主 CPU 的 本 地 APIC 中 
的 一些 寄存 器 ， 包 括 用 来 说 明 发 送 目 标的 寄存 器 APIC_ICR2 和 控制 /状态 寄 在 器 APIC_ICR， 向 日 标 
CPU 的 APIC 发 出 一 些 信 和 号， 并 等 待 其 完成 。 


[start_kernel( ) > smp_init( ) > smp_boot_cpus( ) > do, boot. cpu( )] 


598 /* 

599 * Be paranoid about clearing APIC errors. 
600 */ 

601 if (APIC INTEGRATED (apic, versionlapicid])) { 
602 apic_read_around(APIC_SPIY) ; 

603 apic write(APTC ESR, 0); 

604 apic read(APIC ESR); 

605 ) 

606 

607 /* 

608 * Status is now clean 

609 */ 

610 send status = 0; 

611 accept_status = 0; 

612 boot_status = 0; 

613 

614 /* 

615 * Starting actual IPI sequence.. 

616 */ 

617 

618 Dprintk (“Asserting INIT. ^) ; 

619 

620 /* 

621 * Turn INIT on target chip 

622 */ 

623 apic write around (APIC _ICR2, SET APIC DEST FIELD (apicid)) ; 
624 

625 /* 

626 * Send IPT 

627 */ 

628 apic write around(APIC ICR, APIC INT LEVELTRIG | APIC INT ASSERT 
629 |! APIC DM TNIT : 

630 

631 Dprintk("Waiting for send to finish... W^); 
632 timeout = 0; 

633 do { 

634 Dprintk (^*^); 

635 udelay (100) ; 

636 send status = apic read(APIC ICR) & APIC ICR BUSY; 
637 ) while (send status && (timeout++ < 1000)) ; 
638 
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639 mdelay (10) ; 

640 

641 Dprintk(^Deasserting INIT. \n”); 

642 

643 /* Target chip */ 

644 apic write around(APIC ICR2, SET APIC DEST FIELD(apicid)); 
645 

646 /* Send IPI */ 

647 apic write around (APIC ICR, APIC INT LEVELTRIG | APIC DM TNID ; 
648 

649 Dprintk("Waiting for send to finish... n^); 

650 timeout = 0; 

651 do { 

652 Dprintk (^*^) ; 

653 udelay (100) : 

654 send status = apic read(APTC ICR) & APIC ICR BUSY; 

655 } while (send status && (timeout++ < 1000)): 

656 

657 atomic set(&init deasserted, 1); 

658 


发 出 的 信号 须 符合 一 定 的 顺序 ， 例 如 上 面 的 628 行 中 先 把 控制 位 APIC INT. ASSERT 设 成 1， 然 
后 在 下 面 的 647 行 再 把 它 设 成 0。 得 次 写 入 控制 /状态 寄存 器 APIC_ICR 以 后 ， 都 要 从 这 个 寄存 右 读 回 
来 ， 并 等 待 其 状态 位 APIC_ICR_BUSY 变 成 0。 涉 过 ， 等 待 也 不 能 是 尤 限 期 的 等 待 ， 所 以 还 要 通过 计 
数 加 以 限制 。 


[start_kernel( ) > smp. init( ) > smp_boot_cpus( ) > do_boot_cpu( )] 


659 /* 

660 * Should we send STARTUP IPIs ? 

661 * 

662 * Determine this based on the APIC version. 
663 * If we don' t have an integrated APIC, don't 
664 * send the STARTUP IP1s， 

665 */ 

666 if (APIC INTEGRATED (apice version[apicid])) 
667 num starts = 2; 

668 else 

669 num starts ~ 0; 

670 

671 /* 

672 * Run STARTUP IPI loop. 

673 */ 

674 Dprintk(“#startup loops: %d.\n”, num starts); 
675 

676 maxlvt = get maxlvt( ); 

677 
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for (j = 1; j <= num starts; j++) { 


Dprintk (Sending STARTUP #%d. \n”, j); 
apic read around(APTC SPIV); 

apic write(APIC ESR, 0); 

apice read(APIC ESR); 

Dprintk("After apic write. n^) ; 


/* 
* STARTUP IPI 
*/ 


/* Target chip */ 
apic write around (APIC_ICR2, SET. APTC DEST FIELD(apicid)); 


/* Boot on the stack */ 

/* Kick the second */ 

apic write around(APIC ICR, APIC DM STARTUP 
' (start eip >> 12)); 


/* 

* Give the other CPU some time to accept the IPI. 
*/ 

udelay (300) ; 


Dprintk("Startup point 1. \n"); 


Dprintk("Waiting for send to finish... W^); 
timeout = 0; 
do { 
Dprintk ("+"); 
udelay (100) ; 
send status = apic read(APIC_ICR) & APIC TCR BUSY; 
) while (send status && (timcout!* < 1000)) ; 


/* 
* Give the other CPU some time to accept the IPI. 
*/ 
udelay (200) ; 
/* 
* Due to the Pentium erratum 3AP. 
*/ 
if (maxlvt > 3) { 
apic read around(APTC SPIV): 
apic write(APIC ESR, 0); 
} 
accept status = (apic read(APIC ESR) & OxEF) ; 
if (send status |! accept status) 
break; 
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726 ] 
最 后 ， 将 start. eip 中 的 初始 化 程序 入 口 地 址 发 送 给 目标 CPU， 并 等 待 目标 CPU 的 回应 。 注意 这 里 
的 694 和 695 行将 start_eip 中 的 启动 地 址 写 入 APIC 的 控制 寄存 器 APIC_ICR。 这 个 地 址 是 物理 地 址 ， 


在 写 入 寡 存 器 前 先 右 移 了 12 位 ， 因 为 启动 地 址 一 定 是 与 页 面 边界 对 齐 的 ， 其 低 12 位 ，- 定 是 0。 另 一 方 
面 ， 启 动 地 址 一 定 在 1MB 以 下 ， 其 最 高 12 位 也 一 定 是 0， 所 以 右 移 以 后 真正 要 发 送出 去 的 是 8 位 。 


[start_kernel( ) > smp_init( ) > smp, boot, cpus( ) > do. boot, cpu( )] 


721 Dprintk( After Startup. ^) ; 

128 

729 if (send status) 

730 printk("APIC never delivered???\n’) ; 

731 if (accept_status) 

732 printk("APIC delivery error (X1x). Wn", accept status); 
733 

734 if (!send status && !accept status) { 

735 /* 

736 * allow APs to start initializing. 

737 */ 

738 Dprintk (“Before Callout %d.\n”, cpu); 

739 set bit(cpu, &cpu callout map); 

740 Dprintk( After Callout 9d. Wn^, cpu); 

741 

742 /* 

743 * Wait 5s total for a response 

744 */ 

745 for (timeout = 0; timeout < 50000; timeout++) ( 
746 if (test bit(cpu, &cpu callin map)) 

747 break; /* It has booted */ 

748 udelay (100) ; 

749 } 

750 

751 if (test bit(cpu, &cpu callin map)) { 

152 /* number CPUs logically, starting from 1 (BSP is 0) */ 
753 Dprintk (OK. \n”) : 

754 printk(’CPU%d: ^, cpu); 

755 print cpu info(&cpu data[cpu]) ; 

756 Dprintk ("CPU has booted. W^); 

151 } else { 

758 boot_status = 1; 

759 if (*((volatile unsigned char *)phys_to_virt (8192)) 
760 == OxA5) 

761 /* trampoline started but...? */ 

762 printk (“Stuck ??\n”); 

763 else 

764 /* trampoline code not run */ 
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printk(’Not responding. m^); 
Rif APIC DEBUG 
inquire remote apic(apicid); 
Rendif 
} 
} 
if (send status || accept status || boot_status) { 
x86 cpu to apicid[cpu] = -1; 
x86 apicid to cpu[apicid] = -1; 
cpucount--; 


} 


/* mark “stuck” area as not stuck */ 
*((volatile unsigned long *)phys to virt(8192)) = 0; 


} 


次 CPU 受到 启动 以 后 ， 首 先进 入 上 述 的 “跳板 ” 从 那里 起 跳 ， 进 入 startup_32( )， 即 初始 化 的 第 

-阶段 ( 详 见 第 10 章 )。 在 startup_32() 中 , 由 于 次 CPU WA FFAS %ebx 中 的 内 容 为 1, 就 可 以 跟 主 CPU 

区 分 开 来 ， 因 为 有 些 操作 是 共同 的 ， 而 又 有 些 则 只 由 主 CPU 完成 。 完 成 了 CPU 本 身 初始 化 以 后 ， 次 
CPU 就 通过 函数 调用 进入 initialize_secondary()〈 见 第 10 章 ， 代 码 在 arch/i386/kernel/smpboot.c 中 ): 


[startup_32( ) > initialize secondary( )] 


468 
469 
ATO 
471 
412 
473 
474 
475 
476 
477 
478 
479 
480 
481 
482 
483 
484 
485 
486 


/* 
* Everything has been set up for the secondary 
* CPUs - they just need to reload everything 
* from the task structure 
* This function must not return. 
*/ 
void | init initialize secondary (void) 
{ 
/* 
* We don’t actually need to load the full TSS, 
* basically just the stack pointer and the eip. 


x/ 


asm volatile( 
^movl %0, %%esp\n\t” 
" imp *%1” 


QA. ^ ^ 


:"r" (current-^thread. esp), ^r" (current->thread. eip)) ; 


} 


次 CPU 在 starmp_32( ) 小 ， 将 自己 的 堆栈 设置 在 主 CPU 为 其 准备 的 地 方 ， 从 而 进入 了 自己 的 上 下 


X, RAEE CPU 为 之 准备 好 的 空转 进程 。 我 们 在 前 面 看 到 ， 这 个 进程 的 thread.eip 指向 
start_secondary( )， 所 以 483 行 的 jmp 指令 就 使 CPU 进入 了 这 个 函数 。 同 时 ，482 行 已 经 重新 设置 了 堆 
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栈 指针 ， 所 以 实际 上 永远 不 会 从 initialize_secondary( REIT . wi AW start_secondary( ) 的 代码 在 
arch/i386/kernel/smpboot.c 中 : 


445 /* 

446 * Activate a secondary processor. 

447 */ 

448 int __init start_secondary (void *unused) 

449 { 

450 /* 

451 * Dont put anything before smp callin( ), SMP 
452 * booting is too fragile that we want to limit the 
453 * things done here to the most necessary things. 
454 */ 

455 cpu init( ); 

456 smp callin( ): 

457 whiie (latomic read(&smp commenced)) 

458 rep nop( ); 

459 /* 

460 * low-memory mappings have been cleared, flush them from 
461 * the local TLBs too. 

462 */ 

463 local flush, tlb( ); 

464 

465 return cpu idle( ); 

466 } 


对 次 CPU 的 基本 初始 化 是 在 startup 32( ) 中 完成 的 ， 但 是 进一步 的 初始 化 则 放 在 进入 
start secondary( ) 以 后 才 进 行 ， 部 就 是 cpu_init( )。 这 个 汐 数 不 仅 次 CPU 要 调用 ， 主 CPU 也 要 在 初始 化 
的 第 二 阶段 由 调用 ， 其 代码 可 参看 第 10 章 中 的 “系统 初始 化 〈 第 二 阶段 )” - 节 。 与 startup_32( ) 中 的 
初始 化 相 比 ， 这 个 函数 主要 是 为 进程 调度 作 准 备 。 此 外 ， 在 这 个 通 数 中 还 将 全 局 的 位 图 cpu_initialized 
中 与 当前 CPU 对 应 的 标志 位 设 成 1， 让 主 CPU 知道 这 个 次 CPU 的 初始 化 已 经 完成 了 。 
执行 完 cpu_init( ) 以 后 ， 次 CPU 的 初始 化 就 完成 了 。 这 里 还 要 说 明 一 下 ， 我 们 现在 是 在 讲述 其 中 
一 个 次 CPU 的 运行 ， 一 个 次 CPU 的 上 下 文 。 主 CPU 在 smp. boot, cpus ) 的 一 个 for 循环 中 ， 依 次 对 系 
统 中 的 各 个 次 CPU 调用 do boot cpu( )， 启 动 其 运行 。 每 启动 .个 次 CPU， 这 个 CPU 就 会 进入 
start secondary( )。 但 是 ， 主 CPU 和 次 CPU 之 间 需 要 一 些 通信 手段 来 建立 起 若干 同步 点 ， 以 取得 互相 
的 同步 和 协调 。 例 如 ， 主 CPU 需要 确认 刚 被 启动 的 次 CPU 已 经 到 达 start_secondary( ) 以 后 ， 才 能 启动 
下 一 个 次 CPU. MA, 不 仪 主 CPU 和 个 别 的 次 CPU 之 间 需 要 同步 , 所 有 的 次 CPU 最 后 也 要 步调 一 致 ， 
基本 上 在 同一 时 间 进 入 cpu_idle( )。 具 体 的 同步 有 下 面 这 么 ub. 
(1) 全 局 量 init_deasserted。 在 do boot cpu( ) 中 ， 主 CPU 在 对 次 CPU 的 APIC 进行 初始 化 前 ， 先 
将 init_deasserted 设 成 0 (586 行 )， 完 成 了 以 后 再 将 这 个 变量 设 成 1 (657 行 )。 次 CPU 受到 
启动 、 通 过 start_secondary( ) 进 入 smp_callin( ) 以 后 ， 就 在 个 while 循 坏 中 等 待 这 个 变量 成 
为 1， 从 而 保证 次 CPU 不 会 在 此 期 间 进 行 对 APIC 的 操作 。 

(2) 全 局 量 位 图 cpu callout map. 7X CPU 在 smp_callin( ) 中 还 此 等 待 这 个 位 图 中 的 对 应 位 变 成 
i( 最 多 等 待 2 秒 )。 主 CPU WIZE do_boot_cpu()# (739 行 ) 将 目标 CPU 的 对 应 位 设 成 1。 
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(3) 全 局 量 位 图 cpu_callin_map。 主 CPU 人 在 do, boot. cpu( ) 中 向 次 CPU 发 出 启动 命令 以 后 ， 就 在 
一 个 定时 的 循环 中 测试 目标 CPU 在 这 个 位 图 中 的 对 应 位 ， 等 待 来 自 目标 CPU 的 回答 (745 一 
749 行 )。 次 CPU 则 在 smp_callin( ) 结 束 之 前 将 位 图 中 的 对 应 位 设置 成 1。 主 CPU 只 有 测试 到 
这 一 位 变 成 1， 或 者 超过 了 预定 的 时 间 ， 才 从 do, boot, cpu( )iK FI. 

(4) 全 局 量 smp_commenced。 所 有 次 CPU 在 进入 cpu_init( ) 之 前 都 要 等 待 这 个 变量 成 为 1， 这 个 
变量 将 使 所 有 的 次 CPU 都 站 到 了 同一 条 起 跑 线 上 。 

函数 smp_callin ( ) 的 代码 在 arch/i386/kernel/smpboot.c 中 ， 


(start secondary( ) > smp_callin( )] 


349 void | init smp callin(void) 


350 { 

351 int cpuid, phys_id; 

352 unsigned long timeout; 

353 

354 /* 

355 * If waken up by an INIT in an 82489DX configuration 

356 * we may get here before an INIT-deassert IPI reaches 
357 * our local APIC. We have to wait for the IPI or we'll 
358 * lock up on an APIC access. 

359 */ 

360 while (latomic read(&init deasserted)); 

361 

362 /* 

363 * (This works even if the APIC is not enabled. ) 

364 */ 

365 phys id = GET APIC ID(apic read(APTC ID)) ; 

366 cpuld = current—^ processor; 

367 if (test and set bit(cpuid, &cpu online map)) { 

368 printk (huh, phys CPU#%d, CPU#H%d already present??\n’, 
369 phys id, cpuid); 

370 BUG( ) ; 

371 } 

372 Dprintk (’CPU#%d (phys TD: %d) waiting for CALLOUT\n”, cpuid, phys id); 
373 

374 /* 

375 * STARTUP IPIs are fragile beasts as they might sometimes 
376 * trigger some glue motherboard logic. Complete APIC bus 
371 * silence for 1 second, this overestimates the time the 
378 * boot CPU is spending to send the up to 2 STARTUP IPIs 
379 * by a factor of two. This should be enough. 

380 */ 

381 

382 /* 

383 * Waiting 2s total for startup (udelay is not yet working) 
384 */ 
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385 timeout = jiffies + 2*HZ; 

386 while (time before(jiffies, timeout)) { 

387 /* 

388 * Has the boot CPU finished it's STARTUP sequence? 
389 */ 

390 if (test bit(cpuid, &cpu_callout_map)) 

391 break; 

392 } 

393 

394 if (!time before(jiffies, timeout)) { 

395 printk("BUG: CPUXd started up but did not get a callout!VWn", 
396 cpuid); 

397 BUG( ) ; 

398 ) 

399 

400 /* 

401 * the boot CPU has finished the init stage and is spinning 
402 * on callin map until we finish. We are free to set up this 
403 * CPU, first the APIC. (this is probably redundant on most 
404 * boards) 

405 */ 

406 

407 Dprintk("CALLIN, before setup local APIC( ). ^); 

408 setup local APIC( ); 

409 

410 sti ); 

411 

412 #ifdef CONFIG MTRR 

413 /* 

414 * Must be done before calibration delay is computed 
415 */ 

416 mirr init secondary cpu ( ); 

417 #endif 

418 /* 

419 * Get our bogomips. 

420 */ 

421 calibrate delay( ); 

422 Dprintk("Stack at about %p\n”, &cpuid) ; 

423 

424 /* 

425 * Save our processor parameters 

426 */ 

427 smp store cpu info(cpuid); 

428 

429 /* 

430 * Allow the master to continue. 

431 */ 

432 set bit(cpuid, &cpu callin map); 
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433 

434 /* 

435 * Synchronize the TSC with the BP 
436 */ 

437 if (cpu has tsc) 

438 synchronize tsc ap( ); 

439  ] 


将 这 段 代码 与 前 面 smp_boot_cpus( ) 开 头 处 的 代码 作 一 比较 ， 就 可 以 看 出 这 时 进行 的 一 些 操作 与 主 
CPU 在 启动 次 CPU 之 前 的 操作 相似 ， 实 际 上 也 是 CPU 初始 化 的 一 部 分 。 这 里 第 421 行 调用 
calibrate_delay( ) 测 试 CPU 的 运算 速度 ， 主 CPU 则 在 初始 化 的 第 二 阶段 在 start. kernel( ) 中 调用 这 个 函 
数 ( 见 第 10 章 )。 这 个 了 通 数 测算 出 CPU 的 “BogoeMIPS” 大 致 上 反映 了 以 “每 秒 百 万 条 指令 ”为 单位 
的 运算 速度 。 有 兴趣 的 读者 不 妨 自 己 读 一 下 。 

至 此 , 次 CPU 已 经 基本 上 上 完成 了 初始 化 ， 所 以 在 432 行 把 全 局 量 cpu_callin_map 中 代表 着 本 CPU 
的 标志 位 设 成 1， 让 主 CPU 知道 。 最 后 ， 如 果 次 CPU 带 有 “时 间 印 记 计数 器 ”TSC 则 还 要 通过 
synchronize_tsc_ap( ) 对 其 TSC 进行 初始 化 。 所 谓 TSC 是 “Time Stamp Count” 的 缩写 ， 这 是 一 个 64 位 
的 计数 器 ， 每 来 一 个 时 钟 脉冲 就 加 ]。 由 于 是 64 位 计数 器 ， 其 数值 十 年 以 内 不 会 重复 ， 所 以 可 以 用 它 
的 值 作为 时 间 印 记 。 

各 个 次 CPU 在 完成 了 smp_callin( ) 的 执行 以 后 ， 就 进入 了 一 个 无 限 循环 ， 等 待 一 个 全 局 量 
smp commenced 变 成 1， 就 好 像 等 待 “ 起 跑 ” 命 令 一 样 ， 要 等 到 了 命令 才 起 跑 进 入 cpu_idle, )。 


回 到 主 CPU 的 运行 中 。 主 CPU 在 934—954 行 的 for 循环 中 启动 了 所 有 的 次 CPU 以 后 ， 最 后 还 有 
几 件 事 要 做 ， 我 们 继续 往 下 看 Carch/i386/kernel/smpboot.c )。 


[start kernel( ) > smp_init( ) > smp boot cpus( )] 


956 /* 
957 * Cleanup possible dangling ends.. 
958 */ 


959 #ifndef CONFIG VISWS 


974 Hendif 

975 

976 /* 

977 * Allow the user to impress friends. 

978 */ 

979 

980 Dprintk (“Before bogomips. W^); 

981 if (!cpucount) { 

982 printk(KERN ERR "Error: only one processor found. m^); 
983 } else { 

984 unsigned long bogosum = 0; 

985 for (cpu = 0; cpu < NR CPUS; cput+) 

986 if (cpu online map & (1<<cpu)) 

987 bogosum += cpu data[cpu]. loops per. jiffy; 
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988 printk(KERN INFO "Total of %d processors activated (blu. %02lu BogoMLPS). W^, 
989 cpucount-*l, 
990 bogosum/ (500000/HZ) , 
991 (bogosum/ (5000/HZ) ) $100) ; 
992 Dprintk('Before bogocount setting activated-1. W^); 
993 ] 
994 smp num cpus = cpucount + 1; 
995 
996 if (smp b stepping) 
997 printk (KERN WARNING 
"WARNING: SMP operation may be unreliable with B stepping processors. M^) ; 
998 Dprintk(^Boot done. W^); 
999 
1000 #ifndef CONFIG VISWS 
1001 /* 
1002 * Here we can be sure that there is an IO-APIC in the system. Let’s 
1003 * go and set it up: 
1004 */ 
1005 if (!skip ioapic setup) 
1006 setup IO APIC( ) ; 
1007 #Hendif 
1008 
1009 /* 
1010 * Set up all local APIC timers in the system: 
1011 */ 
1012 setup APIC clocks( ); 
1013 
1014 /* 
1015 * Synchronize the TSC with the AP 
1016 */ 
1017 if (cpu_has_tsc && cpucount) 
1018 synchronize tsc bp( ); 
1019 
1020 smp done: 
1021 zap low mappings( ); 
1022 } 


首先 是 显示 整个 系统 的 运算 能 力 ， 妈 各 个 CPU 这 算 能 力 的 总 和 。 然 后 通过 setup. IO. APIC( ) 对 外 
部 APIC 进行 初始 化 , 这 个 基数 的 代码 在 archi386WernelNo, apic.c 中 ， 我 们 内 能 把 它 留 给 读 痢 。 接 着 龙 
对 各 内 部 APIC 中 定时 器 ， 即 时 钟 中 断 源 的 设置 ， 读 省 出 经 在 晶 面 看 过 这 个 阴 数 的 代码 。 

最 后 ,, 道 过 zap_low_mappings( ) 把 页 放映 射 日 录 中 低 区 ， 邮 3GB 以 下 的 目录 项 都 清除 掉 。 这 些 日 
aJ tA CPU 由 段 式 映射 向 负 式 映 出 过 渡 而 设置 的 ， 详 见 第 10 章 对 系统 初始 化 第 一 阶段 的 叙述 。 对 
于 单 CPU WRA, E CPU 转 入 了 页 式 映 射 , 这 些 日 录 需 就 可 以 清除 了 。 可 是 在 SMP 结构 的 系统 中 ， 
WW Su Pr RU CPU 都 转 入 页 式 映 射 以 后 才能 清除 。 而 现在 是 时 候 了 。 清 除了 低 区 映射 以 后 
swapper pg dir 中 就 只 剩 下 系统 空间 的 映射 ， 所 以 这 个 页 面 映射 日 录 将 用 于 所 有 的 内 核 线 程 。 同 时 ,这 
个 日 录 也 是 所 有 进程 的 映射 日 录 的 基础 ， 进 程 的 映射 日 录 的 系统 空间 部 分 就 是 从 swapper_pg_dir 复制 
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而 来 。 
当主 CPU 从 smp_boot_cpus( ) 返 回 到 smp init( ) 中 时 , 所 有 的 次 CPU 都 已 启动 而 先后 到 达 同 步 点 ， 
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己 在 等 待 最 后 的 起 跑 命 令 了 。 于 是 , E CPU 通过 smp commence( ) 把 企 局 量 smp_commenced 设置 成 1， 
向 所 有 的 次 CPU 发 出 的 起 跑 命 令 。 这 个 函数 的 代码 在 arch/i386/kernel/smpboot.c FP: 


[start_kernel( ) > smp. init( ) > smp_commence( )] 


164 
165 
166 
167 
168 
169 
170 
171 
172 
173 
174 
175 
176 
177 
178 
179 
180 
181 
182 
183 
184 
185 


/* 

Architecture specific routine called by the kernel just before init is 
fired off. This allows the BP to have everything in order [we hope]. 
At the end of this all the APs will hit the system scheduling and off 
we go. Each AP will load the system gdt's and jump through the kernel 
init into idle( ). At this point the scheduler will one day take over 


and give them jobs to do. smp callin is a standard routine 


* * * 关 X X * 


we use to track CPUs as they power up. 


*/ 


static atomic t smp commenced = ATOMIC INTT(0); 


void | init smp commence (void) 

{ 
/* 
* Lets the callins below out of their loop. 
*/ 


Dprintk ("Setting commenced-l, go go goW); 


wmb( ); 


atomic set(&smp commenced, 1) ; 


这 里 的 wmb( ) 是 个 内 存 写 操作 路 障 。 将 smp. commenced 设 成 1 Wa, TE start. secondary( ) 中 行 命 


的 各 个 次 CPU 就 隆之 结束 了 457 行 的 while 循环 而 进入 cpu idle( )。 表 向 上 这 是 个 浮 数 调用 ， 但 是 实 
bs Ez kem HR [|] I, 因为 epu, idle( ff] FEEDER, 只 此 系统 路 有 就 绕 进 程 在 等 行 执行 ， 
就 调度 其 运行 ,否则 就 使 CPU 进入 硬件 睡眠 状态 ， 直 至 有 中 断 发 生 时 才 恢 复 人 运行。 到 那 时候 ， 既 然 发 
生 了 中 断 ， 就 又 有 机 会 调度 了 。 我 们 在 卜 一 章 中 还 要 问 到 这 个 孙 数 代码 中 。 
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10.1 系统 引导 过 程 概述 


现代 计算 机 系统 的 内 存 都 是 “挥发 性 ”的 : 一 日 关机 断 电 ， 存 储 在 内 存 中 的 信息 、 连 同 操 作 系 统 
本 身 的 映 象 就 丢失 了 。 所 以 ， 必 须 把 操作 系统 (内 核 ) 的 轴 象 存储 在 某 种 不 挥发 的 介质 中 ， 使 得 开机 加 电 
时 有 -个 从 不 挥发 介质 装 入 操作 系统 、 并 转 入 运行 的 映 象 过 程 ， 这 个 过 程 就 称 为 “引导 ”(bootstrap， 
RK boot), 也 称 为 “ 自 举 ”。 这 里 ,所 谓 不 挥发 介质 通常 是 指 硬 磁 盘 或 软盘 , 但 也 可 以 是 EPROM 或 Flash 
存储 器 ， 还 可 以 是 网 络 中 别 的 节点 。 一 般 ， 从 EPROM 或 Flash 存储 上 器 装 入 映 象 是 很 简单 的 ， 因 为 这 些 
存储 器 本 来 就 是 内 存 的 一 部 分 ， 访问 这 些 存 储 器 与 访问 普通 的 内 存 空 间 并 无 不 同 。 相 比 之 下， 从 磁盘 
等 外 部 设备 装 入 操作 系统 映 象 就 复杂 多 了 。 所 以 一 般 说 的 “引导 ”是 指 从 磁盘 上 引导 。 我 们 在 本 节 中 
将 注意 力 集中 侍从 硬 栓 引导 ， 因 为 这 是 最 为 典型 的 ， 男 一 方面 ， 理 解 了 怎样 从 硬 柑 引导 ， 也 就 不 难 理 
解 怎样 从 别 的 介质 引导 了 。 

可 想 而 知 ， 要 在 开机 时 从 不 挥发 介质 装 入 操作 系统 的 映 象 ， 系 统 就 得 要 在 一 开机 时 就 具有 一 定 的 
智能 ， 也 就 是 一 开机 以 后 CPU 就 能 执行 一 段 程序 ， 这 上 段 程序 本 身 必须 存储 人 在 作为 系统 内 存 一 部 分 的 
EPROM, Flash 等 不 挥发 存储 器 中 ， 而 且 必 须知 道 怎样 才能 从 不 挥发 介质 装 入 操作 系统 的 映 象 。 实 际 
上 ， 各 种 CPU 都 设计 成 -加 电 以 后 就 从 某 个 特殊 的 地 址 开始 执行 指令 ， 所 以 这 些 不 挥发 存储 器 就 放 在 
这 个 位 置 上 。 以 i386 CPU AH, WER “AE” (Cese) AA CPU 处 于 实地 址 模式 ， 并 旦 代 但 段 寄存 器 
CS 的 内 容 为 0xffff， 而 取 指 令 指针 (寄存 器 )IP 的 内 容 则 为 0; 也 就 是 说 ， 从 线性 地 址 0xffff0 开始 取 第 
一 条 指令 。 所 以 采用 i386 CPU 的 系统 在 这 个 位 置 上 必须 有 不 挥发 存储 器 。 

那么 ， 这 段 程 序 要 有 多 大 了 呢 ? 这 就 要 看 其 体 的 设计 了 。 在 早期 的 计算 机 中 这 上 段 程序 … 般 都 很 小 ， 
例如 2K 字 节 或 者 更 小 , 其 件 只 有 儿 条 指令 (记得 70 年 代 中 美 建交 后 进入 中 国 的 NOVA 机 ,由 此 而 来 的 
国产 机 名 为 DJS-130， 操 作 系 统 为 RTOS， 引 导 程 序 只 有 13 条 指令 ， 当 时 称 初 始 引导 13 条 ， 亦 称 手 挨 
13 条 。13 条 指令 执行 结果 是 通过 光电 读 入 机 把 存放 在 穿孔 纸 党 上 的 RTOS 执行 码 装 入 内 存 )。 这 是 因 
为 早期 的 EPROM 或 PROM 的 容量 都 很 小 ， 并 卫 其 日 的 和 功能 也 很 单一 。 可 是 ， 这 么 短 的 一段 程序 怎 
么 能 把 操作 系统 的 映 象 从 磁盘 上 读 进 来 呢 ? 我 们 不 妨 这 样 粗 .如 上 灯 要 把 操作 系统 的 映 象 作为 “个 文件 
读 进 来 ， 那 么 这 段 程序 就 要 能 支持 相应 的 文件 系统 ， 还 要 加 上 相应 的 设备 驱动 称 序 。 一 般 而 言 ， 除 十 
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分 简单 的 文件 系统 以 外 ， 这 是 不 现实 的 。 再说， 文件 系统 又 有 许多 种 ， 无 论 如 何 也 不 能 使 一 小 段 程序 
同时 支持 好 几 种 文件 系统 。 所 以 ， 只 能 绕 过 文件 系统 ， 其 全 绕 过 设备 驱 荔 的 般 形式 ， 而 把 操作 系统 
蝶 象 的 谈 入 作为 一 个 特例 处 理 ， 在 设备 驱动 的 底层 解决 问题 。 例 如 ， 比 是 从 一 开始 就 知道 操作 系统 的 
WRB SE TEMES EFF 10 MAEM RT, 这 就 比较 简单 了 。 如果 不 能 肯定 操作 条 统 的 映 象 一 定 是 10 
AAR, WEER 10 个 连续 的 扇 区 ， 那 距 得 在 做 横 上 某 个 固定 的 位 置 (例如 某 -一 个 扇 区 ) 提 供 有 关 
操作 系统 映 象 的 一 些 “地理 ”信息 。 实 际 上 ， 光 是 提供 这 些 “ 地 理 ” 信 息 还 是 不 够 的 ， 因 为 不 同文 件 
系统 所 需要 的 信息 不 同 ， 对 这 些 信息 的 运用 也 不 同 。 例 如 ， 人 在 有 些 文件 系统 中 ， 届 丁 同一 文件 的 所 有 
扇 区 都 连 成 一 条 链 ， 所 以 只 需 提供 文件 中 第 一 个 扇 区 的 位 置 就 行 了 ， 而 有 些 文件 系统 则 要 采用 位 网 的 
AK, RA BRUNI Sh: EA, SPR BUR AT ESE SUSAR. ALT A EE RS A IS I I Sa 
Hed; mp4 CPU 的 指令 系统 也 不 同 ; SERE, SS, Aye. MA, RPI “He” (RU 
Sh, TRE TE TALE A ETA Boe A F BARBERMT APT PE Ath. BAR “m 
HRZ” HRR, BE BI EES, WEP, $eüt— OO 
象 ”， 其 中 既 包 括 了 数据 ， 也 包括 了 运用 这 些 数据 的 程序 。 当 然 ， 那 时 候 还 没有 “对 象 ” 这 么 个 概念 ， 
而 是 很 白 然 地 把 这 个 山区 称 为 “引导 局 区 ”， 通 常 部 是 磁盘 下 的 第 PE. mfi EPROM 中 的 程序 ， 则 
办 为 其 作用 人 在 于 从 磁盘 读 入 引导 局 区 ， 央 页 常常 称 为 初始 引导 程序 。 初 始 引 导 程 序 是 “中 性 ”的 ， 与 
具体 的 拘 作 系统 或 文件 格式 无 关 ， 它 只 是 从 磁盘 EASI TAK, RAWI ST SR SE Boe 
序 的 起 点 ， 使 CPU 转 入 这 段 各 序 。 引 导 扇 区 的 内 容 则 取决 于 具体 的 操作 系统 ， 也 可 能 还 进 一 消 取 次 村 
文件 格式 。 妆 然 ， 引 导 户 区 只 是 一 个 肩 区 ， 则 512 FW, BE AAR ARIS AIR APR, BEL 
常人 还 得 要 由 引导 扇 区 的 程序 先 装 入 其 他 若 十 扇 区 ， 再 由 这 些 房 区 中 的 程序 和 数据 协 阿 完成 整个 引导 过 
程 。 

有 时 候 , 也 可 以 先 通 过 引导 扇 区 读 入 一 个 作为 中 间 步 骤 的 下 其 性 程序 (而 不 是 操作 系统 映 象 )， 常 称 
为 “引导 效 入 程序 ” 再 出 引导 猿 入 程序 装 入 操作 系统 映 象 。 例 如 LILO 就 趾 Linux 的 引导 装 入 程序 。 
从 概念 上 说 引导 装 入 程序 与 EPROM 中 的 初始 引导 程序 并 无 不 同 ， 只 是 体积 更 人 人 ， 荔 能 更 为 复杂 。 例 
如 LILO 就 可 以 让 用 户 从 磁盘 上 的 多 个 (并 及 可 以 是 多 种 ) 操 作 系统 映 象 中 有 选 拌 地 引导 。 另 方面， 由 
十 引导 装 入 程序 的 功能 较 强 ， 也 有 利 二 减 小 对 操作 系统 映 象 在 磁 央 上 存储 位 置 和 方式 的 限制 。 实 际 上 ， 
Be SAKES SOAS, Linux 一 般 者 是 通过 LILO 引导 的 。 

随 着 技术 的 发 展 ， 像 EPROM 一 类 存储 器 件 的 容量 您 米 傅 大， 为 加 强 系统 初始 引导 程序 提供 了 条 
件 ， 所 以 逐 潮 往 里 面 加 入 了 如 “加 电 日 榨 尖 “系统 配置 ”一 类 的 功能 ，( 初 始 的 ) 人 机 交 芋 界面 也 逐渐 得 
到 改善 。 到 Microsoft 为 IBM PC 机 设计 DOS 捉 作 系统 (DOS E “WIRE ASE” OARS IN, EEE 
DOS 的 整个 设备 驱动 层 都 放 在 了 EPROM 中 ， 称 为 “基本 输入 /输出 系统 ”， 即 BIOS。 以 后 ， 这 种 格局 
at BHT Poe. 在 BIOS 中 , 初始 引导 只 是 其 功能 的 “部 分 , 而 且 只 是 很 小 的 部分。 现在 的 BIOS 
甚至 已 经 比 当 初 的 整个 DOS 还 要 人 了 ,， 可 是 册 人 也 不 可 能 把 所 有 操作 系统 的 引导 都 考虑 进去 ， 所 以 还 
是 采用 初始 中 导 程 序 肌 引导 记 区 的 方案 ， 让 各 种 操作 系统 通过 中 导 扇 jx 进一步 提供 其 自身 的 引导 手 段 。 
Hat, 虽然 BIOS 提供 了 对 各 种 主 娄 外 部 设备 的 基本 贱 动 ， 但 是 ， 对 十 冤 进 程 、 多 用 户 、 采 用 保护 模 
式 尤 其 是 页 式 映射 的 操作 系统 却 未 必 合 适 ， 所 以 Linux AP AME BIOS 所 提供 的 设备 驱动 ,而 是 绕 
JF BIOS， 从 硬件 接口 (寄存 器 ) 和 中 渐 响 应 半 始 彻底 地 实现 自 届 的 设备 驱动 层 。 对 丁 Linux Kit, BIOS 
的 作用 只 不 过 就 是 初始 引导 。 如 果 要 说 其 他 还 有 什么 作 几 的 诉 ， 那 就 是 加 电 以 后 的 月 检 以 及 问 内 核 操 
供 在 此 过 程 中 搜集 到 的 HEP ALT CAT AE AL H A A). 

为 一 方面 ， 星 于 个 盘 容量 的 迅速 发 展 ， 实 际 使 用 中 常常 把 MERRI RE T A”, 从 而 把 一 
个 物理 的 硬盘 划分 成 各 下 个 逻辑 磁盘 。 这 样 一 来 ， 每 个 逻辑 磁 由 的 第 一 个 肩 区 仍然 是 中 导 肩 区 ， 分 别 
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HEARE eA RRR ROT). Fik, HE | BS CEA LE SR AS Aa 
WBS XT. PERATURE ELTE BX a Pe ELE, R UL OLEO 
FHARR ME ob, FI BER. (AAR. BIOS 还 是 把 它 当 作 整 个 馈 盘 的 引导 肩 区 ， 加 电 时 还 
是 从 这 个 扇 区 “引导 ”” 所 以 这 个 肩 区 称 为 “证 引 导 记 录 块 (出 区 )”MBR。MBR 小 含有 关于 稚 区 划分 
的 信息 (通过 fdisk 设置 )， 还 有 一 段 简短 的 程序 ， 一 共 512 字 节 。 不 过 ，MBR PB ERO PAIRE ES] SS 
作 系 统 ， 而 是 根据 盘 区 划分 的 信息 从 一 个 预定 的 “活跃 ”逻辑 磁盘 中 读 入 其 引导 扇 区 ， 再 出 这 个 引导 
鹿 区 自己 采取 进一步 的 行动 。 所 以 ， 可 以 把 MBR 的 作用 看 成 是 为 BIOS 中 的 初始 引导 程序 提供 了 一 和 神 
类 似 十 间接 寻 址 的 于 段 。 不 过 ， 也 可 以 把 用 来 “让 导 ”LILO 的 程序 (连同 有 关 盘 区 划分 的 信息 ) 放 在 
MBR 中 ， 使 整个 引导 过 程 少 转 一 道 穹 。 

可 和 起 而 知 ， 引 导 遍 区 中 的 程序 及 其 辅助 程序 (不 包括 LILO) 必 须 是 很 精练 的 ， 所 以 都 采用 让 - 编 语 言 
fit. Lk MOY RESALE arch/ 上 面具 体 CPU 名 下 的 boot 目录 中 。 就 1386 而 言 ， 都 在 arch/i386/boot "P. 
这 个 日 录 路 有 三 个 汇编 语言 的 程序 : 

(1) bootsecLS， 这 是 Linux 引导 记 区 的 源 代 但 ， 汇 编 以 后 不 得 超过 512 宁 节 。 

(2) sctup.S， 这 是 稍 助 程序 的 “部 分 。 

(3) video.S， 这 是 辅助 程序 的 另 部分， 用 十 引导 过 程 中 的 屏幕 显示 。 

在 arch/i386/boot 中 还 有 个 了 日 录 compressed， 含 有 两 个 源 代码 文件 head.S 以 及 misc.c。 版 本 较 新 
的 内 核 映 象 都 是 经 过 诗 缩 的 ， 在 引导 的 过 程 中 要 解压 缁 ， 这 两 个 文件 (还 有 lib/intlate.c) 中 的 代码 就 是 用 
于 解 太 缩 ， 也 属 十 辅 曙 程 序 的 一 部 分 。 这 样 ， 经 过 编译 、 汇 编 、 连 接 以 后 号 形成 下 个 组 成 部 分 ， 凤 引 
GR DX AIRE bootsect、 铺 助 程序 setup LAR AIRGAS GEE vmlinux). 

严格 说 米 ，bootsect 和 setup 并 不 是 内 核 的 一 部 分 ， 它 们 的 代码 又 都 是 用 汗 : 编 语言 编 当 的 ， 篇 幅 很 
大 ， 所 以 我 们 在 这 里 只 作 些 简 短 的 说 明 ， 测 不 深入 到 这 些 代码 中 去 了 ， 有 兴趣 或 需 娄 的 读者 可 以 
己 阅 读 。 这 些 代 码 都 有 比较 好 的 注释 ， 读 起 来 不 会 太 困难 。 

3] S DX (13 arch/i386/booUbootsect.S 的 作者 在 文件 开头 处 的 注 苹 山 , 对 开始 执行 这 段 代码 以 后 的 
过 程 作 了 说 明 : 


1 /* 

2 * bootsect. S Copyright (C) 1991, 1992 Linus Torvalds 

3 * 

4 * modified by Drew Eckhardt 

5 * modified hy Bruce Evans (bde) 

6 * modified by Chris Noe (May 1999) (as86 -> gas) 

7 * 

8 * bootsect is loaded at Ox7c00 by the bios-startup routines, and moves 

9 * itself out of the way to address 0x90000, and jumps there 

10 * 

ll * bde - should not jump blindly, there may be systems with only 512K low 
12 * memory. Use int 0x12 to get the top of memory, ete 

13 * 

14 * it then loads ’ setup’ directly after itself (0x90200), and the system 

15 * at 0x10000, using BJOS interrupts. 

16 * 

17 * NOTE! currently system is at most (8:65536-4096) bytes long. This should 
18 * be no problem, even in the future. I want to keep it simple. This 508 kB 
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19 * kernel sive should be enough, especially as this doesn't contain the 
20 * buffer cache as in minix (and especially now that the kernel is 

21 * compressed :-) 

22 * 

23 * The loader has been made as simple as possible, and continuous 

24 * read errors will result in a unbreakable loop. Reboot by hand. It 

25 * loads pretty fast by getting whole tracks at a time whenever possible. 
26 */ 


读者 大 概 还 十 不 共 了 了 ， 我 们 再 作 一 些 解 释 。 

在 PC 的 系统 结构 中 ,线性 地 址 0xA0000 LA E, EI 640KB 以 上 都 用 于 图 形 接 口上 以 及 BIOS AS, 
而 0xA0000 以 下 的 640KB 为 系统 的 基本 内 存 。 如 果 配 备 更 多 的 内 存 ， 则 从 0x100000, BI 1MB 处 开始 ， 
称 为 “高 内 存 ”. 当 BIOS(BK LILO)“ 引导 ?一 个 系统 时 , 总 是 把 引导 扇 区 读 入 到 基本 内 存 中 地 址 为 0x7c00 
的 地 方 ， 然 后 就 跳 转 到 0x7c00 开始 执行 引导 扇 区 的 代码 。 这 段 代 码 将 其 自身 “搬运 ”到 0x90000 处 ， 
并 日 跳 转 到 那里 继续 执行 ,然后 通过 BIOS 提供 的 读 磁盘 调用 “int 0x13” 从 磁盘 上 读 入 setup 和 内 核 的 
wee. HEF setup 的 映 象 读 入 到 地 址 为 0x90200 的 地 方 ， 就 是 经 过 “搬运 ”后 bootsect 所 在 处 的 上 方 。 
然后 , UL Bl setup 的 代码 中 , 作 好 执行 内 核 映 象 的 准备 , 包括 映 象 的 解压 缩 (如 果 需 要 的 话 ), 从 BIOS 
收集 一 些 数据 , 在 控制 台 | 显示“: 些 信 息 等 等 。 从 0x90000 到 0xA0000 一 共 是 64KB, bootsect 只 点 512 
TH, ALA setup 的 大 小 理论 上 可 达 63.5KB (实际 上 当然 不 会 那么 人 )。 

基本 内 存 中 开头 一 部 分 空间 是 保留 给 BIOS 自己 用 的 , 另 一 方面 对 于 Linux 内 核 的 引导 也 赴 要 保留 
一 些 运行 空间 ， 所 以 共 保 留 了 64KB。 这 样 ， 基 本 内 存 中 剩 上 来 可 用 十 内 核 映 象 的 就 是 8 个 64KB， 
Hi 512KB。 但 起 ， 在 这 512KB 的 顶端 还 要 留 下 4KB 用 于 引导 命令 行 (LILO 支持 引导 命令 行 ) 以 及 一 些 
需要 传递 给 内 核 的 数据 (从 BIOS 收集 得 到 )。 TE, 基本 内 存 中 实际 可 用 于 内 核 映 象 的 空间 就 是 508KB。 
内 核 映 象 一 般 都 是 经 过 频 缩 的 ， 压 缩 以 后 的 内 核 映 象 就 像 是 大 块 数据 ， 跟 引导 扇 区 和 引导 辅 动 程序 
的 映 象 拼 接 在 一 起 ， 成 为 内 核 的 “引导 映 象 光 Ho arch/i386/boot/tools 中 的 build.c 经 编译 /连接 以 后 产 
生 的 可 执行 程序 build， 就 是 用 来 拼接 引导 映 象 的 工具 。 大 小 不 超过 508KB 的 引导 了 映 象 称 为 “小 映 象 ”， 
文件 名 为 z[zmage; 否则 就 称 为 “大 内 核 ” 文件 名 为 bzImage。 由 于 bzImage 在 基本 内 存 中 已 经 装载 不 
下 ， 所 以 要 装载 在 地 址 为 0x100000 (IMB) 的 地 方 。 不 过 ， 不 管 是 zlmage 还 是 bzlmage. ff ERI HALL 
后 的 内 核 映 象 总 起 放 在 地 址 为 0x100000 (IMB) 的 地 方 。 

CPU 在 跳 转 到 bootsect 时 尚 处 于 16 位 实地 址 模式 , 然后 在 setup 的 执行 过 程 中转 入 32 位 保护 模式 
的 段 式 寻 址 方式 。 在 bootsect 和 setup 的 执行 中 ， 二 者 都 利用 BIOS 提供 的 调用 来 完成 些 比 较 大 的 操 
fg. MERA, Xf BIOS 在 加 电 自 检 时 搜集 旬 的 有 关内 存 的 信息 等 等 。 一 旦 转 入 内 核 映 和 象 本 冉 的 执 
行 ， 就 与 BIOS HR. TAHA BIOS 调用 了 。 

辅助 程序 setup 为 内 核 映 象 的 热 行 作 好 了 准备 (包括 解除 压缩 ) 以 后 ， 就 跳 转 到 0x100000 开始 内 核 
本 身 的 执行 ， 此 后 就 是 内 核 的 初始 化 过 程 了 。 内 核 的 初始 化 是 个 非常 漫长 的 过 程 ， 整 个 过 程 可 以 分 成 
三 个 阶段 。 第 一 个 阶段 主要 是 CPU 本 身 的 初始 化 ， 例 如 页 式 映 射 的 建立 ， 第 二 个 阶段 主要 是 系统 中 一 
些 基 础 设施 的 初始 化 ， 例 如 内 存 管理 和 进程 管理 的 建立 和 初始 化 ， 最 后 则 是 “上 层 建筑 ”的 初始 化 ， 
如 根 设备 的 安装 和 外 部 设备 的 初始 化 等 等 。 由 于 整个 过 程 涉及 的 代码 太 大 ， 我 们 相应 地 把 它 分 成 三 节 
加 以 叙述 。 
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10.2 系统 初始 化 (第 一 阶段 ) 


将 Linux 内 核 的 映 象 装 入 内 存 中 ， 并 且 作 好 了 一 些 必 要 的 准备 以 后 ，CPU 就 通过 一 条 长 程 转移 指 
令 转 到 映 象 代码 段 开头 的 入 口 startup_32， 从 那里 开始 执行 。 对 于 SMP 结构 的 系统 ， 这 个 时 候 在 运行 
的 只 是 其 中 的 一 个 处 理 器 ， 就 是 所 谓 “ 主 CPU”( 也 称 “ 引 导 处 理 器 ”BP)， 而 其 他 的 “次 CPU”( 也 
称 “ 应 用 处 理 器 ”AP) 则 处 于 停机 状态 ， 等 待 主 CPU 的 启动 。 次 CPU 在 受到 启动 进入 内 核 时 间 样 也 
要 从 startup. 32 开始 执行 ， 所 以 从 startup_32 开始 的 代码 是 公共 的 。 但 是 有 些 操作 仪 由 主 CPU 执行 ， 
PH - 些 操作 则 仅 由 次 CPU 执行 。 主 CPU 在 进入 startup_32 时 其 寄存 器 %bx 的 内 容 为 0， 作 次 CPU 
在 进入 startup_32 时 其 寄存 器 %bx 的 内 容 为 1， 在 执行 的 过 程 中 就 据 此 区 分 执行 者 (CPU) 在 系统 中 扮演 
的 角色 。 不 过 ， 这 里 要 着 重 指出 ， 这 里 的 代码 虽然 是 公共 的 ， 但 是 并 不 意味 着 主 CPU 和 次 CPU 有 可 
能 并 发 地 执行 这 段 程序 。 实 际 上 , Xx CPU 是 开路 先锋 ， 它 首先 执行 这 段 程序 ,“ 着 山 开 路 , TAKA”, 
完成 以 后 才 逐 个 地 启动 次 CPU 执行 ， 并 且 等 待 其 完成 。 所 以 ， 在 同一 时 间 中 ， 系 统 中 最 多 只 有 一 个 处 
理 器 在 执行 这 段 程序 。 

内 核 映 象 的 起 点 是 stext, 也 是 _stext, 引导 和 解压 缩 以 后 的 整个 映 象 放 在 内 存 中 从 0x100000 即 IMB 
开始 的 区 间 。CPU 执行 内 核 映 象 的 入 口 startup_32 就 在 内 核 映 象 开 头 的 地 方 ， 因 此 其 物理 地 址 也 是 
0x100000。 然 而 ， 读 者 在 第 2 章 中 曾 看 到 ， 在 正常 运行 时 整个 内 核 映 象 都 应 该 在 系统 空间 中 ， 系 统 空 
间 的 地 址 映射 是 线性 的 ,连续 的 , 虚拟 地 址 与 物理 地 址 间 有 个 固定 的 位 移 , 这 就 是 0xC0000000, BY 3GB。 
所 以 ， 在 连接 内 核 映 象 时 已 经 在 所 有 的 符号 地 址 上 加 了 一 个 偏 移 量 0xC0000000， 这 样 startup_32 KYE 
拟 地 址 就 成 了 0xC0100000。 

不 管 是 主 CPU 还 是 次 CPU， 进 入 startup_32 时 都 运行 于 保护 模式 下 的 段 式 寻 址 方式 。 段 描述 表 中 
与 ”KERNEL_CS 8l, KERNEL, DS 相对 应 的 描述 项 所 提供 的 基地 址 都 是 0, 所 以 实际 产生 的 就 是 第 2 
章 中 讲 过 的 “线性 地 址 ”。 其 中 代码 段 寄 存 器 CS 已 在 进入 startup_32 ZA EX | KERNEL CS. 2% 
据 段 寄存 器 则 尚未 设置 成 KERNEL_DS。 不过， 虽然 代码 段 寡 存 器 已 经 设置 成 KERNEL CS. Mii 
startup_32 的 地 址 为 0xC0100000。 但 是 在 转 入 这 个 入 口 时 使 用 的 指令 是 “ljmp 0x100000” 而 不 起 “ljmp 
startup_32”， 所 以 装 入 CPU 中 寄存 器 IP 的 地 址 是 物理 地 址 0x100000 而 不 是 虚拟 地 址 0xC0100000。 这 
样 ，CPU 在 进入 startup_32 以 后 就 会 继续 以 物理 地 址 取 指 令 。 只 要 不 在 代码 段 中 引用 某 个 地 址 ， 例 如 
向 某 个 地 址 作 绝对 转移 , 或 者 调用 某 个 子 程序 , 就 可 以 - 直 这 样 运 行 下 去 ,而 与 CS 的 内 容 无 关 。 此 外 ， 
CPU 的 中 断 已 在 进入 startup_32 之 前 关闭 。 

从 startup_32 开始 的 汇编 代码 在 arch/i386/kerneVhead.S 中 ， 这 就 是 初始 化 的 第 一 阶段 。 


[startup 32€ )] 


39 /* 

40 * swapper pg dir is the main page directory, address 0x00101000 
41 * 

42 * On entry, %esi points to the real-mode code as a 32-bit pointer. 
43 */ 


44 ENTRY (stext) 
45 ENTRY (_stext) 
46 startup 32: 
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47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
72 
73 
74 


75 
76 
77 
78 
79 
80 
81 
82 
83 
84 
85 
86 
87 
88 
89 
90 
91 
92 
93 
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Linux PHA SEAT CP AD 
/* 


* Set segments to known values 
*/ 
cld 
movl $( KERNEL DS), %eax 
movl %eax, ds 
movl %eax, %es 
movl %eax, %fs 
moy] %eax, gs 
#ifdet CONFIG SMP 
orw %bx, %bx 
jz 1f 


UM 
* 


New page tables may be in 4Mbyte page mode and may 
be using the global pages. 


NOTE! If we are on a 486 we may have no cr4 at all! 
So we do not try to touch it unless we really have 
some bits in it to set. This won t work if the BSP 
implements cr4 but this AP does not -- very unlikely 
but be warned! The same applies to the pse feature 
if not equally supported. —-macro 


NOTE! We have to correct for the fact that we're 
not yet offset PAGE OFFSET.. 


X X X X X X X X X X X X 


*/ 
Hdefine cr4 bits mmu cr4 features- PAGE OFFSET 
cmpl $0,cr4 bits 
je 3f 
movl %cr4, %eax # Turn on paging options (PSE, PAE,..) 
orl cr4 hits, %eax 
movl %eax, %cr4 


jmp 3f 
1: 
Hendif 
/* 
* Initialize page tables 
*/ 
movl $pg0- PAGE OFFSET, %edi /* initialize page tables */ 
movl $007, %eax /* “007” doesn't mean with right to kill, but 
PRESENT+RW+USER */ 
2: stosl 


add $0x1000, %eax 
cmp $empty zero page- | PAGE OFFSET, %edi 
jne 2b 
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首先 将 CPU PIR CS 以 外 所 有 的 段 寄 存 器 , 即 %ds、%es、%fs UE gs, 部 设置 成 KERNEL DS, 
读者 在 第 2 章 中 看 到 过 这 个 数值 是 0x18, 表示 采用 全 局 段 描述 表 GDT 中 下 标 为 3 的 段 描 述 项 , Mi RPL 
则 为 G6。 引导 辅助 程序 在 转 入 startup 32 之 前 准备 下 了 个 临时 的 全 局 段 描 述 表 ， 表 中 相应 的 描述 项 给 
出 基地 址 为 0， 也 就 是 使 用 线性 地 十。 

不 管 是 主 CPU MEK CPU, 在 Linux 内 核 小 都 此 进入 页 式 映 射 模式 运行 。 暂 时 以 物 埋 地 址 取 指 令 
虽然 是 可 以 的 ， 但 是 不 能 在 代码 中 向 符号 地 址 作 绝 对 转移 或 调用 子 程序 ， 因 此 终 间 长久 之 计 ， 所 以 ， 
要 尽快 准备 好 页 面 映射 表 并 开启 CPU 的 页 面 映射 机 制 。 代 码 中 的 86 一 92 行将 从 pgo 开始 直到 
empty zero page 之 间 的 8K 宁 节 设置 成 一 个 临时 的 页 面 映射 表 。 这 个 页 面 表 在 内 存 中 ， 是 由 所 有 CPU 
公用 的 ， 所 以 只 由 证 CPU 进行 初始 化 ， 次 CPU 则 要 跳 过 这 小段 代码 ( 见 57—58 行 以 及 76 和 80 FT). 
此 外 ， 对 十 次 CPU 这 里 还 有 个 小 插曲 ， 炒 就 是 如 果 系 统 支 持 PSE/PAE， 即 36 位 地 址 模式 的 话 还 要 相 
应 地 设置 其 控制 寄存 器 Wcr4 〈77 一 79 行 )。 


399 /* 

400 * The page tables are initialized to only 8MB here - the final page 
401 * tables are set up later depending on memory size. 

402 */ 


403 .org 0x2000 
404 ENTRY (pg0) 
405 

406 .org 0x3000 
407  ENTRY(pgl) 


408 

409 /* 

410 * empty zero page must immediately follow the page tables ! (The 
411 * initialization loop counts until empty zero page) 

412 */ 

413 


414 .org 0x4000 
415 ENTRY(empty zero page) 


^i 3X — PAGE OFFSET 24 A St "supp dE TOR hb 5; wy E Mb hb |] ho SB Gg X T 
include/asm-i386/page.h: 


81 Hdefine | PAGE OFFSET (0xC0000000) 


可 见 ，pg0 在 地 址 (相对 于 程序 的 起 点 ， 风 下面 ) 为 0x2000 的 地 方 。 这 个 页 而 映射 表 中 的 表 项 依次 
设置 为 0x7、0x1007、0x2007 等 等 。 其 中 最 低 的 一 位 均 为 1， 表 相 页 徊 为 用 户 页 和 面 ， 可 写 ， 并 且 页 而 的 
内 容 在 内 存 中 (参阅 第 2 章 )。 忠 射 的 目标 ， 即 物理 页 面 的 基地 址 ， 则 分 别 为 0x0、0x1000、0x2000 等 等， 
也 就 是 物 埋 内 存 中 的 页 而 0、1、2 等 等 。 映 射 表 的 大 小 是 两 个 页 面 ， 即 2K 个 表 项 ， 所 以 代表 着 一 块 
8MB 的 存储 空间 ， 这 就 十 Linux 内 核对 内 存 大 小 的 最 低 限度 要 求 。 

AMA, Ai A ae ERLE? 


383 /** 
384 * This is initialized to create an identity-mapping at 0-8M (for bootup 
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385 * purposes) and another mapping of the 0-8M area at virtual address 
386 * PAGE OFFSET. 
387 */ 


388 .org 0x1000 
389 ENTRY (swapper. pg. dir) 


390 . long 0x00102007 

391 . long 0x00103007 

392 .fill BOOT USER PGD PTRS-2, 4,0 
393 /* default: 766 entries */ 

394 . long 0x00102007 

395 . long 0x00103007 

396 /* default: 254 entries */ 

397 .fill BOOT KERNEL PGD PTRS-2, 4,0 


这 里 的 392 行 利用 汇编 语言 提供 的 功能 在 其 所 在 的 位 置 上 填 入 766 个 日 录 项 ， 每 个 目录 项 的 大 小 
为 4 个 字 节 ， 内 容 为 0。 同 样 ，397 行 也 填 入 254 个 这 样 的 目录 项 。 这 里 引用 的 几 个 常数 均 定 义 丁 
include/asm-i386/pgtable.b: 


126 #define TWOLEVEL PGDIR SHIFT 22 
127 #define BOOT USER PGD PTRS (. PAGE OFFSET >> TWOLEVEL PGDTR SIIPT) 
128 #define BOOT KERNEL PGD PTRS (1024-BOOT USER PGD PTRS) 


回顾 一 下 第 2 BAAR, XX BY HW — PAGE OFFSET 是 0xC0000000 ， 所 以 
BOOT USER PGD PTRS Jj 768, Tfi BOOT. KERNEL PGD PTRS Wy 256. —-4- Vi iB] HRA ACD AE 
4KB, RH 1004 个 目录 项 ， 共 代表 着 4GB 的 虚 存 空间 。Linux 内 核 以 3GB 为 界 把 整个 虚 存 空间 分 成 
用 户 空间 和 系统 空间 两 部 分 。 所 以 ， 页 而 日 录 中 的 低 768 个 目录 项 用 十 用 户 空间 的 映射 ， 而 高 256 个 
目录 项 用 寺 系 统 空 间 的 映射 。 在 初始 的 页 面 日 录 swapper pg dir 中 ， 用 户 空间 和 系统 空间 都 只 映射 了 
开头 的 两 个 目录 项 〈390~391 行 以 及 394—395 行 )， 即 8MB 的 空间 ， 而 且 有 着 相同 的 映射 ， 即 指 问 
相同 的 页 面 映 射 胡 。 这 样 ， 以 符号 地 址 empty zero page 为 例 ， 在 连接 内 核 映 和 象 时 这 个 地 址 显然 是 安排 
在 0xC0000000 以 上 的 空间 ， 而 物理 上 却 是 装 入 在 (empty_zero_page 一 0xC0000000) 的 地 址 上 。 所 以 ， 若 
在 未 开启 页 式 映 射 之 前 要 引用 这 个 符号 ， 就 要 从 中 减 去 位移 量 PAGE OFFSET CIL 86 行 和 91 47). 
Wit, 一 旦 开房 页 式 映射 以 后 ,再 划 引 用 这 个 符号 时 就 可 以 (而 H 应 该 ) 直 接 引 用 了 。 再 来 看 目录 项 的 内 
容 ， 以 394 行为 例 ， 这 个 目录 项 指向 物理 地 址 0x00102000， 这 是 在 IMB 以 上 的 区 间 中 ， 实 际 上 就 是 
pgo 的 物理 地 址 。 前面 403 和 404 行 指定 pgo 的 起 点 地 址 为 0x2000, 那 是 假定 整个 内 核 映 象 是 从 地 址 0 
开始 时 的 起 点 ， 而 现在 内 核 映 象 放 在 从 地 址 0x00100000 开始 的 地 方 ，pg0 的 起 点 也 就 相应 地 变 成 了 
0x00102000。 

那么 ， 为 什么 在 虚 存 空间 的 低 区 ， 即 本 来 应 该 属于 用 户 空间 的 位 置 上 (390~391 行 ) 也 要 放 上 同样 
BE sene? 简 而 音 之 是 为 了 平稳 过 滤 。 如 上 所 述 ，CPU 进入 startup_32( ) 以 后 是 以 物理 地 址 来 取 指 令 
的 。 在 这 种 情况 上 ， 如 果 有 映射 目录 只 包括 系统 空间 ， 即 虚 存 空间 商 区 的 映射 ， 而 不 包括 虚 存 学 间 低 区 
的 映射 ， 则 一 旦 开启 页 式 映 射 以 后 就 不 能 继续 执行 了 ， 因 为 此 时 CPU 中 的 取 指 令 指 针 IP 仍 指 向 低 区 ， 
仍 会 以 物理 地 址 取 指 令 ， 直 到 以 某 个 符号 地 址 为 目标 作 绝对 转移 或 调用 子 程序 时 为 止 。 所 以 ， 解 决 的 
办 法 是 分 两 步 走 : 

(1) 先 开启 页 式 映射 , 但 是 在 虚 存 空间 的 低 区 暂时 提供 与 高 区 相同 的 喘 射 , 使 CPU 可 以 继续 执行 。 
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(2) 在 开启 了 页 式 映射 之 后 ， 以 一 个 符号 地 址 为 日 标 执 行 一 条 绝对 转移 指令 。 如 前 所 述 ， 由 符号 
所 代表 的 地 址 是 系统 空间 的 虚拟 地 址 。CPU 在 执行 绝对 转移 指令 时 把 这 个 虚拟 地 址 装 入 IP， 从 此 就 改 
成 以 虚拟 地 址 在 系统 空间 取 指 令 了 。 

CPU 转 入 系统 空间 以 后 ,应 该 把 低 区 的 映射 清除 ,后 面 读 者 将 会 看 到 ,页面 映射 日 录 swapper. pg. dir 
经 过 扩充 以 后 就 成 为 所 有 内 核 线程 的 页 面 映射 月 录 。 在 内 核 线 程 的 正常 运行 中 ， 处 于 系统 状态 的 CPU 
是 不 应 该 通过 用 户 罕 间 的 虚拟 地 址 访问 内 存 的 。 清 除了 低 区 的 映射 以 后 ， 如 果 发 生 CPU 在 内 核 中 通过 
用 户 空间 的 虚拟 地 址 访问 内 存 ， 就 可 以 因为 产生 页 面 异 常 而 抓 住 这 个 错误 。 


页 面 映射 表 pg] 


映射 范围 4—8 MB 











共 1024 个 页 面 映射 至 2048 个 
物 运 内 存 页 面 ， 
25 ELM RA 物理 地 址 0 一 8MB 
0xc0000000 上 一- 一 -一 ree 虚拟 地 址 X 5 
页 
页 面 映射 表 pg0 0xC0000000--X 
被 映射 至 同一 
766 项 空白 跨 射 范围 0-4MB 物理 地 址 x 


jt 1024 个 页 面 


0x0 






EE 目录 
nox 





页 面 映 射 表 


图 10.1 初始 化 第 一 阶段 的 页 面 映射 


在 开启 页 式 映射 完 成 名 系统 空间 过 渡 之 前 ， 如 果 必 须要 作 绝 对 转移 或 系统 调用 ， 就 得 在 目标 地 址 
上 减 去 位 移 量 _ PAGE_OFFSET， 即 0xC0000000。 就 凭 这 一 点 ， 向 页 式 上 映射 和 系统 空间 的 过 渡 就 袜 早 
不 宜 迟 。 所 以 ， 现 在 是 开启 页 面 映 射 机 制 的 时 候 了 。 注 意 下 面 又 是 主 CPU CPU 共用 的 代码 了 。 
页 面 映射 是 CPU 内 部 的 功能 ， 每 个 CPU MTT RH AC UN DL, JS EAL ES RAN Fe 
和 页 面 映射 表 是 相同 的 。 


[startup 32( )] 


94 /* 

95 * Enable paging 

96 */ 

97 d: 

98 movl $swapper pg dir- PAGE OFFSET, *eax 

99 mov] *eax, %cr3 /* set the page table pointer.. */ 
100 movl %cr0, %eax 
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101 orl $0x80000000, %eax 

102 movl *eax, Scr /* ..and set paging (PG) bit &/ 
103 jmp 1f /* flush the prefetch-queue */ 

104 1: 

105 movl $1f, %eax 

106 jmp *%eax /* make sure eip is relocated */ 
107 1: 

108 /* Set up the stack pointer */ 

109 lss stack start, %esp 

110 


KE UT A Se TEL HH ae Pe rel dg 163890013. FFE Scr 中 的 最 高 位 设置 成 1， 就 开启 了 CPU 的 页 面 映 
ALG. APSHA Fe ocr 的 地 址 必须 是 页 面目 录 的 物理 地 址 ， 所 以 要 从 虚拟 地 址 swapper_pg_dir 
中 减 去 储 移 量 ， 把 它 还 原 为 物理 地 址 。 

开启 质 面 映射 机 制 以 后 立即 就 有 条 相对 转移 指令 (103 一 104 行 )， 从 逻辑 上 说 这 条 指令 不 起 什么 作 
用 ， 但 是 它 起 到 了 丢弃 已 经 在 CPU 的 取 指 令 流 水 线 中 内 容 的 作用 ， 这 是 Intel 在 1386 的 技术 资料 中 建 
议 的 。 由 十 跳 转 的 目标 离 得 很 近 ，103 行 的 jmp 指令 是 条 相对 转移 指令 ， 只 是 在 IP 的 当前 值 上 加 了 > 
个 不 大 的 位 移 ，CPU 仍旧 以 物理 地 址 取 指 令 而 并 没有 转 入 系统 空间 ， 所 以 至 104 行为 止 只 是 完成 了 上 | 
述 的 第 一 步 。 但 是 ， 从 此 开始 ， 遂 过 数据 段 引 用 符号 地 址 时 就 个 需要 从 中 减 去 偶 移 量 _PAGE_OFFSET 
了 。 紧 接着 的 另 一 条 转移 指令 (106 行 ) 就 不 同 了 ，105 行 把 月 标 地 址 置 入 %eax 时 是 通过 数据 段 引 用 这 个 
符号 的 ， 所 以 这 个 地 址 在 系统 空间 中 ， 然 后 以 %eax 中 的 这 个 地 址 为 日 标 执行 jmp 指令 ， 就 使 CPU 转 
入 了 系统 空间 ， 完 成 了 绅 种 模式 间 的 平稳 过 渡 。 

本 来 ， 现 在 可 以 清除 页 面 映 射 目 录 低 区 的 那些 月 录 项 了 ， 癌 是 ， 考 虑 到 次 CPU 将 来 也 要 有 这 人 么 个 
过 渡 的 过 程 ， 所 以 还 得 暂时 保留 着 ， 到 系统 中 所 有 的 CPU 都 完成 了 过 渡 才 米 清 除 。 

代码 中 的 109 行将 CPU 的 堆栈 设置 在 stack_start 处 。 


330 ENTRY (stack start) 
331 .long SYMBOL NAME(init task union) +8192 
332 .long | KERNEL DS 


这 里 的 init task union 是 个 union， 其 类 型 定义 十 include/linux/sched.h: 


480 #ifndef INIT TASK SIZE 
481 # define INIT TASK SIZE 2048*sizeof (long) 


482 Hendif 

483 

484 union task union | 

485 struct task struct task; 

486 unsigned long stack[INIT TASK SLZE/sizeof (long)]; 
487 Hh; 


也 就 是 说 ， 既 可 以 把 task union @AK- ^h task struct 结构 ， 也 可 以 把 它 看 成 一 个 数组 ， 数 组 的 大 小 
是 8K 字 节 ， 即 两 个 页 面 。 读 者 在 第 4 章 中 看 到 ， 每 个 进程 的 task. struct 数据 结构 和 系统 空 闻 堆 栈 共 占 
PA Wii. FAE task struct 结构 ， 上 部 是 系统 空间 堆栈 。 可 想 击 知 ， 这 里 是 在 为 创建 系统 中 的 第 一 
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个 进程 进行 准备 ， 而 具体 的 数据 结构 init_task_union 则 定义 于 arch/i386/kernel/init_task.c: 


15 /* 

16 * Initial task structure. 

17 * 

18 * We need to make sure that this is 8192-byte aligned due to the 
19 * way process stacks are handled. This is done by having a special 
20 * "init task/ linker map entry.. 

21 */ 

22 union task union init task union 

33 J attribute | ((, section__(”. data. init task^))) = 

24 ( INIT TASK(init task union. task) }; 


数据 结构 的 内 容 由 宏 定义 INIT_TASK( ) 决 定 ， 其 代码 在 include/linux/sched.h P: 


434 /* 

435 * INIT TASK is used to set up the first task table, touch at 
436 * your own risk!. Base-0, limit=Oxlfffff (-2MB) 

437 */ 

438  #define INIT TASK(tsk) V 

439 f \ 

440 state: 0, \ 

441 flags: 0, i 

442 sigpending: 0, \ 

443 addr limit: KERNEL_DS, \ 

444 exec_domain: &default_exec domain, \ 

445 lock depth: -1, \ 

446 counter: DEF_COUNTER, \ 

447 nice: DEF NICE, \ 

448 policy: SCHED_OTHER, \ 

449 mm: NULL, \ 

450 active mm: &init mm, \ 

451 cpus_allowed: zl N 

452 run list: LIST HEAD INIT(tsk. run list), \ 
453 next_task: &tsk, X 

454 prev task: &tsk, \ 

455 p_opptr: &tsk, \ 

456 p pptr: &tsk, N 

457 thread group: LIST HEAD INIT (tsk. thread group), \ 
458 wait chldexit:V __ WAIT _QUEUE_HEAD_TNITIALIZER (tsk. wait_chldexit), \ 
459 real_timer: { X 

460 function: it real fn \ 

461 p N 

462 cap effective: CAP TNIT EFF SET, \ 

463 cap inheritable: CAP INIT INH SET, \ 

464 cap permitted: CAP FULL SET, \ 

465 keep capabilities: 0, N 
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466 rlim: INIT RLIMITS, \ 

467 user: INIT_USER, \ 

468 comm: ” swapper”, \ 

469 thread: INIT. THREAD, \ 

470 fs: &init fs, \ 

471 files: &init files, \ 

472 sigmask lock: SPIN_LOCK_UNLOCKED, \ 
473 sig: &init_signals, \ 

474 pending: { NULL, &tsk. pending. head, {{0}}}, \ 
475 blocked: {{0}}, \ 

476 alloc_lock: SPIN_LOCK_UNLOCKED \ 

477 } 


这 个 进程 的 thread 结构 定义 为 全 0: 


379 Hdefine INIT THREAD | \ 

380 0, \ 

381 6, 0, 0, 0, \ 

382 { [0... 7] =0 }, /* debugging registers */ 
383 0, 0, 0 X 

384 { hs /* 387 state */ \ 
385 0 0, 0, \ 

386 0 /* io permissions */ \ 
387  ] 


显然 ， 这 个 进程 的 名 称 是 “swapper”。 代 码 的 作者 在 注释 中 警告 不 要 轻易 改变 它 的 内 容 。 读 者 还 
蓝 注 意 ， 不 要 把 这 个 进程 与 后 面 讲 到 的 init 进程 相 混 请 。 

读者 也 许 要 问 ， 上 面 98 一 109 行 这 段 代 码 是 共同 的 ， 如 果 主 CPU 和 次 CPU 都 把 系统 空间 堆栈 设 
置 在 同一 个 地 方 ， 难 道 就 不 会 引起 冲突 吗 ? 不 会 ， 这 两 个 页 面 的 使 用 只 是 暂时 的 ， 在 同 .时间 中 只 可 
能 有 一 个 CPU 在 使 用 ， 而 且 用 完了 就 不 会 再 回来 ， 所 以 不 会 造成 问题 。 读 者 在 后 面 就 会 看 到 ， 次 CPU 
在 经 由 initialize secondary( ) 进 入 start_secondary( ) 的 途中 会 将 其 系统 空间 堆栈 (从 而 其 task_struct 结构 ) 
更 换 到 由 主 CPU 为 之 准备 好 的 地 方 。 


[startup 32( )] 
111 #ifdef CONFIG SMP 
112 orw %bx, %bx 
113 jz 1f /* Initial CPU cleans BSS */ 
114 pushl $0 
115 popf 1 
116 jmp checkCPUtype 
117 1: 
118 #endif CONFIG SMP 
119 
120 /* 
121 * Clear BSS first so that there are no surprises... 
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”一 


122 x No need to cld as DF is already clear from cld above.. 
123 */ 

124 xorl %eax, %eax 

125 movl $ SYMBOL NAME(  bss start), %edi 

126 movl $ SYMBOL NAME( end), %ecx 

127 subl %edi, %ecx 

128 rep 

129 stosb 

130 

131 /* 

132 * start system 32-bit setup. We necd to re-do some of the things done 
133 * in 16-bit mode for the "real" operations. 

134 */ 

135 call setup_idt 


对 于 次 CPU， 只 是 在 这 里 的 114~116 行 将 其 “标志 寄存 器 ”设置 成 0， 接 着 就 转 到 十 面 的 标号 
checkCPUtype 处 了 。 而 主 CPU 则 担任 着 开路 先锋 的 角色 ， 需 要 作 更 大 的 贡献 。 

第 - - 件 事 是 初始 化 内 核 的 bss 段 。 内 核 的 映 象 也 跟 其 他 的 可 执行 程序 - 样 有 个 bss 段 ，bss 段 中 是 
_ 此 全 局 变量 或 者 静态 (static) 变 量 ， 需 上 要 在 开始 运行 程序 的 主体 之 前 将 这 个 区 问 全 部 清 0。 这 里 的 124 一 
129 行 把 从 _bss_start 开始 到 _end 为 目的 bss 段 全 部 清 0。 顺便 提 一 下 ， 像 .__bss_start、_end 这 些 符号 
的 值 是 由 gcc 在 编译 和 连接 时 白 动 生成 的 。 

第 二 件 事 是 通过 setup_idt() 设 置 初 始 状 态 的 中 断 向 基 表 ， 或 马 中 断 描述 表 。 读 者 在 第 3 章 中 已 经 看 
到 ， 每 个 表 项 的 大 小 是 8 个 字 节 ， 共 有 256 个 表 项 。 函 数 setup_idt( ) 的 代码 在 同一 个 文件 中 。 


[startup. 32( ) > setup. idt( )] 


304 /* 

305 * setup idt 

306 * 

307 * sets up a idt with 256 entries pointing to 

308 * ignore int, interrupt gates. It doesn’ t actually load 

309 * idt ~ that can be done only after paging has been enabled 
310 * and the kernel moved to PAGE OFFSET. Interrupts 

311 * are enabled elsewhere, when we can be relatively 

312 * sure everything is ok. 

313 */ 

314 setup_idt: 

315 lea ignore int, %edx 

316 movl $(.. KERNEL CS << 16), %eax 

317 movw %dx, ax /* selector = 0x0010 = cs */ 

318 movw $0x8E00, %dx /* interrupt gate — dpl=0, present */ 
319 

320 lea SYMBOL NAME (idt, table), %edi 

321 mov $256, %ecx 

322 rp_sidt: 

323 movl %eax, (%edi) 
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324 movl %edx, 4 (%edi) 
325 addl $8, %edi 

326 dec %ecx 

327 jne rp_sidt 

328 ret 


初始 状态 的 256 个 中 断 描 述 项 全 都 相同 ， 部 指向 同 “个 中 断 响应 程序 ignore int( )。 代 而 的 315— 
318 行 在 寄存 器 %edx 和 peax 中 构筑 起 一 个 中 断 门 的 映 象 ,然后 就 通过 -个 循环 将 相同 的 内 容 写 入 从 
idt table 开始 的 256 个 表 项 中 。 读 者 不 妨 结合 第 3 帝 中 的 有 关内 容 搞 清楚 : 这 些 表 项 的 函数 指针 指向 
ignore_int( )， 而 了 标志 位 为 1( 表 示 让 内 存 中 )，DPL 为 0( 级 别 最 高 )，D 标志 位 为 1(32 位 )， 类 者 码 为 
110( 中 晰 门 )， 合 在 一 起 就 是 0x8e00。 此 外 ， 读 者 在 第 3 章 中 已 经 看 到 ， 这 些 表 项 的 内 容 以 后 可 以 通过 
set_trap_gate( )、set_system_gate( ) 等 铺 数 加 以 改变 。 中 断 响应 程序 ignore_int( ) 的 代码 也 在 同 文件 中 。 


337 ALIGN 

338 ignore int: 

339 cld 

340 pushl %eax 

341 pushl %ecx 

342 pushl %edx 

343 pushl %es 

344 pushl %ds 

345 movl $( KERNEL DS), %eax 
346 movl %eax, %ds 

347 movl %eax, %es 

348 pushl $int msg 

349 call SYMBOL NAME (printk) 
350 popl %eax 

351 popl %ds 

352 popl %es 

353 popl %edx 

354 popl *ecx 

355 popl %eax 

356 iret 


334 /* This is the default interrupt “handler” :-) x/ 
335 int msg: 
336 .asciz "Unknown interrupt An^ 


就 万 说 ， 如 果 发 生 中 断 就 通过 printk( EBORE Eus 一行 出 错 信息 。 在 初始 化 期 间 ，printk( ER 


REM AME, 而 在 系统 转 入 正式 运行 以 后 则 ” 般 部 是 将 信息 写 入 系统 的 运行 日 志 /varymessages。 ET 
中 断 描 述 表 idt table[ ]， 则 是 在 arch/i386/kernel/traps.c 中 定义 的 全 局 量 。 


58 /* 

59 * The IDT has to be page-aligned to simplify the Pentium 
60 * FO OF bug workaround.. We have a special link segment 
61 * for this. 
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*/ 
struct desc struct idt table[256] 
. attribute (( section (".data.idt^))) = { 10, 0], }; 


Aib, XX ROG AE BP NL E TEMES, PASTE PTI VEI] EE "p SHORE 


寄存 器 ”IDTR， 也 没有 打开 中 斯 。 


第 三 件 事 与 引导 命令 行 和 参数 有 关 。 如 前 所 述 ，LILO 允许 在 引导 时 使 用 命令 行 ， 首 将 其 传递 给 内 


核 ， 而 setup 则 从 BIOS 收集 一 些 数 据 ， 作 为 “引导 参数 ”一 起 传递 给 引导 进来 的 内 核 。 这 些 数 据 合 在 
一 起 占据 不 超过 一 个 页 面 的 空间 ， 只 是 在 初始 化 期 间 才 用 到 。 内 核 中 本 来 有 个 内 容 为 全 0 的 页 面 
empty_zero_page， 代 码 中 常常 通过 宏 定 义 ZERO, PAGE 引 几 的 就 是 这 个 贞 面 。 不 过 ， 这 个 页 面 要 到 初 
始 化 完成 、 系 统 转 入 正常 运行 时 才 会 用 到 ， 现 在 不 妨 先 利用 一 下 ， 所 以 把 命令 行 和 引导 参数 部 复制 到 
这 个 页 面 中 。 这 样 ， 这 些 数 据 原 米 占 据 的 页 面 就 腾 了 出 来 ， 可 以 回收 了 (而 empty_zero_page iE Ae A^ 
能 回收 的 )。 


[startup_32( )] 


136 
137 
138 
139 
140 
141 
142 
143 
144 
145 
146 
147 
148 
149 
150 
151 
152 
153 
154 
155 
156 
157 
158 
159 
160 
161 
162 
163 
164 
165 


/* 
* Initialize eflags. Some BIOS's leave bits like NT set. This would 
* confuse the debugger if this code is traced 
* XXX - best to initialize before switching to protected mode 
*/ 
pushl $0 
popfl 
/* 
* Copy bootup parameters out of the way. First 2kB of 
* empty zero page is for boot parameters, second 2kB 
* js for the command line. 
* 
* Note: *esi still has the pointer to the real-mode data. 
*/ 
mov] $ SYMBOL NAME(empty zero pago), %edi 
movl $512, %ecx 
eld 
rep 
movsl 
xorl %cax, %eax 
movl $512, %cecx 
rep 
stosl 
movl SYMBOL NAME (empty. zero page) +NEW_CL_POLNTER, %esi 
andl %esi, %esi 


jnz 2f # New command line protocol 
cmpw $(OLD CL MAGIC), OLD CL. MAGIC ADDR 
jne 1f 


movzwl OLD CL OFFSET, %esi 
addl $ (OLD CL BASE ADDR), %esi 
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166 2: 

167 movl $ SYMBOL NAME (empty zero page) +2048, %edi 
168 movl $512, %ecx 

169 rep 

170 movsl 

171 l: 


将 setup 传递 过 米 的 引导 参数 和 命令 行 复制 到 empty. zero page 中 以 后 ， 就 在 这 个 页 面 中 形成 了 一 
个 “参数 块 ” 其 内 容 如 下 ( 见 arch/i386/kernel/setup.c): 


151 /* 
152 * This is set up by the setup-routine at boot-time 
153 */ 


154 define PARAM — ((unsigned char *)empty zero page) 

155 #define SCREEN INFO (*(struct screen info *) (PARAM+O) ) 

156 define EXT MEM K (*(unsigned short *) (PARAM+2)) 

157 define ALT MEM K (C*(unsigned long *) 《PARAM+Oxle0) ) 

158 &define E820 MAP NR (*(char*) (PARAM+E820NR) ) 

159 tdefine E820 MAP ((struct e820entry *) (PARAM+E820MAP) ) 

160 #define APM BIOS INFO (#(struct apm bios info *) (PARAM+0x40)) 
161 &define DRIVE INFO (#(struct drive info struct *) (PARAM+0x80) ) 
162 define SYS DESC TABLE (*(struct sys desc table struct*) (PARAM+0xa0) ) 
163 define MOUNT ROOT RDONLY (*(unsigned short *) (PARAM*OxIF2)) 
164 #define RAMDISK FLAGS (*(unsigned short *) (PARAM+0x1F8)) 

165 #define ORIG ROOT DEV (*(unsigned short *) (PARAM+0x1FC)) 

166 #define AUX DEVICE INFO (*(unsigned char *) (PARAM+0x1FF)) 

167 #define LOADER TYPE (*(unsigned char *) (PARAM+0x210)) 

168 #define KERNEL START (*(unsigned long *) (PARAM+0x214)) 

169 Hdefine INITRD START (*(unsigned long *) (PARAM+0x218)) 

170 Hdef ine INITRD SIZE (*(unsigned long *) (PARAM+0x21c)) 

171 define COMMAND LINE ((char *) (PARAM+2048) ) 

172 define COMMAND LINE SIZE 256 


随 着 代 侣 的 阅读 ， 读 者 自 会 慢 惕 明白 这 些 数据 的 用 途 。 

至 此 ， 需 要 由 主 CPU 单独 进行 的 操作 ， 即 上 述 的 三 件 事 情 都 已 经 完成 了 。 从 标号 checkCPUtype 
开始 ， 又 是 所 有 CPU 公共 的 代码 了 ( 见 116 行 的 jmp 指令 )。 我 们 继续 往 下 看 。 
[startup_32()] 


172 #ifdef CONFIG SMP 
173 checkCPUtype: 


174 #endif 

175 

176 movl $-1, X86 CPUID # -1 for no CPUID initially 
177 

178 /* check if it is 486 or 386. */ 

179 /* 
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* XXX - this does a lot of unnecessary setup. Alignment. checks don't 
* apply at our cpl of 0 and the stack ought to be aligned already, and 
* we don' t need to preserve eflags. 


x/ 
movl $3, X86 # at least 386 
pushf1 # push EFLAGS 
popi %eax # get EFLAGS 
movl %eax, %ecx # save original EFLAGS 
xorl $0x40000, %eax # flip AC bit in EFLAGS 
pushl %eax # copy to EFLAGS 
popfl 8 set EFLAGS 
pushfl 4 get new EFLAGS 
popl %eax # put it in eax 
xorl Xecx, %eax 4 change in flags 
andl $0x40000, %eax # check if AC bit changed 
je is386 


movl $4, X86 # at least 486 

mov] %ecx, %eax 

xorl $0x200000, %eax # check ID flag 

pushl %eax 

popf 1 # if we are on a straight 486DX, SX, or 
pushfl # 487SX we can’t change it 
popl %eax 

xorl %ecx, %eax 

pushl %ecx # restore original EFLAGS 
popfl 

andl $0x200000, peax 

je 1s486 


/* get vendor info */ 

xorl %eax, %eax 8 call CPUID with 0 -> return vendor ID 
cpuid 

movl %eax, X86 CPUID # save CPUID level 

movl %ebx, X86 VENDOR ID # lo 4 chars 

movl %edx, X86 VENDOR ID+4 # next 4 chars 

movl %ecx, X86 VENDOR ID+8 # last 4 chars 


orl %eax, %eax # do we have processor info as well? 

je is486 

movi $1, %eax # Use the CPUID instruction to get CPU type 
cpuid 

movb %al, %cl # save reg for future use 

andb $0x0f, %ah # mask processor family 

movb %ah, X86 

andb $0xf0, %al # mask model 
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228 shrb $4, %al 

229 movb %al, X86_MODEL 

230 andb $0x0f, %cl # mask mask revision 
231 movb %cl, X86 MASK 

232 movl %edx, X86 CAPABILITY 

233 

234 18486: 

235 movl %er0, %eax # 486 or better 

236 andl $0x80000011, %eax # Save PG, PE, ET 

237 orl $0x50022, %eax # set AM, WP, NE and MP 
238 jmp 2f 

239 

240 is386: pushl %ecx # restore original EFLAGS 
241 popfl 

242 movl] %cr0, %eax # 386 

243 andl $0x80000011,%eax # Save PG, PE, ET 

244 orl $2, %eax # set MP 

245 2: movl %eax, %cr0 

246 call check_x87 


读者 知道 ，i386 是 一 个 CPU 芯片 系列 ， 其 中 包括 了 80386, 80486 以 及 后 来 的 各 种 Pentum 芯片 。 
为 了 让 在 具体 CPU 芯片 上 运行 的 软件 知道 是 在 什么 样 的 CPU 上 运行 ， 在 各 种 CPU 芯片 中 都 提供 了 一 
些 手 段 ， 让 软件 可 以 在 运行 中 加 以 测试 。 可 是 ，Intel 并 没有 从 一 开始 就 有 一 个 全 禹 的 考虑 ，I 作 只 是 到 
T Pentium 才 为 此 专 设 了 一 条 指令 cpuid。 这 条 指令 在 寄存 器 Weax 中 返回 CPU SFr BLISS ARA. BS. 
版 本 等 信息 。 读 者 在 前 一 章 中 还 看 到 ， 这 条 指令 还 起 着 存储 器 路 障 的 作用 。 至 于 Pentium 以 前 的 处 理 
43, Bll 80386 和 80486， 则 此 通过 一 些 特殊 的 操作 才能 知道 是 哪 种 处 埋 器 。 我们 在 这 里 就 不 深入 到 这 
些 细节 中 去 了 。 至 十 246 行 ， 则 是 测试 与 CPU 配套 的 浮 点 协 处 理 嚣 80387 ESAF. 

我 们 在 前 面 讲 过 ，CPU 在 进入 startup_32( ) 时 已 经 运行 十 保护 模式 。 既 然 运 行 于 保护 模式 ， 惠 就 有 
个 全 局 段 描 述 表 ， 而 控制 寄存 器 GDTR 则 指向 这 个 全 局 段 描述 表 。 吕 是 ， 那 时 候 的 全 局 段 描述 表 只 是 
临时 的 ， 由 引导 辅助 程序 setup WE. PEALE, CPU :由 在 用 这 个 临时 的 全 局 段 描 述 表 。 现 在 ， 则 
要 改 成 使 用 内 核 正式 的 全 局 段 描 述 表 了 。 同 样 ， 此 前 的 控制 寄存 瞧 IDTR 也 指向 临时 的 中 断 描 述 表 ， 
现在 也 要 转 到 内 核 正式 的 中 断 描 述 表 了 。 这 些 事 也 是 每 个 CPU 都 此 做 的 。 


[startup_32( )] 


247 &ifdef CONFIG SMP 


248 incb ready 

249 #endif 

250 lgdt gdt descr 

251 lidt idt descr 

252 ljmp $( KERNEL CS), $1f 

253 1: movl $( KERNEL DS), %eax # reload all the segment registers 
254 movl %eax, %ds # after changing gdt. 

255 movl %eax, hes 

256 movi %eax, %fs 
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259 
260 
261 
262 
263 
264 
265 
266 
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movl %eax, %gs 
#ifdef CONFIG SMP 

movi $( . KERNEL DS), %eax 

movl %eax, ss & Reload the stack pointer (segment only) 
Helse 

lss stack start, %esp # Load processor stack 
Hendif 

xorl %eax, %eax 

lldt %ax 

cld # gcc2 wants the direction flag cleared at all times 


指令 lgdt 和 1idt 分 别 设置 CPU 的 “全 局 段 描 述 表 寄存 器 ”GDTR 和 “小 断 描述 表 寄存 器 ”IDTR。 


实际 上 装 入 这 些 寄存 器 的 是 一 个 Xgt desc struct 数据 结构 ， 此 数据 结构 的 类 型 定义 匈 
include/asm-1386/desc.h: 


51 
52 
53 
54 


的 空 


372 
373 
374 
375 
376 
377 
378 
379 
380 
381 


RE 


450 
451 
452 
453 
454 
455 
456 
457 


struct Xgt desc struct { 
unsigned short size; 
unsigned long address attribute | ((packed)); 


n 
结构 中 首先 是 16 位 的 字段 size， 表 示 描 述 表 的 人 人 小， 然后 才 是 具体 描述 表 的 地 址 。 这 两 个 数据 结构 


间 分 配 也 是 在 arch/i386/kernel/head.S 中 定义 的 : 
idt descr: 
. word IDT_ENTRIES*8~1 H idt contains 256 entries 


SYMBOL NAME(idt) : 
.long SYMBOL NAME(idt table) 


.word 0 
gdt descr: 

.word GDT ENTRTES*8-1 
SYMBOL, NAME (gdt) : 

.long SYMBOL NAME(gdt table) 


rp AT HHA de idt_table 的 内 容 已 经 在 前 面 设置 好 , 现在 又 设置 了 IDTR, 就 完成 了 对 中 断 机 制 的 准备 ， 
打开 中 断 了 。 
全 局 段 描述 表 gdt_table 的 定义 也 在 同 -文件 中 : 


ENTRY (gdt_table) 

. quad 0x0000000000000000 /* NULL descriptor */ 

. quad 0x0000000000000000 /* not used */ 

.quad Ox00cf9a000000ffff /* 0x10 kernel 4GB code at 0x00000000 */ 
. quad 0x00cf92000000ffff /* 0x18 kernel 4GB data at 0x00000000 */ 
. quad OxOO0cffa000000ffff /* 0x23 user 4GB code at 0x00000000 */ 
.quad OxOO0cff2000000f fff /* Ox2b user 4GB data at 0x00000000 */ 
.quad 0x0000000000000000 /* not used */ 
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458 . quad 0x0000000000000000 /* not used */ 


由 于 改变 了 GDTR FP, 各 个 段 寄存 器 的 内 容 也 要 再 装 入 GR. 虽然 它们 的 内 容 其 实 并 无 改变 。 
全 于 “局 部 段 描述 表 ” W Linux 内 核 并 不 使 用 局 部 段 ， 所 以 将 LDTR 设 成 0( 见 264—265 行 )。 

人 至此， 初始 化 的 第 一 阶段 已 经 完成 。 在 SMP 结构 的 系统 中 ， 主 CPU 和 次 CPU 的 代码 又 要 分 道 扬 
Rl. RAE PA. 


[startup_32( )] 


267 #ifdef CONFIG SMP 


268 movb ready, %cl 

269 empb $1, %cl 

270 je 1f 8 the first CPU calls start kernel 
271 # all other CPUs call initialize secondary 
272 call SYMBOL NAME(initialize secondary) 

273 jmp L6 

274 l: 

275 #endif 

276 call SYMBOL NAME(start kernel) 

277 L6: 

278 jmp L6 # main should never return here, but 
279 # just in case, we know what happens. 


在 SMP 结构 的 系统 由， 用 变量 ready 对 已 经 执行 了 初始 化 第 一 阶段 的 CPU 进行 计数 ( 见 248 f7). 
E CPU 是 首先 执行 初始 化 第 一 阶段 的 ， 所 以 如 果 此 时 ready 为 1 就 表明 当前 CPU 是 主 CPU， 否 则 就 
是 次 CPU. X: CPU 在 完成 了 初始 化 第 一 阶段 以 后 还 任重道远 ， 所 以 在 276 行 调用 start_kernel( ) 继 续 进 
行 第 二 阶段 的 初始 化 。 而 次 CPU 则 是 “大 树 底下 好 乘凉 ” X CPU 已 经 为 之 作 好 了 准备 ， 因 此 直接 就 
道 过 initialize_secondary( ) 转 入 其 空转 进程 ， 有 关 的 过 程 读 者 已 经 在 前 -- 章 中 看 到 过 了 。 不 过 ， 次 CPU 
的 运行 要 到 主 CPU 基本 上 完成 了 第 二 阶段 的 初始 化 时 才 会 启动 ， 而 用 主 CPU 在 每 启动 一 个 次 CPU 以 
后 都 会 等 待 其 完成 初始 化 。 


[startup_32( ) > initialize secondary( )] 


468 /* 

469 * Everything has been set up for the secondary 
470 * CPUs - they just need to reload everything 

471 * from the task structure 

472 * This function must not return. 

473 */ 

474 void init initialize secondary (void) 

475 { 

476 /* 

477 * We don’t actually need to load the full TSS, 
478 * basically just the stack pointer and the eip. 
479 */ 

480 
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481 asm volatile( 

482 ^movl %0, %%*esp\n\t” 

483 ” jmp **1^ 

484 : 

485 :"r” (current->thread. esp), ^r" (current->thread. eip)) ; 
486 } 


这 里 ， 次 CPU 的 跳 转 地 址 和 堆栈 指针 都 是 主 CPU 为 之 准备 好 的 。 

表面 上 看 来 ， 从 start_kernel( ) 或 initialize_secondary( ) 返 回 以 后 就 落 入 了 -个 励 限 循环 (277 一 278 
行 )， 但 是 读者 将 会 看 到 对 这 两 个 函数 的 调用 是 不 会 返回 的 。 对 十 主 CPU 或 者 单 处 理 器 系统 中 的 CPU, 
下 面 就 是 系统 初始 化 的 第 二 阶段 了 。 


10.3 系统 初始 化 (第 二 阶段 ) 


从 某 种 意义 上 说 ， 函 数 start. kernel ) 就 好 像 一 般 可 执行 程序 中 的 主 函 数 main( )， 系 统 在 进入 这 个 
函数 之 前 已 经 进行 了 些 最 低 限 度 的 初始 化 ， 为 这 个 函数 的 执行 建立 起 了 一 个 环境 ， 创 造 了 必要 的 条 
件 。 当 然 ， 这 个 函数 还 要 继续 进行 内 核 的 初始 化 ， 实 际 上 甚 全 可 以 说 内 核 的 初始 化 这 才 真 正 开始 。 但 
是 这 种 初始 化 与 在 此 之 前 的 初始 化 毕 况 不同， 是 较 高 层次 上 的 初始 化 。 这 也 是 为 什么 从 这 里 开始 的 代 
码 基本 上 是 C 代码 ， 而 在 此 之 前 则 都 是 汇编 代码 的 原因 。 这 个 状 数 的 代码 在 init/main.c P: 


516 /* 

517 * Activate the first processor. 

518 */ 

519 

520 asmlinkage void | init start kernel(void) 
521 { 

522 char * command line; 

523 unsigned long mempages; 

524 extern char saved command line[ |; 
525 /* 

526 * Interrupts are still disabled. Do necessary setups, then 
527 * enable them 

528 */ 

529 lock kernel(); 

530 printk(linux banner); 

531 setup arch(&command line); 


这 里 首先 通过 printk( ) 在 屏幕 上 显示 出 内 核 的 版 本 信息 ， 这 些 信息 是 在 编译 时 生成 的 ， 其 体 可 参考 
init/version.c 中 的 有 关内 容 ， 此 处 不 加 葡 述 : 


24 const char *linux banner = 
25 "Linux version ^ UTS RELEASE " (" LINUX COMPILE BY "Q^ 
26 LINUX COMPILE HOST ^) (^ LINUX COMPILER ^) ” UTS VERSION "A^ 
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然后 足 setup_arch( )。 顾 名 思 义 ， 这 个 函数 所 处 理 的 是 系统 结构 的 设置 ， 这 就 是 初始 化 第 二 阶段 的 
主体 。 不 过 我 们 人 在 这 里 并 不 关心 为 些 特殊 要 求 和 情况 所 作 的 考虑 ， 所 以 从 限 数 路 抽 去 了 EA 
译 的 代 翁 。 例 如 ，CONFIG_VISWS 是 为 SUN 公司 的 工作 站 而 设 的 ，CONFIG_BLK_DEV_RAM 是 为 
RAMDISK 而 设 的 ， 这 些 部 不 在 我 们 关心 之 列 ， 有 兴趣 或 需要 的 读者 可 以 自行 阅读 有 关 代 但 。 丙 数 
setup arch( ) 的 代码 在 arch/i386/kernel/setup.c 路， 我 们 分 段 阅读 ， 


[start kernel( ) > setup_arch( )] 


598 void _init setup arch(char **emdline p) 

599 { 

600 unsigned long bootmap size; 

601 unsigned long start pfn, max pfn, max low pfn; 
602 int i; 

603 


604 #ifdef CONFIG VISWS 


606 BSendif 


607 

608 ROOT. DEV = to kdev t(ORIG ROOT DEV); 

609 drive info - DRIVE INFO; 

610 screen info - SCREEN INFO; 

611 apm info.bios - APM BIOS INFO; 

612 if( SYS DESC TABLE. length != 0) { 

613 MCA bus = SYS DESC TABLE. table[3] &0x2; 
614 machine id = SYS DESC TABLE. table[0]; 
615 machine submodel id = SYS DESC TABLE. table[1]; 
616 BIOS revision = SYS DESC TABLE. table[2]; 
617 } 

618 aux device present + AUX DEVICE INFO; 

619 


620 #ifdef CONFIG BLK DEV RAM 


624 &endif 
625 setup memory region( ); 
626 


代码 中 的 ROOT_DEYV 是 个 全 局 量 ， 显 而 奶 见 是 根 设备 的 设备 号 ， 而 ORIG ROOT. DEV 就 是 前 述 
参数 其 中 的 一 个 16 位 设备 号 ， 代 表 着 从 中 引导 内 核 映 象 的 设备 ， 由 赴 导 辅助 程序 setup 在 引导 时 加 以 
设置 并 传递 给 内 核 。 这 里 先 假定 引导 设备 就 是 根 设 备 ， 如 果 在 引导 命令 行 中 另 有 指定 ， 则 在 后 面 处 理 
命令 行 时 再 加 修正 。 上 其 他 的 drive info. screen info 等 也 与 此 类 似 ， 有 关 的 信息 均 来 自 参 数 块 ， 实 际 上 
起 来 种 BIOS. Hil MCA_bus RAR AAPA GE S PS/2 的 Micro Channel 总 线 ， 而 machine id 和 
machine submodel id W 52 55 AE HA PC 机 的 标号 。 

如 前 所 述 ，BIOS [I] ZI E3EA FUE SI SRE RSA ER, 2TH UE mn eU AY BRA EUR SIE HAE 
JU, ECR Roh TOBE A FR EUESCRTE Hi RET LIRE SE BIOS 在 此 阶段 中 显示 的 信息 )， 
对 于 在 这 个 阶段 中 获得 的 内 在 信息 可 以 通过 BIOS 调用 “int 0x15” 加 以 查询 。 由 于 在 Linux 内 核 中 不 
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能 作 BIOS 调用 ， 所 以 由 setup 在 引导 阶段 代为 查询 ， 并 根据 获得 的 信息 生成 CURATE PR FE FACER, OK 
为 e820 图 ， 再 通过 参数 块 传 给 内 核 ， 使 内 核能 知道 系统 中 内 存 资源 的 配置 。 之 所 以 称 为 e820 图 ， 是 
因为 在 通过 “int 0x15” 查询 内 存 的 构成 时 要 把 调用 参数 之 一 设置 成 0xe820。 这 里 的 月 的 是 把 这 个 图 
复制 到 - .个 安全 的 地 方 ， 因 为 参数 块 只 是 暂时 存放 在 empty. zero. page 中 ,这 个 页 面 最 后 要 用 于 其 他 昌 
的 。 


[start kernel( ) > setup. arch( ) > setup memory region( )] 


491 /* 

492 * Do NOT EVER look at the BIOS memory size location 
493 * ]t does not work on many machines. 

494 */ 

495  #define LOWMEMSIZE( ) (0x9f000) 

496 

497 void . init setup memory region (void) 

498 { 

499 char *who = "BIOS-e820"; 

500 

501 /* 

502 * Try to copy the BIOS-supplicd E820-map. 

503 * 

504 * Otherwise fake a memory map; one section from 0k->640k, 
505 * the next section from lmb-^appropriate mem k 
506 */ 

507 if (copy. e820 map(E820 MAP, E820 MAP NR) < 0) { 
508 unsigned long mem size; 

509 

510 /* compare results from other methods and take the greater */ 
511 if (ALT MEM K < EXT MEM K) | 

512 mom size - EXT MEM K; 

513 who = "Bl0S-88"; 

514 ) else 1 

515 mem size - ALT MEM K; 

516 who = "BIOS-e801"; 

517 } 

518 

519 e820. nr map = 0; 

520 add memory region(0, LOWMEMSIZE( ), E820 RAM); 
521 add memory region(HIGII MEMORY, (mem size << 10) - HIGH MEMORY, E820 RAM); 
522 } 

523 printk ("BIOS-provided physical RAM map: \n”); 

524 print_memory_map (who) ; 

525 | /* setup memory region */ 


为 方便 阅读 ， 我 们 把 参数 块 中 与 此 有 关 的 常数 的 定义 列 出 十 下 ( 见 include/asm-i386/e820.h MI 
arch/i386/kernel\setup.c) : 
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15 Hdofine E820MAP 0x2d0 /* our map */ 
16 define E820MAX 32 /* number of entries in E820MAP */ 
17 #define E820NR Oxle8 /* # entries in E820MAP */ 


158 #define E820 MAP NR (*(char*) (PARAM-E820NR) ) 
159  Hdefine E820 MAP ((struct e820entry *) (PARAM+E820MAP) ) 


其 中 ，E820_MAP 是 个 e820entry 数据 结构 指针 ， 存 放 在 参数 块 中 位 移 为 0x2d0 的 地 方 ， 这 种 数据 
结构 的 定义 在 include/asm-i386/e820.h t; 


28 struct e820map { 


29 int nr map; 

30 struct e820entry { 

3l unsigned long long addr; /* start of memory segment */ 
32 unsigned long long size; /* size of memory segment */ 
33 unsigned long type; /* type of memory segment */ 

34 ) map[E820MAX] ; 

35 |}; 

36 


37 extern struct e820map e820; 


山 此 可 见 ， 所 谓 “map” 是 个 e820entry 结构 数组 ， 数 组 中 的 每 一 项 都 是 对 一 个 物理 内 存 区 间 的 
描述 。 代码 中 先 通过 copy_e820_map( ) 复 制 ， 如 打发 现 数组 中 的 信息 可 疑 ， 就 放 齐 复 制 而 根据 参数 块 中 
的 其 他 信息 生成 (猜测 ) 出 有 关 的 内 容 (508~521 行 )。 函 数 copy_e820_map( ) 的 代码 也 在 setup.c FP: 


[start_kernel( ) > setup, arch( ) > setup memory. region( ) > copy. e820 map )] 


440 /* 

441 * Copy the BLOS e820 map into a safe place. 

442 * 

443 * Sanity-check it while we're at it.. 

444 * 

445 * If we re lucky and live on a modern System, the setup code 

446 * will have given us a memory map that we can use to properly 
441 * sei up memory. If we aren' t, we'll fake a memory map. 

448 * 

449 * We check to see that the memory map contains at least 2 elements 
450 * before we'il use it, because the detection code in setup.S may 
451 * noi be perfect and most every PC known to man has two memory 
452 * regions: one from 0 to 640k, and one from imb up. (The IBM 
453 * thinkpad 560x, for example, does not cooperate with the memory 
454 * detection code.) 

455 */ 


456 static int | initi copy_e820_map (struct e820entry * biosmap, int nr map) 
457 f 

458 /* Only one memory region (or negative)? Ignore it */ 

459 if (nr map < 2) 
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460 return -1; 

461 

462 do { 

463 unsigned long long start = biosmap~>addr; 

464 unsigned long long size = biosmap—>size; 

465 unsigned long long end = start ! size; 

466 unsigned long type = biosmap-^type; 

467 

468 /* Overflow in 64 bits? Ignore the memory map. */ 
469 if (start > end) 

470 return -1; 

471 

472 /* 

473 * Some BIOSes claim RAM in the 640k - 1M region. 
474 * Not right. Fix it up. 

415 */ 

416 if (type == E820 RAM) { 

477 if (start < Ox100000ULL && end > OxAO000ULL) { 
478 if (start < OxAO000ULL) 

419 add memory region(start, OxA0000ULL- start, type); 
480 if (end <= Ox100000ULL) 

481 continue; 

482 start = Ox100000ULL; 

483 size = end - start; 

484 } 

485 } 

486 add_memory_region(start, size, type); 

487 } while (biosmapt+, --nr map); 

488 return 0; 

489} 


如 上 所 述 , 每 个 e820entry 结构 都 是 对 -个 物理 内 存 区 间 的 描述 。 从 数据 结构 的 定义 中 也 可 以 看 出 ， 
.个 物理 内 存 区 间 必 须 是 同一 类 型 的 。 如 果 有 一 片 地 址 连续 的 物理 内 在 空间 ， 其 一 部 分 是 RAM， 而 另 
一 部 分 是 ROM， 那 就 要 分 成 两 个 区 间 。 即 使 同属 RAM， 如 果 其 中 一 部 分 要 保留 用 于 特殊 目的 ， 那 也 
属 十 一 个 不 同 的 分 区 。 文 件 include/asm-i386/e820.h 中 定义 了 4 种 不 同 的 类 型 : 


19 #define E820 RAM 
20 define E820, RESERVED 
21 Hdefine F820 ACPI 
22 #define E820 NVS 


/* usable as RAM once ACPI tables have been read */ 


Bm Ww N o — 


i|: E820 NVS 表示 “Non-Volatile Storage”， 即 “个 挥发 ”存储 器 ， 包 括 ROM, EPROM, Flash 
存储 器 等 等 。 

在 PC 机 中 ， 对 于 最 初 1MB 存储 空间 的 使 用 是 特殊 的 。 开 头 640KB( 即 0x0-0x9FFFF) 为 RAM。 从 
0xA0000 开始 的 空间 则 用 于 CGA. EGA, VGA 等 图 形 卡 。 现 在 已 经 很 少 有 人 用 EGA 或 VGA 出 不 用 
提 CGA) 了 ,但 是 不 管 是 什么 图 形 卡 ,开机 时 总 是 工作 于 EGA 或 VGA 模式 ,从 0xF0000 开始 到 0xFFFFF， 
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即 最 高 的 64KB， 那 就 是 在 EPROM 或 Flash 存储 器 中 的 BIOS。 所 以 ， 只 要 有 BIOS FE, gabi 
有 两 个 区 间 , WR nr. map 小 于 2 就 一 定 错 了 。 此 外 , 如 果 一 个 区 间 的 起 点 地 址 加 十 长 度 以 后 反 府 小 了 ， 
邦 就 说 明 发 生 了 溢出 ,一 个 64 位 的 地 址 (类 型 为 unsigned long long) 发 生 溢出 当然 一 定 是 错 了 。 由 十 BIOS 
科 图 形 卡 存储 空间 的 存在 ， 本 来 可 以 是 连续 、 均 质 的 RAM 空间 就 不 连续 、 不 均匀 了。 当然 ， 现 在 已 
经 不 会 髓 有 人 会 糊涂 到 有 意 地 设计 出 这 么 一 种 存储 空间 结构 了 。 之 所 以 会 有 这 样 的 结构 ， 是 内 为 在 PC 
的 早期 人 们 觉得 “个 人 计算 机 ”有 640KB 的 RAM 空间 已 经 是 匪夷所思 ， 而 且 当时 Intel X86 系列 CPU 
的 总 的 寻 址 能 力也 只 有 IMB (当时 有 一 -种 很 流行 的 处 理 器 Z80， 只 有 64KB 的 导 址 能 力 )。 技 术 的 发 展 
往往 会 使 人 “大 跌眼镜 ” 使 原来 合理 而 且 权 威 的 设计 变 得 可 笑 。 后 米 ，1MB 的 边界 很 快 就 被 冲破 了 ， 
于 是 把 IMB 以 上 的 空间 称 为 “HIGH_MEMORY ”。 这 个 称呼 :和 直 治 用 到 了 现存， 代码 中 的 常数 
HIGH. MEMORY 就 定义 为 (1024X 1024). WE, ÆT 128MB RAM 的 PC 机 已 经 是 很 普通 的 了 。 但 
是 ， 作 为 一 种 系统 结构 ， 在 最 初 1MB 的 RAM 空间 中 还 得 留 卡 这么 个 空洞 ， 否 则 使 不 能 与 业已 存在 的 
硬件 和 软件 兼容 。 所 以 ， 代 码 小 对 于 每 个 区 间 都 调用 add_memory_region( )， 将 其 参数 复制 到 数据 结构 
e820 内 的 数组 中 。 而 关键 在 十 ， 当 一 个 RAM 区 问 的 起 点 在 0xA0000 LAF, 而 终点 在 IMB 以 上 时 ， 就 
要 将 这 个 区 间 拆 开 成 两 个 区 间 ， 中 间 趾 过 从 0xA0000 4 IMB 边界 之 间 的 闭 一部分。 不过， 在 特殊 的 
情况 下 也 可 以 通过 引导 命令 行 中 的 选择 项 改变 这 种 空间 结构 。 
回 到 setup arch( ) 的 代码 中 ， 继 续 往 下 看 。 


[start kernel( ) > setup. arch( )] 


627 if (!IMOUNT ROOT RDONLY) 

628 root mountflags &- "MS RDONLY; 

629 init mm. start code = (unsigned long) & text; 
630 init mm. end, code = (unsigned long) & etext: 
631 init mm. ond data = (unsigned long) & edata; 
632 init mm.brk - (unsigned long) & end; 

633 

634 code_resource. start = virt to bus(& text); 
635 code resource.end = virt to bus(& etexi)-1; 
636 data resource.start = virt to bus(& etext); 
637 data resource. end = virt to bus(& edata)-1; 
638 

639 parse mem cmdline(cmdline p); 

640 


641 define PFN_UP(x) (((x) + PAGE SIZE-1) >> PAGE SHIFT) 
642 Sdefine PFN_DOWN(x) ((x) >> PAGE SHIFT) 
643 #define PFN PHYS(x) (GO << PAGE SHIFT) 


644 

645 /* 

646 * 128MB for vmalloc and initrd 

647 */ 

648 define VMALLOC RESERVE (unsigned long) (128 << 20) 

649 Hdefine MAXMEM (unsigned long) (~PAGE OFFSET-VMALLOC RESERVE) 
650 #define MAXMEM PFN PFN DOWN (MAXMEM) 

651 #define MAX NONPAE PEN (I << 20) 

652 
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653 /* 

654 * partially used pages are not usable - thus 
655 * we are rounding upwards: 

656 */ 

657 start pfn = PFN UP(  pa(& end)) ; 

658 


除了 对 数据 结构 init mm 和 code. resource 的 设置 以 外 ,这 里 主要 是 对 parse mem. emdline( ) 的 调用 。 
数据 结构 init. mm 是 系统 中 第 一 个 进程 swapper 的 存储 空间 控制 结构 ,也 是 整个 内 核 的 mm. struct 数据 
结构 。 这 个 数据 结构 代表 着 系统 空间 ， 不 管 是 什么 进程 ， 只 要 一 进入 内 核 就 进入 了 系统 空间 ， 就 受 这 
个 数据 结构 控制 。 

在 特殊 的 情况 下 ， 有 的 系统 可 能 有 特殊 的 RAM 空间 结构 ， 此 时 可 以 通过 引导 命令 行 中 的 选择 项 
改变 存储 空间 的 池 辑 结构 ， 使 其 正确 地 反映 内 存 的 物理 结构 。 隐 数 parse. mem. emdline ) 的 作用 就 是 分 
析 命 令 行 中 的 选 搓 项 ， 并 据 此 对 数据 结构 e820 中 的 内 容 作 出 修正 。 这 个 函数 的 代码 在 
arch/i386/kernel/setup.c 小 ， 但 是 我 们 不 深入 进去 了 ， 只 是 把 代码 中 的 一 段 注释 抄录 十 卜 ， 让 读者 对 这 
些 选择 项 有 个 大 致 的 印象 : 


539 /* 

540 * "mem-nopentium" disables the 4MB page tables. 

541 * “mem=XXX[kKmM]” defines a memory region from HIGH MEM 
542 * to <mem>, overriding the bios size. 

543 * "mem-XXX[KkmM]GXXX[KkmM]" defines a memory region from 
544 * <start> to <start>+<mem>, overriding the bios size. 
545 */ 


其 中 的 第 一 项 用 十 CPU 为 Pentium， 并 且 内 核 在 编 详 时 采用 了 36 位 地 址 (PAE 模式 )， 又 采用 了 
Pentium 的 PSE 功能 ， 即 采用 4MB 页 面 ， 但 是 在 引导 时 却 临时 决定 要 采用 4KB 页 而 的 情景 。 我 们 在 本 
书 中 内 关心 32 位 地 址 、 页 面 人 小 为 4KB 的 模式 , 有 兴趣 或 有 需要 的 读者 日 可 对 PAE 和 PSE 加 以 研究 。 

然后 ,代码 中 就 弛 定义 了 一 些 宏 操 作 和 常数 ,这 些 定义 都 是 下 [本 要 用 到 的 ,首先 就 是 用 在 对 start_pfn 
的 计算 《ptn AWE “Page Frame Number” 的 缩写 )， 这 个 变量 的 值 症 个 页 面 号 ， 代 表 着 内 存 中 内 核 映 
象 以 上 第 一 个 可 以 动态 分 配 的 页 面 。 内 核 映 象 的 终点 是 _end， 这 是 由 gee 在 编译 和 连接 时 曰 动 生成 的 ， 
从 它 的 地 址 往 上 就 是 可 以 动态 分 配 的 空间 了 ， 宏 操作 PFN_UP( ) 根 据 这 个 地 址 计算 出 它 上 而 的 第 个 
页 面 边 界 。 

继续 看 setup. arch( ) 的 代码 。 


[start_kernel( ) > setup_arch( )] 


659 /* 

660 * Find the highest page frame number we have available 
661 */ 

662 max pfn = 0; 

663 for (i = 0; i < e820. nr map; i++) { 

664 unsigned long start, end; 

665 /* RAM? */ 
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if (e820.map[i].type !- E820 RAM) 
continue; 
start = PFN_UP (e820. map[i]. addr) ; 
end = PFN_DOWN (e820. map[i]. addr + e820.map[i]. size); 
if (start >= end) 
continue; 
if (end > max_pfn) 
max pfn = end; 


) 


/* 
* Determine low and high memory ranges: 
*/ 
max iow pfn = max pfn; 
if (max low pfn > MAXMEM PFN) | 
max low pfn - MAXMEM PFN; 
#ifndef CONFTG HTGHMEM 
/* Maximum memory usable is what is directly addressable */ 
printk(KERN WARNING "Warning only %ldMB will be used. WM, 
MAXMEM>>20) ; 
if (max pfn > MAX NONPAE PFN) 
printk(KERN WARNING "Use a PAE enabled kernel. n^); 
else 
printk (KERN WARNING "Use a HIGHMEM enabled kernel. \n”); 
Helse /* !CONFTG HIGHMEM */ 
#ifndef CONFIG X86 PAE 
if (max pfn > MAX NONPAE PFN) { 
max pfn = MAX NONPAE PEN; 
printk (KERN. VARNING "Warning only 4GB will be used. n^); 
printk (KERN WARNING "Use a PAE enabled kernel. W^); 
} 
Hendif /* !CONFIG_X86_PAE */ 
#endif /* 'CONFIG HIGHMEM */ 
} 


#ifdef CONFIG HIGHMEM 
highstart pfn = highend pfn - max_pfn; 
if (max pfn > MAXMEM PFN) { 
highstart pfn = MAXMEM PEN; 
printk(KERN NOTICE "*1dMB HIGHMEM available. Wn", 
pages to mb(highend pfn - highstart pfn)): 
} 
endi f 


在 数据 结构 e820 中 积累 起 各 个 物理 内 存 区 问 的 信息 以 后 ,要 从 这 些 信息 中 归纳 出 一 项 重要 的 数据 ， 


A 33€ RAM 空间 的 顶点 max_pfn。 代 码 中 通过 个 for 循环 扫描 e820 中 的 数组 , 通过 比较 和 计算 得 出 
此 项 数据 。 宏 操作 PFN_UP( ) 和 PFN_DOWN( ) 的 定义 见 上 和 面 的 641 和 642 行 ， 作 用 是 将 内 存 地址 转换 
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RERS, WE max pf 所 代表 的 是 系统 中 最 高 的 RAM 页 面 。 不 过 ， 实 际 可 以 使 用 多 人 的 物理 内 存 
不 光 取 决 于 物理 上 的 配备 以 及 整个 地 址 空间 的 大 小 ， 还 进一步 受到 内 核 的 虚 存 空间 ， 吕 所 谓 系 统 空间 
大 小 的 限制 ,读者 在 第 2 章 中 曾 看 到 , Linux 的 内 核 将 整个 32 位 地 址 空间 分 成 两 部 分 , 其 中 0xC0000000 
以 上 的 1GB 为 系统 空间 ， 从 系统 空间 到 物理 内 存 的 映射 基本 上 是 线性 映射。 如 果 物 理 内 存 的 大 小 超过 
了 1GB， 就 不 能 从 内 核 中 访问 到 整个 物理 内 存 。 另 一 方面 ， 虽 然 从 系统 空间 到 物理 内 存 的 映射 基本 上 
是 线性 映射 、 因 而 不 会 将 同一 物理 内 存 页 面 重复 地 映射 到 系统 空间 中 ,但 也 还 是 有 例外 的 。 我 们 在 第 2 
章 中 提 到 过 vmalloc( )， 它 就 是 在 原 有 的 线性 映射 以 外 另行 分 配 … 块 系统 空间 虚拟 地 址 )， 并 建 头 起 
与 物理 页 面 的 映射 。 此 外 ， 如 果 采 用 RAMDISK， 则 也 有 类 似 的 情况 。 这 样 ， 由 于 同 -物理 负面 有 可 
g 耗 用 - -个 以 上 的 虚 存 页 面 , 可 以 在 系统 空间 中 直接 (不 需要 通过 临时 改变 映射 ) 访问 的 物理 页 面 数量 
就 又 减少 了 ， 不 过 这 一 部 分 虚 存 空间 的 大 小 限于 128MB。 内 此 ， 从 可 以 被 内 核 直 接 访 问 的 角度 ， 理 论 
上 最 大 的 RAM 空间 容量 为 1024MB 一 128MB = 896MB， 这 就 是 常数 MAXMEM ， 相 应 的 页 稳 号 为 
MAXMEM_PFN。 这 个 数值 有 可 能 小 于 max_pfn， 所 以 另 有 一 个 变量 max_low_pfn 用 米 记录 这 个 数值 。 
下 面 是 几 个 有 关 常 数 的 定义 ， 分 别 见于 arch/i386/kernel/setup.c 和 include/asm-i386/page.h: 





645 /* 

646 * 128MB for vmalloc and initrd 

647 */ 

648 #define VMALLOC RESERVE (unsigned long) (128 << 20) 

649 #define MAXMEM (unsigned long) (CCPAGE OFFSET-VMALLOC RESERVE) 
650 define MAXMEM PFN PFN. DOWN (MAXMEM) 

81 Hdefine _ PAGE OFFSET (0xC0000000) 


所 以 ， 对 于 Linux 内 核 ， 如 果 系 统 中 配备 了 896MB 以 上 的 RAM, isse 32 位 的 寻 址 能 力 ， 
此 时 要 选用 编译 选择 项 CONFIG_HIGHMEM， 注 意 这 里 所 谓 HIGHMEM 是 指 4GB 虚 存 空间 ， 而 不 是 
前 面 讲 的 1MB， 不 要 摘 混 淆 了 。 从 代码 中 的 682 一 698 行 可 以 看 出 ， 如 果 了 配备 了 896MB 以 上 的 RAM， 
而 又 不 选用 CONFIG_HIGHMEM， 则 只 能 使 用 其 中 的 896MB 。 如 果 选 用 了 CONFIG_HIGHMEM， 则 
又 要 看 是 从 选用 Pentium 的 PAE 模式 ， 那 些 我 们 就 不 关心 了 ， 反 正 现 在 大 概 还 没有 多 少 人 上 用 896MB 
以 上 的 物理 内 存 ( 几 年 以 后 也 许 又 要 大 跌眼镜 )。 还 要 指出 , 这 只 是 对 32 位 结构 的 1386 而 言 , 对 新 的 ia64 
结构 当然 要 另 作 别论 。 

我 们 再 往 下 看 。 


[start_kernel{ ) > setup. arch( )] 


709 /* 

710 * Initialize the boot-time allocator (with low memory only): 

711 */ 

712 bootmap size = init bootmem(start pfn, max_low_pfn); 

713 

714 /* 

715 * Register fully available low RAM pages with the bootmem allocator. 
716 */ 

717 for (i = 0; i < e820. nr map; i++) { 

718 unsigned long curr pfn, last pfn, size; 
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/* 
* Reserve usable low memory 
*/ 
if (e820.maplil.type != E820 RAM) 
continue; 
/* 
* We are rounding up the start address of usable memory: 
*/ 


curr pfn = PFN UP(e820. mapli]. addr) ; 
if (curr_pfn >= max low pfn) 


continue; 
/* 
* ... and at the end of the usable range downwards: 
*/ 


last pfn = PFN DOWN (e820. mapli]. addr + e820. map[i]. size); 


if (last pfn > max_low_pfn) 
last pfn = max_low_pfn; 


/* 
* .. finally, did all the rounding and playing 
* around just make the area go away? 
*/ 
if (last pfn <= curr pfn) 
continue; 


size = last pfn - curr_pfn; 
free bootmem(PFN PHYS(curr pfn), PFN PHYS(size)); 


/* 
* Reserve the bootmem bitmap itself as well. We do this in two 
* steps (first step was init bootmem( )) because this catches 
* the (very unlikely) case of us accidentally initializing the 
* bootmem allocator with an invalid RAM area. 
*/ 
rcserve bootmem(HIGH MEMORY, (PEN PHYS(start pfn) + 

bootmap size + PAGE STZE-1) - (HIGH MEMORY)) ; 


/* 

* reserve physical page 0 - it's a special BIOS page on many boxes 
* enabling clean reboots, SMP operation, laptop functions. 

*/ 

reserve bootmem(0, PAGE STZE); 


&ifdef CONFIG SMP 


/水 
* But first pinch a few for the stack/trampoline stuff 
* FIXME: Don't need the extra page at 4K, but need to fix 
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767 * trampoline before removing it. (see the GDI stuff) 

768 */ 

769 reserve bootmem(PAGE SIZE, PAGE SIZE); 

770 smp alloc memory( ); /* AP processor realmode stacks in low memory*/ 
771 #endif 

772 

773 #ifdef CONFIG X86_LO_APIC 

774 /* 

775 * Find and reserve possible boot-time SMP configuration: 
776 */ 

777 find smp config( ); 

778 #endif 

779 paging init( ); 


首先 通过 init beotmem( ) 为 物理 内 存 页 面 管理 机 制 的 建立 作 些 准备 ， 为 整个 物理 内 人 存 建立 起 一 个 
页 面 位 图 。 这 个 位 图 建立 在 从 start_pfn 开始 的 地 方 。 也 就 是 说 ， 把 内 核 喘 象 终点 _end KARATI 
用 作物 理 负 面 位 图 。 在 此 之 前 的 代 侣 中 己 经 搞 清 楚 了 物理 内 存 项 点 所 在 的 页 面 号 是 max_low_pfn， 所 
以 整个 物理 内 存 的 页 而 号 - 定 在 0 至 max low pfn 这 个 范 轩 内 。 可 是 ， 在 这 个 范围 中 可 能 有 空洞 ， 必 

-方面 也 并 不 是 所 有 的 物理 内 存 页 面 都 可 以 动态 分 配 。 建 立 这 个 位 图 的 日 的 就 是 更 摘 清 楚 哪 一 些 物 埋 
内 存 页 面 是 可 以 动态 分 配 的 。 


[start_kernel( ) > setup. arch( ) > init bootmem( )] 


283 unsigned long _init init bootmem (unsigned long start, unsigned long pages) 
284 { 


285 max_low_pfn = pages; 

286 min_low_pfn = start; 

287 return(init bootmem core(&contig page data, start, 0, pages)); 
288 } 


操作 的 主体 是 init_bootmem_core( ), 3X t& HOM pg. data. t 数据 结构 contig_page_data 进行 初始 化 ， 
读者 凯 经 在 第 2 章 的 “ 几 个 重要 的 数据 结构 和 函数 ” - 节 中 看 到 过 这 种 数据 结构 的 定义 。 每 个 Pg_data t 
数据 结构 都 代表 着 一 片 均 邹 的、 连续 的 内 存 空 间 ， 称 为 一 个 “节点 ” 在 连续 空间 UMA 结构 中 只 有 一 
个 节点 contig_page_data， 而 在 NUMA 结构 或 不 连续 空间 UMA 结构 中 则 有 多 个 这 样 的 数据 结构 。 系 统 
中 各 个 节点 的 pg_data_t 数据 结构 通过 指针 node next 连接 在 … 起 成 为 一 个 链 ， 全 局 量 pedat_list WFR In] 
MaE WAR, contig page data 是 链 中 的 第 一 个 节点 。 这 里 先 假定 整个 物理 内 人 存 空间 为 均 旬 的 、 连 续 
的 ， 以 后 车 发 现 这 个 假定 不 能 成 立 则 再 加 以 修正 ， 再 将 新 的 pg data t 结构 加 入 到 链 中 。 数 据 结构 
contig page data 的 初始 内 容 为 (mm/numa.c): 


14 static bootmem data t contig bootmem data; 
15 pg data t contig page data = | bdata: &contig bootmem data }; 


TE pg data t 结构 中 有 个 指针 bdata， 指 向 一 个 bootmem data t 数据 结构 ， 其 类 型 定义 如 下 


(include/linux/bootmem.h): 


. 693 . 


Linux 内 核 源 代码 情景 分 析 C PO 


20 /* 

21 * node bootmem map is a map pointer : the bits represent all physical 
22 * memory pages (including holes) on the nodc 

23 */ 

24 typedef struct bootmem data { 

25 unsigned long node boot start: 

26 unsigned long node low pfn; 

27 void *node bootmem map; 

28 unsigned long last ofíset; 

29 unsigned long last pos; 


30 } bootmem data t; 


结构 中 的 node. boot, start 表示 系统 引导 以 后 存在 的 第 一 个 物理 内 存 负 面 (而 与 引导 过 程 本 身 盛 关 )， 
从 调用 init_bootmem_core( ) 时 的 参数 start 可 以 看 出 是 0，node_low_pfn 则 表示 物理 内 存 的 项 点， 最 高 
不 超过 896MB 。 结构 中 的 指针 node bootmem map 指向 一 个 “保留 页 面 位 图 ”位 图 中 的 每 一 位 都 代表 
着 物理 内 存 由 一 个 需要 保留 ， 或 者 不 存在 ， 从 而 不 能 用 于 动态 分 配 的 页 面 。 函 数 init_bootmem_core( ) 
的 代码 在 mm/bootmem.c F: 


[start kernel( ) > setup arch( ) > init, bootmem( ) > init bootmem core( )] 


4l /水 

42 * Called once to set up the allocator itself 

43 */ 

44 static unsigned long _ init init bootmem core (pg data t *pgdat, 
45 unsigned long mapstart, unsigned long start, unsigned long end) 
46 { 

47 bootmem data t *bdata = pgdat-^bdata; 

48 unsigned long mapsize = (fend - start)+7)/8: 

49 

50 pgdat-^node next = pgdat list; 

51 pgdat list = pgdat; 

52 

53 mapsize = (mapsize + (sizeof(long) - 1UL)) & ^(sizeof(long) - 1UL); 
54 bdata-?node bootmem map = phys to virt(mapstart << PAGE SHIFT); 
55 bdata-^node boot start = (start << PAGE SHIFT); 

56 bdata-?node low pfn = end; 

51 

58 /* 

59 * Initially all pages are reserved - setup arch( ) has to 

60 * register free RAM areas explicitly. 

61 */ 

62 memset(bdata-»node booimem map, Oxff, mapsize) ; 

63 

64 return mapsize; 

65 } 


注意 这 里 参数 start AFL 0, if) mapstart [ELA E E es init bootmem( ) 中 的 start， 即 内 核 映 
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oo ee ree en A a a 
每 以 上 第 一 个 页 面 的 起 点 ， 参 数 end 的 值 则 为 物理 内 存 的 项 点 max_low_pfn. 


我 们 基本 上 把 这 个 咀 数 以 及 setup_arch( ) 中 的 717—761 行 留 给 读者 自己 结合 着 阅读 。 这 时 只 作 简 


略 的 说 明 ; 


函数 free. bootmem( ) 对 一 个 contig_page_data 结构 中 的 位 图 进行 操作 ， 将 其 中 的 某 些 位 清 0， 表 示 


相应 的 物理 内 存 页 面 可 以 投入 分 配 。 而 reserve. bootmem( ) 则 正好 相反 ， 一 开始 时 把 位 图 中 的 所 有 位 都 
设置 成 1， 假 定 全 部 都 不 能 用 于 动态 分 配 ， 然 后 根据 e820 数据 结构 中 的 内 容 以 及 一 些 特殊 的 区 间 和 页 
面 加 以 找补 。 其 中 特别 加 以 保留 的 有 : 


RA 


内 存 


e 从 HIGH_MEMORY， 即 1MB 边界 开始 ， 直 到 (start_pfn + bootmap_size) 所 在 的 页 面 为 止 。 这 
些 是 内 核 映 象 和 “保留 页 面 位 图 ”本 身 所 在 的 页 面 。 

e ”页 面 0， 即 起 始 地 址 为 0 的 页 面 。BIOS 通常 用 这 个 页 面 保存 - 些 与 引导 以 及 BIOS 本 身 有 关 
的 信息 ， 所 以 也 要 加 以 保留 。 

e 对 于 SMP 结构 的 系统 ， 页 面 1， 即 起 始 地 址 为 PAGE SIZE 的 页 面 也 要 保留 ， 次 CPU HAS 
行 时 需要 用 这 个 页 面 作为 “跳板 ”( 见 第 9 章 )。 

e ”此 外 ， 还 有 一 些 特殊 用 途 的 页 面 ， 例 如 用 作 RAMDISK 的 页 面 。 不 过 这 些 页 面 不 是 在 这 儿 保 
留 的 。 

对 于 采用 CONFIG_X86_IO_APIC 的 SMP 系统 ， 还 要 通过 find smp config( ) 寻 找 由 BIOS 和 引子 

程序 设置 在 基本 内 存 (640KB) 中 的 多 处 理 器 配置 表 ， 不 过 我 们 在 这 里 不 深入 到 这 个 函数 中 去 了 。 

前 面 已 经 建立 了 为 内 存 页 面 管理 所 需 的 数据 结构 ， 现 在 是 进一步 完善 页 面 映射 机 制 ， 并 量 建 立 起 

页 面 管理 机 制 的 时 候 了 (779 行 ) 。 函 数 paging_init( ) 的 代码 在 mm/init.c 中 : 


[start_kernel( ) > setup arch( ) > paging. init( )] 


437 
438 
439 
440 
441 
442 
443 
444 
445 
446 
447 
448 
449 
450 
451 
452 
453 
454 
455 
456 
457 
458 


/* 
paging init( ) sets up the page tables - note that the first 8MB are 
already mapped by head.S. 


* 
* 
* 
* This routines also unmaps the page at virtual kernel address 0, so 
* that we can trap those pesky NULL-reference errors in the kernel. 
*/ 
void | init paging init (void) 
{ 
pagetable init( ); 
. asm  ( “movl %%ecx, %%cr3\n” ::"c^(. pa(swapper pg dir))); 
#if CONFIG X86 PAE 
/* 
* We will bail out later - printk doesnt work right now so 
* the user would just see a hanging kernel. 
*/ 
if (cpu has pae) 
set in cr4(X86 CRA PAE) ; 
#endif 
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459 _ flush, tlb all( )， 

460 

461 #ifdef CONFIG HIGHMEM 

462 kmap_init( ); 

463 Hendif 

464 { 

465 unsigned long zones_size[MAX_NR_ZONES] = {0, 0, 0}; 
466 unsigned int max_dma, high, low; 

467 

468 max dma = virt to phys((char *)MAX DMA ADDRESS) >> PAGE SHIFT; 
469 low - max low pfn; 

470 high = highend pfn; 

471 

472 if (low € max dma) 

413 zones size[ZONE DMA] = low; 

474 else ( 

475 zones size[ZONE DMA] = max dma; 

476 zones size[ZONE NORMAL] = low - max dma; 
4TT #ifdef CONFIG HIGHMEM 

478 zones size[ZONE HIGHMEM] = high - low; 
479 #endif 

480 } 

481 free area init(zones size); 

482 } 

483 return; 

484} 


首先 通过 pagetable init( ) 扩 充 由 startup. 32( ) 在 第 一 阶段 中 创建 的 页 面 映射 目录 和 页 面 映射 表 ( 见 
arch/i386/kernel/head.S 中 的 389 行 和 98-~~102 行 )。 当 初 因为 不 知道 内 存 到 底 有 多 大 ， 所 以 只 为 开始 的 
SMB 建立 了 映射 。 现 在 嗓 然 已 经 有 了 关于 内 存 的 详细 信息 ， 就 可 以 根据 这 些 信息 加 以 扩充 和 修改 ， 建 
站 完整 的 从 系统 空间 到 整个 物理 存储 空间 的 线性 映射 了 o PRÉC pagetable_init( ) 的 代码 也 在 同一 文件 中 : 


[start_kernel( ) > setup, arch( ) > paging init( ) > pagetable_init( )] 


314 static void . init pagetable init (void) 


315 { 

316 unsigned long vaddr, end; 

317 bgd t *pgd, *pgd base; 

318 int i, j k; 

319 pmd t *pmd; 

320 pte t *pte; 

321 

322 /* 

323 * This can be zero as well - no problem, in that case we exit 
324 * the loops anyway due to the PTRS PER * conditions. 
325 */ 

326 end = (unsigned long)  va(max low pfn*PAGE SIZE); 


- 696 . 


327 
328 
329 
330 
331 
332 
333 
334 
335 
336 
337 
338 
339 
340 
341 
342 
343 
344 
345 
346 
347 
348 
349 
350 
351 
352 
353 
354 
355 
356 
357 
358 
359 
360 
361 
362 
363 
364 
365 
366 
367 
368 
369 
370 
371 
372 
373 
374 
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bgd base = swapper pg dir; 
&if CONFIG X86 PAE 
for (i 


} 
#endif 


ped 


= 0; i < PTRS PER PGD; i++) { 
= pgd base + i; 


. pgd clear(pgd); 


i = pgd offset (PAGE OFFSET) ; 
pgd - pgd base * i; 


for ( i < PTRS PER PGD; pgd++, i++) { 
vaddr = i*PGDIR SIZE; 


if 


(end && (vaddr >= end)) 
break; 


#if CONFIG X86 PAE 
pmd = (pmd t *) alloc bootmem low pages (PAGE SIZE); 


#else 


Hendif 


set 


pmd 


if 


for 


 pgd(pgd, . ped(__pa(pmd) + 0xD); 
- (pmd t *)pgd; 


(pmd !- pmd offset(pgd, 0)) 
BUG( ) ; 
(j = 0; j < PTRS PER PMD; pmdt+, j++) { 
vaddr = i*PGDIR_SIZE + j*PMD SIZE; 
if (end && (vaddr >= end)) 
break; 
if (cpu has pse) { 
unsigned long __ pe; 


set in cr4(X86 CR4 PSE) ; 
boot cpu data.wp works ok = 1; 
| pe = KERNPG TABLE + PAGE PSE + | pa(vaddr); 
/* Make it “global” too if supported */ 
if (cpu has pge) { 
set in cr4(X86 CR4 PGE) ; 
pe += PAGE GLOBAL; 





} 
set_pmd(pmd, __pmd(__pe)); 
continue; 


} 


pte = (pte t *) alloc bootmem low pages(PAGE SIZE); 
set pmd(pmd, __pmd(_KERNPG TABLE +  pa(pte))); 


if (pte != pte offset(pmd, 0)) 
BUG( ) ; 
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375 for (k = 0; k < PTRS PER PTE; pte++, k++) { 

376 vaddr = i*PGDIR SIZE + j*PMD SIZE + k*PAGE_SIZE; 
377 if (end && (vaddr >= end)) 

378 break; 

379 *pte = mk pte phys(  pa(vaddr), PAGE KERNEL); 
380 } 

381 } 

382 } 

383 

384 /* 

385 * Fixed mappings, only the page table structure has to be 
386 * created - mappings will be set by set fixmap( ): 

387 */ 

388 vaddr = | fix to virt( end of fixed addresses - 1) & PMD MASK; 
389 fixrange init(vaddr, 0, pgd base); 

390 

391 #if CONFIG HIGHMEM 

392 /* 

393 * Permanent kmaps: 

394 */ 

395 vaddr = PKMAP BASE; 

396 fixrange init(vaddr, vaddr + PAGE SIZE*LAST PKMAP, pgd base); 
397 

398 pgd = swapper pg dir + pgd offset(vaddr); 

399 pmd = pmd offset(pgd, vaddr); 

400 pte = pte offset(pmd, vaddr); 

401 pkmap page table = pte; 

402 &endi f 

403 

404 Hif CONFIG X86 PAE 

405 /* 

406 * Add low memory identity-mappings - SMP needs it when 
407 * starting up on an AP from real-mode. In the non-PAE 

408 * case we already have these mappings through head.S. 

409 * All user-space mappings are explicitly cleared after 
410 * SMP startup. 

411 */ 

412 pgd base[0] = pgd base[USER PTRS PER PGD]; 

413 Hendif 

44  ] 


我 们 把 这 段 代 码 留 给 读者 作为 对 第 2 章 中 有 关内 容 的 复习 。 注 意 ， 这 里 对 页 面 映射 目录 
swapper pg dir 中 月 录 项 的 设置 是 从 下 标 __pgd_offset(PAGE_OFFSET) 开 始 , 即 从 虚拟 地 址 0xC0000000 
中 的 最 高 10 位 0x300 开始 。 页面 映 射 目录 的 大 小 为 一 个 页 面 ， 实 际 上 就 是 个 大 小 为 1024 的 指针 数组 ， 
这 里 从 下 标 0x300, Bl 768 并 始 ， 这 是 为 系统 空间 准备 的 。 一 旦 内 核 线程 进入 正常 运行 以 后 ， 就 不 会 使 
用 0xC0000000 以 下 的 虚拟 地 址 了 ， 所 以 这 个 映射 目录 中 前 3/4 的 目录 项 最 终 都 要 设置 成 0， 不 过 现在 
还 不 到 时 候 。 
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设置 好 页 面 映射 日 录 以 后 ，448 行 的 汇编 指令 movl 将 目 有 水 的 起 始 地 址 swapper_pg_dir 送 入 控制 寄 
ER ocr. 读者 也 许 还 记得 ,前面 让 startup_32( ) 中 已 经 把 这 个 地 址 设置 进 Wcr3 中 了 (99 47). 为 什么 这 
时 还 要 再 设置 一 次 妮 ? 这 是 因为 每 当 设置 %cr3 时 CPU 就 会 将 页 面 映射 日 录 所 在 的 负面 装 入 CPU 内 部 
高 速 缓存 中 的 TLB 部 分 。 坝 在 内 存 中 (实际 上 是 高 速 组 存 中 ， 见 下 ) 的 映射 目录 变 了 ,就 要 再 让 CPU X 
入 一 次 。 出 于 页 面 喘 射 机 制 本 来 就 是 开启 着 的 ， 所 以 从 这 条 指令 以 后 就 扩 人 了 系统 宁 间 中 有 了 映射 区 间 
的 大 小 ， 使 映射 的 范围 覆 善 到 整个 物理 内 存 (HIGHMEM 除外 )。 不 过 ， 这 里 所 谓 “内存 中 ”是 逻辑 意 
义 上 的 ， 实 际 上 此 时 swapper pg dir 中 已 经 改变 的 目录 项 很 可 能 还 在 高 还 缓存 中 ， 所 以 还 要 通过 
_ftush_tlb_all() 将 高 速 缓存 中 的 内 容 冲 出 到 内 存 中 ， 这 样 才能 保证 内 存 中 喘 射 日 录 内 容 的 一 致 性 。 

如 前 所 述 ， 要 是 系统 中 配备 了 高 于 896MB 以 上 的 内 存 ， 而 CPU MAA 32 位 的 寻 址 能 力 ， 那 就 得 
选用 CONFIG_HIGHMEM 选项 。 烤 么 ， 选 用 了 CONFIG. HIGHMEM 选项 以 后 又 是 怎样 实现 对 896MB 
以 上 物理 页 而 的 映射 呢 ? 根据 所 谓 “ 拙 展 原 理 ”， 如 果 昌 将 多 十 n 个 的 物件 ( 企 这 里 是 物理 页 面 ) 放 入 n 
个 抽 尾 (在 这 里 是 属于 系统 学 闻 的 页 面 映射 表 项 )， 则 全 少 有 一 个 抽 屠 里 要 存放 多 于 一 个 的 物件 。 但 是 ， 
一 个 页 耐 表 项 在 同一 时 间 内 又 确实 只 能 映射 个 物理 页 面 ， 那 就 说 明 至 少 有 一 个 页 面 表 项 要 在 不 同 的 
时 间 里 映射 到 不 同 的 物理 页 面 。 对 于 选用 了 CONFIG_HIGHMEM 的 系统 ， 内 核 中 设置 了 一 个 全 局 的 
pte. t 指针 kmap_pte， 指 向 页 面 映 射 表 中 的 一 个 表 项 ， 这 个 表 项 将 动态 地 上 映射 到 不 同 的 物理 页 季 。 每 当 
要 访问 一 个 属 十 “高 内 存 ” 的 物理 负面 时 ， 就 要 先 改 变 这 个 表 项 。 函 数 kmap_init( ) 的 作用 主要 就 是 设 
置 好 指针 kmap_pte。 

在 第 2 帝 中 ， 读 者 曾 看 证 在 代表 着 存储 节点 的 pg_data_t 数据 结构 中 的 “个 数组 node_zones[]， 其 
大 小 为 3。 遂 过 这 个 数组 ,内核 将 每 个 节点 中 的 物理 页 面 划 分 成 生 个 “管理 区 ”(zone), 即 ZONE DMA, 
ZONE, NORMAL 以 及 ZONE_HIGHMEM, 其 中 ZONE, HIGHMEM 只 有 在 选用 了 CONFIG_HIGHMEM 
选项 时 才 有 效 。 为 什么 要 这 样 划 分 呢 ? 将 ZONE_HIGHMEM 区 分 出 来 是 不 音 而 喻 的 , 因为 访问 这 些 “ 高 
内 存 ” 页 面 时 要 遵循 特殊 的 步 又。 进一步 将 “ 低 内 存 ” 页 面 也 分 成 两 部 分 ， 则 是 因为 DMA 操作 对 目 
标 页 面 的 特 隶 要 求 。 在 PC 机 中 ， 能 够 对 之 进行 DMA 操作 的 页 面 必须 低 丁 0x1000000， 妈 16MB, 4H 
应 的 系统 空间 虚拟 地 址 为 MAX_DMA_ADDRESS， 这 个 常数 在 include/asm-i386/dma.h 路 定义 为 : 





75 /* The maximum address that we can perform a DMA transfer to on this platform*/ 
76 #define MAX DMA ADDRESS (PAGE_OFFSET+0x 1000000) 


所 以 ， 把 16MB 以 下 的 页 面 划 入 ZONE_DMA H, fv A 16MB 以 上 由 全 max_low_pfn 则 划 入 
ZONE, NORMAL 管理 区 。 代 码 中 的 468—479 行 准备 下 一 个 整数 数组 zones_sizel }， 数 弓 中 记录 了 对 物 
理 内 在 的 划分 ， 然 后 将 其 传递 给 函数 free area init( )， 由 这 个 函数 根据 数组 zones_size[ ] 提 供 的 指示 在 
三 个 管理 区 中 创建 起 空闲 页 面 块 队 列 。 函 数 free_area_init( JRA KM AMS mm/page_alloc.c 中 ， 我 们 
也 把 它 留 给 读者 。 

至 此 ，paging_init( ) 的 操作 已 经 完成 ， 我 们 同 到 setup. arch( ) 的 代码 中 : 


[start_kernel( ) > setup. arch( )] 


180 #ifdef CONFTG X86 IO APIC 


781 /* 

782 * gel boot-time SMP configuration: 
783 */ 

784 if (smp_found config) 
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785 
786 
787 
788 
789 
790 
79] 


807 
808 
809 
810 
811 
812 
813 
814 
815 
816 
817 
818 
819 
820 
821 
822 
823 
824 
825 
826 
827 
828 
829 
830 
831 
832 
833 
834 
835 
836 
837 
838 
839 
840 
841 
842 
843 
844 
845 
846 
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get smp config( ); 
#endif 
#ifdef CONFIG X86 LOCAL APIC 
init apic mappings( ); 
#endif 
#ifdef CONFIG BLK DEV INITRD 
BSendi f 
/* 
* Request address space for all standard RAM and ROM resources 
* and also for regions reported as reserved by the e820. 
*/ 
probe roms( ); 
for (i = 0; i < e820. nr map; i++) | 
struct resource *res; 
if (e820. mapli].addr + e820.map[il.size > 0x100000000ULL) 
continue; 
res = alloc_bootmem_low(sizeof (struct resource)); 
switch (e820. map[il]. type) { 
case E820 RAM: res—name = "System RAM”; break; 
case E820 ACPI: res->name = “ACPI Tables”: break: 
case E820 NVS: res->name = “ACPI Non-volatile Storage”; break; 
default: res-^name ~ "reserved"; 
} 
res~>start = e820. mapli]. addr; 
res->end = res—>start + e820. map[il. size - 1: 
res->flags = IORESOURCE MEM | IORESOURCE BUSY; 
request resource(&iomem resource, res); 
if (e820. map[i]. type == E820 RAM) { 
/* 
* We dont’ t know which RAM region contains kernel data, 
* so we try it repeatedly and let the resource manager 
* test it. 
*/ 
request resource(res, &code resource); 
request resource(res, &data resource); 
) 
} 


request resource(&iomem resource, &vram resource); 


/* request 1/0 space for devices used on all 11345]86 PCs */ 
for (i = 0; i < STANDARD TO RESOURCES; i++) 


request resource(&iopori resource, standard io resourcosti); 


#ifdef CONFIG VT 
#if defined(CONFIG VGA CONSOLE) 
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847 conswitchp = &vga con; 

848 Helif defined (CONFTIG DUMMY CONSOLE) 
840 conswitchp - &dummy con; 

850 #endif 

851 #endif 

852 } 


物理 内 存 页 而 当然 是 重 此 的 资源 ， 对 这 些 资源 的 管理 机 制 已 经 建立 了 。 但 是 ， 从 另 一 个 角度 看， 
地 址 空间 本 身 ， 或 者 物理 存储 器 在 地 址 空间 中 的 位 置 ， 也 是 一 种 资源 ， 也 要 加 以 管 球 。 为 此 ， 
include/linux/ioport.h 中 定义 了 一 种 resource 数据 结构 : 


11 /* 

12 * Resources are tree-like, allowing 

13 * nesting etc.. 

14 */ 

15 struct resource | 

16 const char *name; 

17 unsigned long start, end; 

18 unsigned long flags; 

19 struct resource *parent, *sibling, *child; 
20. }; 


这 种 数据 结构 描述 的 是 片 可 以 通过 访问 内 存 操作 或 VO 拘 作 加 以 访问 的 连续 空间 ， 或 者 说 操作 
对 象 丰 相应 空间 中 的 位 置 。 这 样 的 对 象 有 RAM. ROM 以 及 “: 些 用 十 外 部 设备 的 器 件 。 这 颗 所 关心 的 
只 是 由 这 些 器 件 所 形成 的 迪 辑 意义 上 的 连续 存储 空间 或 VO 地 址 空间 ， 册 并 不 关心 每 个 这 样 的 空间 在 
物理 上 包含 了 几 个 芯片 。 另 方面， 我 们 以 前 讲 过 ，i386 处 理 器 有 独立 十 内 存 访问 指令 的 VO 指令 利 
独立 十 内 存 地 址 空间 的 VO 地 址 空间 。 昌 然 有 些 处 理 器 没有 独立 的 VO 指令 和 UO 地 址 空间 ， 但 是 逻辑 
上 述 是 能 根据 用 途 区 分 站 项 资源 是 属于 存储 性 质 的 还 是 VO 性 质 的 。 每 个 resource 结构 通过 其 parent、 
sibling. child 等 指针 互相 连接 在 一 起 ， 形 成 种 树 状 结构 。 如 果 一 个 resource 结构 是 男 一 个 resource 
结构 的 子 节点 ， 则 它 所 措 述 的 空 问 是 父 节点 所 描述 空间 的 一 部 分 ， 或 者 是 对 父 节点 的 具体 化 。 内 核 中 
有 了 两样 这 样 的 树 ， 一 棵 是 iomem_resource， 另 一 棵 是 ioport_resource， 分 别 代表 着 岗 类 不 同性 硕 的 地 址 
资源 。 两 棵 树 的 根本 身 也 都 是 resource 数据 结构 ， 不 过 这 上 项 个 数据 结构 所 描述 的 并 不 是 用 PRAE 
对 象 的 地 址 资源 ， 贡 是 概念 上 的 整个 地 址 罕 间 (kemelrcsource.c)。 








18 struct resource ioport resource-í "PCI 10”, 0x0000, IO SPACE LTMIT, TORESOURCE 10]; 
19 struct resource iomem resource -| "PCI mem”, 0x00000000, Oxffffffff, IORESOURCE MEM } ; 


内 核 小 设置 了 一 个 resource 结构 数组 rom resources ]， 崩 来 记录 系统 中 每 个 ROM IL 
(archyi386/kernel/setup.c)。 所 请 ROM 实际 上 是 指 所 有 的 不 挥发 只 读 存 储 器 , 包括 PROM, EPROM, Flash 
存储 器 等 存储 器 件 。 不过， 这 个 数组 中 只 包括 PC LATA ATI AEE ROM 空间 ， 原 则 上 部 在 圭 板 | 或 第 
一 块 图 形 卡 上 , 而 不 包括 出 其 他 接口 卡 提供 的 不 挥发 存储 空间 。 以 前 说 过 , 只 要 是 PC 机 就 至 少 有 个 
ROM in], Di Xj: BIOS 总 是 在 一 个 ROM 空间 中 ， 并 世 所 在 的 位 置 总 是 疝 定 的 。 所以， 数组 中 的 第 
一 个 元 素 冉 定 地 初始 化 成 “System ROM”, 7836 OxF0000 到 0xFFFFF。 此 外 ， 图 形 接 口 小 也 有 -一 
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个 ROM 空间 ， 其 位 置 应 该 是 从 0xC0000 到 OxC7fff, AIT AE n ELE 


325 /* System ROM resources */ 
326 #define MAXROMS 6 


327 static struct resource rom resources [MAXROMS] = { 

328 { "System ROM”, OxF0000, OxFFFFF, TORESOURCE BUSY }, 
329 { “Video ROM”, 0xc0000, Oxc7fff, IORESOURCE RUSY } 
330 }; 


除 BIOS 所 在 的 ROM 空间 以 外 ， 其 他 的 ROM "mig A att KS ERM. Bid, of ROM 
空间 在 内 存 中 的 位 秆 是 有 限制 的 ， 它 们 具 能 出 现在 几 个 特定 的 区 间 ， 所 以 内 需要 措 描 这 儿 个 特定 的 区 
(aja n] LAT, BÉ SX probe_roms( ) 的 代码 在 arch/i386/kerneVsetup.c P: 


[start kernel( ) > setup. arch( ) > probe roms( )] 


332 #define romsignature(x) Ck(unsigned short *) (x) == 0xaa55) 


333 

334 static void | init probe roms (void) 

335 23 

336 int roms ~= I; 

337 unsigned long base; 

338 unsigned char *romstart; 

339 

340 request resource(&iomem resource, rom _resourcestd) ; 
341 

342 /* Video ROM is standard at C000:0000 - C7FF:0000, check signature */ 
343 for (base = OxC0000; base < OxE0000; base += 2048) | 
344 romstart ~ bus to virt(base); 

345 if (lromsignature(romstart)) 

346 continue; 

347 request resource(&iomem resource, rom resources + roms); 
348 roms++; 

349 break; 

350 } 

351 

352 /* Extension roms at C800:0000 - DFFF:0000 */ 

353 for (base = 0xC8000; base < OxE0000; base += 2048) { 
354 unsigned long length; 

355 

356 romstart - bus to virt(base); 

357 if (!romsignature (romstart) ) 

358 continue; 

359 length - romstart[2] * 512; 

360 if (length) ( 

361 unsigned int i; 
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362 unsigned char chksum; 

363 

364 chksum = 0; 

365 for (i = 0; i € length; i++) 

366 chksum += romstart[i]; 

367 

368 /* Good checksum? */ 

369 if (!chksum) | 

370 rom resources[roms]. start = base; 

371 rom resources[roms].end = base + length - 1; 
372 rom resources[roms].name = “Extension ROM"; 
373 rom resources[roms]. flags = IORESOURCE BUSY; 
374 

375 request resource (&iomem_resource, rom resources + roms); 
376 romst++; 

377 if (roms >= MAXROMS) 

378 return; 

379 ) 

380 } 

381 } 

382 

383 /* Final check for motherboard extension rom at E000:0000 */ 
384 base = OxE0000; 

385 romstart = bus to virt (base) ; 

386 

387 if (romsignature(romstart)) { 

388 rom resources[roms].start ^ base; 

389 rom resources|[roms].end = base + 65535; 

390 rom resources[roms].name = "Extension ROM”; 

391 rom resources[roms].[ílags = IORESOURCE BUSY; 

392 

393 request resource(kiomem resource, rom resources + roms); 
394 ] 

395 } 


第 -项 ROM #98, Bl BIOS 所 在 的 ROM THERA AY, PARAH Fret Pca request. resource( ) 
把 它 链 入 iomem_resource 树 中 。 有 关 的 代码 在 kemel/resource.c 中 : 


[start_kernel( ) > setup. arch( ) > probe roms( ) > request_resource( )] 


114 int request resource (struct resource *root, struct resource *now) 
115 -4 

116 siruct resource *conflict; 

117 

118 write lock(&resource lock); 

119 conflict = . request resource (root, new); 

120 write unlock (&resource, lock) ; 
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121 return conflict ? -EBUSY : 0; 
122 ~=} 
操作 的 主体 是 __requcst_resource( )， 其 代码 也 在 kernel/resource.c 中 : 


[start kernel( ) > setup_arch( ) > probe roms( ) > request_resource( ) > request resource( )] 


66 /* Return the conflict entry if you can't request it */ 
67 Static struct resource * request resource (struct resource *root, 
struct resource *new) 


68 { 

69 unsigned long start = new-»start; 
70 unsigned long end = new-»end; 
Tl struct resource *tmp, **p; 

72 

73 if (end € start) 

14 return root; 

75 if (start < root->start) 

76 return root; 

77 if (end > root->end) 

78 return root; 

79 p = &root->child; 

80 for (5) { 

81 tmp - *p; 

82 if (tmp || tmp->start > end) | 
83 new~>sibling = tmp; 
84 *p = new; 

85 new parent = root; 
86 return NULL; 

87 } 

88 p = &tmp->sibling; 

89 if (tmp-^end < start) 

90 continue; 

9] return tmp; 

92 } 

93 } 


由 于 ROM 空间 的 位 置 限制 在 儿 个 特定 的 区 间 ， 不 需 考 虑 与 其 他 资源 冲突 的 可 能 性 ， 所 以 在 
probe_roms( ) 中 并 不 检查 request_resource( ) 的 返 同 值 。 除 BIOS 所 在 的 ROM 空间 之 外 ， 其 他 的 部 要 通 
过 扫描 和 验证 。 每 个 ROM 空间 的 开头 两 个 字 节 一 定 是 0xaa55， 称 为 “ROM A”, HEIRE 
romsignature( ) 加 以 检验 。 有 的 ROM 空间 只 要 存在 就 : 定 企 某 个 特定 的 地 址 上 ， 有 的 则 可 以 在 一 个 特 
定 的 区 闻 中 ， 但 一 定 与 2KB 边界 对 齐 。 这 种 多 样 性 吓人 在 长 期 的 发 展 过 程 中 形成 的 。 

站 到 setup arch( ) 的 代 但 中 ， 将 母 板 II) ROM 空间 纳入 iomem_resource 树 中 以 后 ， 述 要 根据 前 面 
收集 在 e820 数据 结构 中 的 信息 ， 将 由 BIOS 扫描 探测 到 的 各 个 内 存 区 问 也 纳入 iomem_resource 树 的 统 
-管理 (814 一 838 行 )。 对 于 RAM 空间 , 这 时 还 进一步 分 解 出 内 核 的 代码 段 和 数据 段 两 片 特 杂 用 途 的 空 
iE]. 此 外 , 图 形 接口 上 也 有 一片 RAM 空间 , 共 地 址 为 0xA0000—0xBFFFF ( Ji, arch/i386/kernel/setup.c). 
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321 static struct resource code resource - { "Kernel code”, 0x100000, 0 }; 
322 static struct resource data resource = { "Kernel data”, 0, 0}; 
323 static struct resource vram resource = | "Video RAM area”, 

0xa0000, Oxbffff, IORESOURCE BUSY ]; 


对 于 内 核 代 但 段 和 数据 段 中 的 地 址 信息 ， 是 由 setup arch( ) 存 一 开始 时 根据 山 gcec 提供 的 _text、 
_etext、_edata 等 信息 设置 的 ( 见 634 一 637 fT). 

系统 固有 的 Vo 类 资源 则 定义 于 数组 standard_io_resources[ ] 路 (arcMi386/kernel/setup.c)，842 一 843 
行 的 for 循环 将 这 些 resource 结构 链 入 ioport resource 树 中 : 


308 struct resource standard io resources[ ] = { 

309 { “dmal”, 0x00, Oxif, IORESOURCE BUSY }, 

310 | “nicl”, 0x20, Ox3f, IORESOURCE BUSY }, 

311 | “timer”, 0x40, Ox5f, IORESOURCE BUSY }, 

312 ( "keyboard", 0x60, Ox6f, IORESOURCE BUSY } 

313 { “dma page reg”, 0x80, Ox8f, LORESOURCE BUSY | 
314 { “pic2”, Oxa0, Oxbf, IORESOURCE BUSY }, 

315 ( “dma2”, OxcO, Oxdf, IORESOURCE BUSY } 

316 { “fpu”, Oxf0, Oxff, IORESOURCE BUSY } 

317 }; 


DLE Ry AT Bl, VO 地 址 0x00~0x1f 共 32 个 寄存 器 是 用 十 第 一 个 DMA 控制 器 的 。 这 里 
固定 设置 好 的 都 是 系统 回 有 的 资源 ， 使 用 了 0x00~0xff 共 256 个 寄存 器 。 从 0x100 开始 就 是 用 于 - RR 
外 部 设备 的 VO 地 址 ， 需 要 在 相应 外 部 设备 的 初始 化 过 程 中 向 系统 登记 。 

最 后 , 一般 PC 机 都 配备 VGA 图 形 卡 ,所 以 使 作为 全 局 量 的 指针 conswitchp 指向 数据 结构 vga, con. 
这 是 VGA 卡 设备 驱动 层 的 函数 跳 转 结构 ， 提 供 了 各 种 悦 幕 操作 的 浮 数 指针 。 

在 系统 初始 化 的 第 二 阶段 ，setup_arch( ) 也 许 是 最 重要 的 函数 ， 正 如 其 函数 所 瞳 示 的 那样 ， 它 所 设 
党 的 是 系统 的 “architecture”， 即 总 体 的 结构 。 完 成 了 setup_arch( )， 内 核 就 有 了 一 个 框架 ， 内 核 中 的 各 
个 部 件 或 模块 就 有 了 运行 的 环境 。 

但 是 这 个 阶段 的 初始 化 远 未 完成 ， 路 还 长 得 很 ， 我 们 同 到 start kernel ) 中 再 往 下 看 。 


[start kernel )] 


532 printk ("Kernel command line: %s\n”, saved command line); 

533 parse options(command line); 

534 trap-init( )3 

535 init IRQ( ) ; 

536 sched init( ); 

537 time init( ); 

538 softirq init( ); 

539 

540 /* 

541 * HACK ALERT! This is early. We're enabling the console before 
542 * we've done PCI setups etc, and console init( ) must be aware of 
543 * this. But we do want output carly, in case something goes wrong. 
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544 */ 
545 console init( ); 


这 里 调用 的 init_IRQ( ). softirq_init( ) 以 及 time, init( MEER 3 章 中 看 过 了 ， 读 者 不 妨 回 过 去 温 
习 一 下 。 我 们 要 看 的 是 其 余 几 个 函数 。 

首先 是 对 引导 命令 行 中 各 个 选择 项 的 分 析 和 处 理 。 前 面 在 setup_arch( ) 中 (639 行 ) 已 经 对 命令 行 作 
过 … 些 分 析 处 理 , 但 那 只 是 专门 针对 与 内 存 有 关 的 选择 项 , 现在 则 通过 parse_options( ) 对 命令 行进 行 全 
面 的 分 析 处 理 。 函 数 parse_options( ) 所 作 的 只 是 一 些 字符 串 的 处 理 ， 目 的 在 于 从 命令 行 中 分 解 出 各 个 选 
撞 项 ， 然 后 对 等 个 选择 项 调用 checksetup( ) 加 以 处 理 。 我 们 跳 过 parse_options( ) 而 直接 看 checksetup( )， 
其 代码 在 init/main.c F: 


[start kernel( ) > parse options( ) > checksetup( )] 


318 static int init checksetup(char *line) 
319 { 

320 struct kernel param *p; 

321 

322 p = & setup start; 

323 do { 

324 int n = strlen(p->str) ; 

325 if (!strnemp (line, p->str,n)) ( 
326 if (p->setup_func (1 inetn) ) 
327 return 1; 

328 } 

329 ptt; 

330 } while (p < & setup end) ; 

331 return 0; 

332} 


内 核 中 有 个 数组 ， 数 组 中 的 每 个 元 素 部 是 一 个 kernel param 数据 结构 ， 定 义 于 include/linux/init.h: 


56 /* 

57 * Used for kernel command line parameter setup 
58 */ 

59 struct kernel param | 

60 const char *str; 

61 int (*setup. func) (char *); 

62 j; 


根据 由 parse options( ) 传 下 来 的 字符 串 ，checksetup( ) 在 这 个 数组 中 逐个 搜索 比 对 ， 如 果 与 菜 一 选 
择 项 的 字符 串 相符 ， 就 执行 由 相应 kermel param. 数据 结构 通过 也 数 指针 提供 的 操作 。 那 么 ， 数 组 由 的 
Be aE TLE MWe? 首先， 在 include/linux/init.h 中 定义 了 一 个 宏 操 作 __setup( ): 


66 &define __setup (str, fn) \ 
67 static char _ setup str_##{n[ ] | initdata = str; \ 
68 static struct kernel param __setup_##fn \ 
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| attribute  ((unused)) __initsetup = { setup_str_##fn, fn ] 
69 
70 Hendif /* . ASSEMBLY — */ 


XX B  initdata #l__initsetup 分 别 定义 为 ; 


78 Hdefine __initdata | attribute | ((__section__ (.data., init”))) 


80 Hdefine __initsetup V attribute _ ((unused, section. (^. setup. init”))) 


表示 在 连接 时 要 分 别 将 有 关 的 数据 结构 放 在 “.data.init” 和 “.,setup.init” 段 中 。 
这 样 ， 以 选择 项 “no387” 为 例 ， 在 include/asm-i386/bugs.h 中 有 这 人 么 一 行 ， 


51 . setup(/no387^, no 387); 
经 过 goo 的 预 处 理 以 乒 ， 这 行 就 变 成 了 这 样 ， 


static char __setup_str_no_387[ ] ^ initdata = “no387”; X 


static struct kernel param setup no 387 attribute | ((unused)) __initsetup = 


{ setup str no 387, no 387j 


于 是 ， 如 果 命 令 行 中 有 “no387” 这 个 选择 项 ，checksetup( ) 就 会 在 字符 趾 比 对 相符 以 后 调用 函数 
no_387( )， 其 代码 也 在 include/asm-i386/bugs.h FP: 


44 static int || init no 387(char *s) 


45 { 

46 boot cpu. data. hard math = 0; 
47 write crO(OxE | read_cr0( )); 
48 return l; 

49 ] 


对 这 个 选择 项 的 处 理 是 很 简单 的 ， 只 是 把 boot cpu data.bard math. Beak 0， 并 把 控制 寄存 器 9ocr0 
中 的 玫 个 标志 位 设 成 1， 表示 系统 中 没有 80387 协 处 理 器 ， 或 者 即使 有 也 个 用 。 
再 如 选择 项 “root=”， 表 示 要 将 文件 系统 的 总 根 建立 在 指定 的 设备 o HEXA init/main.c: 


316 . .setup("root-/, root dev setup); 


相应 的 函数 root, dev. setup( )Jl] Jj (init/main.c): 


299 static int init root dev setup(char *line) 
300 f 

301 int i; 

302 char ch; 

303 

304 ROOT DEV = name, to kdev t(lino); 
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305 memset (root device name, 0, sizeof root device name); 

306 if (strnemp (linc, "/dev/^, 5) == 0) line += 5; 

307 for (i = 0; i < sizeof root device name - 1; ++i) 

308 { 

309 ch = linefi]; 

310 if ( isspace (ch) || (ch — ',") (ch -= 'N0') ) break: 
311 root device nameli] = ch; 

312 | 

313 return 1; 

314} 


显然 ， 由 checksetup( ) 传 下 来 的 字符 串 己 经 跳 过 了 前 而 的 “root=”， 而 剩 下 的 部 ^ E 
root dev setup ) 所 关心 的 。 代 码 本 身 很 简单 ， 我 们 就 不 加 解释 了 。 

这 样 的 选择 项 有 多 少 昵 ? 有 几 上 个 之 多 。 - 般 ， 如 果 内 核 中 某 个 模块 或 设备 驱动 程序 的 设计 人 员 
觉得 有 和 需要 提供 -个 引导 选择 项 xyz， 就 可 以 提供 一 个 函数 do_xyz( )， 并 在 程序 路 册 |，- 行 
“__setup("xyz", do_xyz);” 这 就 行 了 。 


下 个 重要 的 孙 数 是 trap_init( )， 这 个 函数 的 作用 是 设置 附 阱 门 和 中 断 门 ， 读 者 在 第 3 章 中 已 经 看 
过 它 的 代码 。 但 是 当时 我 们 的 注意 力 集中 看 中 断 机 制 ， 所 以 跳 过 了 人 在 trap init( ) 中 调用 的 -个 函数 
cpu init( ). 

SM, cpu init( )55 CPU 的 初始 化 有 关 。 如 前 所 述 ，CPU 本 身 的 初始 化 主要 是 在 startup. 32052 
成 的 ， 但 是 实际 .上 有 -部 分 层次 比较 访 的 初始 化 放 在 第 .阶段 才 进 行 ， 这 就 是 这 颗 的 cpu ini ). 与 
startup_32( ) 中 的 初始 化 柑 比 ， 这 里 主要 是 为 进程 调度 作 准备 ， 其 代 色 在 arch/i386/kernel/setup.c tH: 


[start kernel( ) > trap init( ) > cpu init( )] 


2199 /* 

2200 * epu init( ) initializes state that is per CPU. Some data is already 
2201 * initialized (naturally) in the bootstrap process, such as the GDT 
2202 * and IDT. We reload them nevertheless, this function acts as a 
2203 * CPU state barrier’, nothing should get across. 

2204 */ 

2205 void | init epu init (void) 

2206 | 

2207 int nr - smp processor id( ); 

2208 struct tss struct * t ~ &init iss[nr]; 

2209 

2210 if (test and set bit(nr, &cpu initialized)) { 

2211 printk( CPU#%d already initialized!Wn^, nr); 

2212 for (;;) __sti( ): 

2213 } 

2214 printk ("Initializing CPU#%d\n”, nr); 

2215 

2216 if (cpu_has_vme |; cpu has. tsc || epu has. de) 

2217 clear in cr4(X86 CR4 VME'X86 CRA PVT!X86 CR4 TSD|X8& CR4 DE); 


2218 #ifndef CONFIG X86 TSC 
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2219 
2220 
2221 
2222 
2223 
2224 
2225 
2226 
2221 
2228 
2229 
2230 
2231 
2232 
2233 
2234 
2235 
2236 
2237 
2238 
2239 
2240 
2241 
2242 
2243 
2244 
2245 
2246 
2247 
2248 
2249 
2250 
2251 
2292 
2293 
2254 
2255 
2256 
2251 
2258 
2259 
2260 
2261 
2202 
2263 
2264 
2265 
2266 
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if (tsc disable && cpu has tsc) ( 
printk("Disabling TSC... \n”); 
f*Xk FIX-HPA: DOES THIS REALLY BELONG HERE? ****/ 
clear bit(X86 FEATURE TSC, boot cpu data. x86 capability); 
set in cr4(X86 CR4 TSD); 
) 


Sendif 

| asn _ volatile (“Igdt %0”: “=m” (gdt descr)); 
| asm. volatile _ ("lidt %0”: “=m” (idt descr)); 
/* 

* Delete NT 

*/ 
asm  ('pushfl ; andl $Oxffffbfff, (%esp) ; popfl1^); 
/* 

* set up and load the per-CPU TSS and LDT 

*/ 


atomic inc(&init mm. mm count); 
current >active mm = &init mm; 
if (current—>mm) 
BUG( ) ; 
enter lazy tlb(&init mm, current, nr); 


t-^espÜ = current-^thread. esp0; 

set tss desc(nr, t); 

gdt table[ TSS(nr)].b &- Oxfffffdff; 
load TR(nr); 

load LDT(&init mm): 


/* 
* Clear all 6 debug registers: 


*/ 
Hdefine CD (register) | asm  (^/movl %0, %%db” &register ::”r” (0) ); 
CD(0: CD(D; CD(2); CD(3); /* no db4 and db5 */; CD(6); CD(7); 
&undef CD 


/* 

* Force FPU initialization: 
*/ 

current-^flags &- "PF USEDTPU; 
current-^used math = 0; 

stts( ); 
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这 个 函数 不 仅 由 主 CPU 在 trap_init( ) 中 调用 ， 也 由 次 CPU 在 进入 start_secondary( ) 以 后 调用 。 代 
码 中 的 cpu_initialized 是 个 全 局 的 位 图 ， 系 统 中 的 每 个 CPU 在 这 个 位 图 中 都 有 个 对 应 的 标志 位 ， 一 个 
CPU 完成 了 本 上 壬 的 初始 化 就 将 相应 的 标志 位 设置 成 1, 让 其 他 CPU, 其 实 主 要 是 主 CPU, 知道 这 个 CPU 
的 初始 化 已 经 完成 了 。 对 于 每 个 具体 的 CPU 而 言 ， 将 cpu_initialized 中 的 对 应 位 设置 成 1 只 能 发 生 一 
次 。 如 果 有 哪 一 个 CPU 再 次 试图 设 图 其 对 应 标志 位 就 肯定 是 出 了 问题 ， 所 以 就 让 出 了 问题 的 CPU 陷 
入 一 个 无 限 循环 。 这 实际 上 相当 于 让 CPU 跳 过 下 面 的 所 有 操作 进入 空转 ， 央 为 CPU EXN 
能 响应 中 断 请 求 ， 并 且 在 中 断 服务 以 后 若 发 现 需要 调度 就 会 如 常 进 行 调度 。 不 过 ，CPU 在 所 请“ 空转 ” 
中 会 进入 停机 状态 ， 实 际 上 龙 不 转 ， 而 在 这 个 for 循环 中 则 真正 在 打转 。 

跳 过 对 TSC 等 的 设置 , 下面 对 段 寄存 器 的 设置 ,对 (当前 进程 的 )task_struct 结构 中 的 指针 active mm 
的 设置 ， 以 及 为 什么 task. struct 结构 中 的 指针 mm 应 该 是 0， 还 有 对 “任务 寄存 器 ”的 设置 ， 结 合 第 3 
草 和 第 4 章 的 内 容 读者 应 该 能 自己 读 懂 。 人 代码 中 的 2233 行将 CPU 中 “标志 位 寄存 器 ”的 NT 位 (表示 
REHA AIK, "Nested Task”) 清 成 0。 由 于 没有 直接 对 这 个 寄存 器 进行 位 操作 的 指令 ， 这 里 先 把 它 压 
入 堆栈 ， 在 堆栈 中 操作 完了 再 送 回 寄存 占 。2248 行 通过 load LDT( ) 装 入 局 部 段 描述 表 指 针 LDTR， 不 
过 Linux ARE VM86 模式 上 才 使 用 局 部 段 ， 所 以 我 们 在 这 里 并 不 关心 。 还 有 ，2256 行 是 对 CPU 中 
一 些 程序 调试 寄存 器 的 初始 化 ，2263~2265 行 是 对 浮 点 处 埋 器 的 初始 化 ， 这 里 就 都 从 略 了 。 

再 看 对 进程 调度 机 制 的 初始 化 。 


[start_kernel( ) > sched init( )] 


1244 void | init sched init (void) 


1245 { 

1246 /* 

1247 * We have to do a little magic to get the first 
1248 * process right in SMP mode 

1249 */ 

1250 int cpu = smp processor id( ); 

1251 int nr; 

1252 

1253 init task. processor = cpu; 

1254 

1255 for(nr = 0; nr < PIDHASH SZ; nrt) 

1256 pidhash[nr] = NULL; 

1257 

1258 init timervecs( ); 

1259 

1260 init bh(TIMER BH, timer bh); 

1261 init bh(TQUEUE BH, tqueue bh); 

1262 init bh(IMMEDIATE BH, immediate bh); 
1263 

1264 /* 

1265 * The boot idle thread does lazy MMU switching as well: 
1266 */ 

1267 atomic inc(&init mm.mm count); 

1268 enter lazy tlb(&init mm, current, cpu); 
1269 } 
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这 里 所 调用 的 一 些 函数 对 读者 已 经 不 陌 目 了 。 虽 然 还 没有 看 过 init_timervecs( JI. (EMA 
思 义 这 是 对 定时 器 中 断 向 量 的 初始 化 。 所 以 ， 我 们 把 这 个 函数 留 给 读者 。 

然后 是 对 系统 主 控 终 端的 初始 化 ， 读 者 已 经 在 “设备 驱动 ”， 章 中 看 到 过 了 了。 

我 们 还 得 往 下 看 。 


[start_kernel( )] 


546 #ifdef CONFIG MODULES 


54T init modules( ); 

548 Sendif 

549 if (prof shift) { 

550 unsigned int size; 

551 /* only text is profiled */ 

552 prof len = (unsigned long) & etext - (unsigned long) & stext; 
553 prof len >>= prof shift; 

554 

555 size = prof len * sizeof(unsigned int) + PAGE SIZE-1; 
556 prof buffer - (unsigned int *) alloc bootmem(sizo); 
557 } 

558 

559 kmem cache init( ); 

560 sti( ); 

561 calibrate delay( ); 


562 #ifdef CONFIG BLK DEV TNTTRD 


569 #endif 

570 mem init( ); 

571 kmem cache sizes init( ); 
572 #ifdef CONFIG 3215 CONSOLE 
573 con3215 activate( ); 
574 #endif 

575 üifdef CONFIG PROC FS 

576 proc root init( ); 

577 Hendif 

578 mempages - num physpages; 
579 

580 fork init(mempages); 

581 proc caches init( ); 

582 vfs caches init (mempages) ; 
583 buffer inii (mempages) ; 
584 page cache init (mempages) ; 
585 kiobuf setup( ); 

586 signals init( ); 

587 bdev init( ); 

588 inode init (mempages) ; 

589 Hif defined(CONFIG SYSVIPC) 
590 ipc init( ); 
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591 fendif 

592 Hit defined (CONFIG QUOTA) 

593 dquot_init hash( ); 

594 #endif 

595 check bugs( ); 

596 printk("POSIX conformance testing by UNIFIX\n”) ; 


首先 是 对 四 安装 模块 这 个 机 制 的 初始 化 ， 其 实 只 起 计算 出 内 核 符号 表 的 大 小 ,而 HH 计算 也 很 简单 。 
函数 init_modules( ) 的 代码 在 kernel/module.c 中 : 


[start kernel( ) > init modules( )] 


229 /* 

230 * Called at boot time 

231 */ 

232 

233 void | init init modules (void) 

234 { 

235 kernel module.nsyms = __stop ksymtab - __start___ksymtab; 
236 


237 #ifdef  alpha__ 


239 Hendif 
240 } 


物理 负面 empty. zero. page 在 前 面 被 借用 来 传递 引导 命令 行 和 参数 块 ,现在 应 该 物 昌 原 主 了 。 顾 名 
思 义 ， 这 个 和 页面 的 内 容 应 该 是 企 0。 此 外 ， 基 本 内 存 中 的 页 面 ， 即 IMB 以 下 的 页 面 还 没有 释放 以 供 动 
态 分 生 ， 前 面 使 用 的 页 面 位 图 所 在 的 页 而 现在 也 已 经 完成 了 使 命 ， 也 应 该 释放 以 供 动 态 分 配 。 还 有 ， 
前 面 讲 过 ， 在 页 面 映 射 目录 中 的 低 区 ， 即 对 应 杆 用 户 空间 的 区 间 有 儿 个 临时 性 的 日 录 项 ， 最 后 应 该 了 
以 清除 。 同 时 ， 还 和 需 懂 收集 或 计算 出 一些 统计 信 以 。 这 些 操 作 都 是 由 mem_init( ) 完 成 的 ， 其 代码 在 
mm/init.c F: 


[start kernel( ) > mem init( )] 


554 void init mem init(void) 


555 { 

556 int codesize, reservedpages, datasize, initsize; 
557 int Lmp; 

558 

559 if (!mem map) 

560 BUG( ) ; 

561 

562 #ifdef CONFIG HIGHMEM 

563 highmem start page - mem map * highstart pfn; 
564 max mapnr = num physpages = highend pfn; 

565 Helse 
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max mapnr = num_physpages = max_low_pfn; 
#endif 
high memory = (void *) ^ va(max low pfn * PAGE SIZE) ; 


/* clear the zero-page */ 
memset(empty zero page, 0, PAGE SIZE); 


/* this will put all low memory onto the freelists */ 
totalram pages *- free all bootmem( ); 


reservedpages - 0; 

for (tmp = 0; tmp < max low pfn; tmp++) 
/* 
* Only count reserved RAM pages 
x/ 
if (page is ram(tmp) && PageReserved(mem map*tmp)) 

reservedpagestt; 
#ifdef CONFIG_HIGHMEM 

for (tmp = highstart pfn; tmp < highend pfn; tmp) { 

struct page *page = mem_map + tmp; 


if (‘page is ram(tmp)) | 
SetPageReserved (page) ; 
continue; 

j 

ClearPageReserved (page) ; 

set bit (PG highmem, &page-^flags); 

atomic set (&page->count, 1); 

. free page (page) ; 

totalhigh pages++; 

ii 


Lolalram pages += totalhigh pages; 


#endil 
codesize = (unsigned long) & etext - (unsigned long) & text; 
datasize = (unsigned long) & edata (unsigned long) & etext; 
initsize - (unsigned long) & init end - (unsigned long) & init begin; 


printk( Memory: %luk/%luk available \ 


(%dk kernel code, %dk reserved, %dk data, %dk init, %ldk highmem) W^, 


(unsigned long) nr free pages( ) «€ (PAGE SHIFT-10), 

max mapnr << (PAGE SHIFT-10), 

codesize >> 10, 

reservedpages << (PAGE SHIFT-10), 

datasize >> 10, 

initsize >> 10, 

(unsigned long) (totalhigh pages << (PAGE SHIFT-10)) 
); 


Linux 内 核 源 代码 情景 分 析 《下 册 ) 
613 #if CONFIG X86 PAE 


614 if (!cpu has_pae) 

615 panic("cannot execute a PAE-enabled kernel on a PAE-less CPU!^); 
616 Rendif 

617 if (boot cpu data. wp works ok < 0) 

618 test wp bit( ); 

619 

620 /* 

621 * Subtle. SMP is doing it’s boot stuff late (because it has to 
622 * fork idle threads) - but it also needs low mappings for the 
623 * protected-mode entry to work. We zap these entries only after 
624 * the WP-bit has been tested. 

625 */ 

626 #ifndef CONFIG SMP 

627 zap low mappings( ); 

628 #endif 

629 

630 } 


这 里 的 571 行将 empty. zero. page 的 内 容 清 成 全 0。 接 着 调用 的 free_all_bootmem( ) 是 个 重要 的 操 
作 ， 它 根据 页 面 位 图 的 内 容 释 所 物 理 内 存 中 所 有 可 供 动 态 分 配 的 负面 ， 将 这 些 页 面 投入 动态 分 配 。 


[start_kernel( ) > mem init( ) > free all bootmem( )] 


300 unsigned long | init free all bootmem (void) 


301 { 
302 return(free all bootmem core(&contig page data)); 
303  ] 


[start kernel( ) > mem init( ) > free all bootmem( ) > free all bootmem core( )] 


224 static unsigned long | init free all bootmem core (pg data t *pgdat) 
225 { 


226 struct page *page = pgdat->node_mem_map; 

227 bootmem data t *bdata = pgdat->bdata; 

228 unsigned long i, count, total = 0; 

229 unsigned long idx; 

230 

231 if (tbdata—>node_bootmem_map) BUG( ); 

232 

233 count = Q; 

234 idx = bdata—>node_low pfn - (bdata->node boot start >> PAGE SHIFT); 
235 for (i 90: i < idx; i++, page++) { 

236 if (!test bit(i, bdata->node bootmem map)) | 
237 count-*; 

238 ClearPageReserved(page); 

239 set page count(page, 1): 

240 .. free page(page) ; 
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241 } 

242 } 

243 total += count; 

244 

245 /* 

246 * Now free the allocator bitmap itself, it’s not 
247 * needed anymore: 

248 */ 

249 page = virt to page (bdata->node_bootmem_map) ; 
250 count = 0; 

251 for Gi = 0: 


i < ((bdata->node_ low pfn-(bdata->node_boot. start >> PAGE SHIFT))/8 
+ PAGE SIZE-1) /PAGE_SIZE; 
i++, page++) { 


252 countt+; 

253 ClearPageReserved (page) ; 
254 set_page_count (page, 1); 
255 | free_page (page) ; 

256 } 

257 total += count; 

258 bdata-»node bootmem map = NULL; 
259 

260 return total; 

261 } 


这 里 的 bdata->node_boot_start 是 在 前 面 的 init_bootmem_core( ) 中 设置 的 ， 表 示 整 个 物理 内 存 的 起 
点 (页 面 号 )， 其 数值 为 0， 但 是 在 特殊 的 情况 下 也 可 以 不 是 0。 而 bdata->node_low_pfn 则 为 物理 内 存 中 
最 高 的 贡 面 号 〈 不 包括 HIGHMEM). 235—242 行 的 for 循环 扫描 整个 物理 内 存 的 所 有 页 面 ， 对 于 每 个 
页 面 都 测试 页 面 位 图 中 的 对 应 位 ， 如 果 对 应 位 为 0 就 表示 这 个 页 面 可 以 投入 分 配 。 把 相应 page 结构 中 
的 使 用 计数 设置 成 1， 假 装 这 个 页 面 已 经 分 配 ， 再 对 其 调用 __free_page( )， 就 把 这 个 page 结构 挂 入 了 
所 属 的 空闲 页 面 队 列 。 训 以 说 ， 前 面 为 物理 页 面 管理 机 制 和 空闲 页 面 队列 的 建立 作 了 很 多 的 准备 ， 特 
别 是 页 面 位 图 的 设立 ， 最 终 为 的 就 是 这 一 步 。 正 因为 这 样 ， 一 旦 完成 了 这 一 步 ， 页 面 位 图 就 不 再 需要 ， 
因而 它 所 占据 的 物理 页 面 也 可 以 释放 了 ，251~256 行 的 for 循 坏 就 是 用 来 释放 这 些 页 面 。 

在 mem_init( ) 中 还 有 条 件 地 调用 了 一 个 函数 test_wp_bit( )， 这 是 针对 80386 CPU 而 设 的 ， 现 在 已 
经 没有 多 大 意义 了 。 注 意 627 行 对 zap_low_mappings( ) 的 调用 是 条 件 编译 的 语句 ， 仅 对 单 处 理 器 系统 
有 效 。 在 初始 化 的 第 一 阶段 建立 起 了 页 面 映射 目录 ， 为 了 向 页 式 映射 过 渡 ， 当 时 的 目录 中 同时 在 系统 
空间 和 州 户 空间 映射 了 物理 内 存 的 开头 SMB 空间 。 后 来 把 系统 空间 Bu gg o" RES TE MOEA E, 但 
是 其 用 户 空 间 的 映射 尚 末 拆 除 。 而 内 核 线程 在 正常 运行 中 是 不 应 该 使 用 0x C0000000 以 下 的 地 址 的 , 所 
以 应 该 把 用 户 空间 的 映射 拆除 。 人 然而， 在 SMP 结构 的 系统 中 ， 现 在 次 CPU 尚 林 开始 运行 ， 当 次 CPU 
开始 运行 时 也 要 经 历 初 始 化 的 第 一 阶段 ， 也 要 向 页 式 映射 过 渡 ， 所 以 现在 还 不 能 拆除 这 些 映 里 。 

国 到 start_kernel( ) 的 代码 中 ，kmem_cache_sizes_init( ) 是 对 内 核 中 通用 slab 缓冲 区 管理 机 制 的 初始 
化 ， 通 过 kmem_cache_create( ) 建 立 起 大 小 分 别 为 32 字 节 、64 字 节 、…、128KB 的 缓冲 区 队列 ， 这 些 
slab 缓冲 区 是 供 内 核 通过 kmalloc( ) 动 态 分 配 的 ,专用 的 slab 缓冲 区 则 不 在 其 中 。 接 着 , proc_root_init( ) 
是 对 特殊 文件 系统 /proc 的 初始 化 ， 读 者 已 经 在 第 5 章 看 过 这 个 函数 的 代码 。 再 下 面 是 fork_init( )， 根 
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据 物理 内 存 的 大 小 计算 出 允许 创建 线程 (包括 进程 ) 的 数量 ， 其 代码 在 kernel/fork.c rh: 


Istart. kernel( ) > fork init( )] 


77 void _init fork_init (unsigned long mempages) 

78 { 

79 /* 

80 * The default maximum number of threads is set Lo a safe 
81 * value: the thread structures can take up at most half 
82 * of memory. 

83 */ 

84 max threads = mempages / (THREAD SIZE/PAGE SIZE) / 2; 

85 


86 init task. rlim[RLIMIT NPROC]. rlim cur = max threads/2;: 
87 init task. rlim[RLIMIT NPROC].rlim max = max threads/2; 
88 } 


接 下 来 的 proc caches init( ). vfs caches init( ). buffer init( )EL kiobuf setup( ) 和 signals init( ), 
还 有 bdev init( ) 和 inode init( )， 基 本 上 都 是 为 有 关 的 管理 机 制 建立 起 专用 slab 缓冲 区 队列 。 而 
page_cache_init( ) 则 分 配 空 间 建立 起 缓冲 页 面 杂凑 表 page_hash_table， 这 个 函数 的 代码 在 mm/filemap.c 
H, 


[start kernel( ) > page cache. init( )] 


2583 void | init page cache init(unsigned long mempages) 


2584  ( 

2585 unsigned long htabie size, order; 

2586 

2587 htable size = mempages; 

2588 htable size *- sizeof(struct page *); 

2589 for(order = 0; (PAGE STZE << order) € htable size; order++) 
2590 ; 

2591 

2592 do { 

2593 unsigned long tmp = (PAGE STZE << order) / sizeo[ (struct page *); 
2594 

2595 page hash bits - 0; 

2596 while((tmp >>= LUL) != OUL) 

2597 page hash bitstt: 

2598 

2599 page hash table = (struct page **) 

2600 __ get free pages (GFP ATOMIC, order); 

2601 } while(page hash table -~ NULL && -order > 0); 

2602 

2603 printk("Page-cache hash table entries: %d (order: %ld, %ld bytes) \n’, 
2604 (1 << page hash bits), order, (PAGE SIZE << order)); 
2605 if (!page hash table) 
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2606 panic(”Failed to allocate page hash tableW"); 
2607 memset ((void *)page hash table, 0, PAGE HASH SIZE * sizeof(struct page *)); 
2608  ] 


这 里 引用 的 宏 操 作 定义 于 include/linux/pagemap.h: 


42 tdefine PAGE HASH BITS (page hash bits) 
43 Hdefine PAGE HASH SIZE (1 << PAGE HASH BITS) 


缓冲 页 面 杂凑 表 是 个 page 结构 指针 数组 ， 数 组 中 的 每 一 项 都 用 来 维持 一 个 page 结构 的 单 链 队列 。 
这 个 杂凑 表 的 使 用 对 于 提高 文件 操作 和 页 面 换 入 / 换 出 的 效率 起 着 重要 的 作用 。 杂 凌 表 的 大 小 是 2 的 整 
数 次 宕 ， 大 的 杂凑 表 有 利于 使 页 面 在 队列 中 更 趋 分 散 ， 从 而 有 利于 提高 查找 效率 ， 但 症 太 大 了 也 没有 
必要 。 所 以 ， 这 里 根据 物理 内 存 的 大 小 先 估算 出 一 个 期 望 值 ， 然 后 试 着 按 这 个 大 小 分 配 空间 ， 如 果 分 
配 不 到 就 降格 以 求 ， 减 小 对 大 小 的 要 求 。 最 后 ， 成 功 分 配 到 所 带 的 空间 以 后 ， 就 把 它 初 始 化 成 件 0。 
至 于 ipc_init( )， 那 当然 是 对 Sys V 进程 间 通 信 机 制 的 初始 化 。 


[start_ kernel( ) > ipc. init( )] 


34 void | init ipe init (void) 


35 { 

36 sem init( ); 
37 msg init( ); 
38 shm init( ); 
39 return; 

40 } 


这 些 函 数 大 体 上 都 一样 ， 都 是 对 有 关 数 据 结构 如 msg ids. shm ids 的 初始 化 ， 同 时 为 通过 /proc FF 
殊 文 件 系 统 获取 有 关 信 息 创造 条 件 ， 在 /proc 目录 下 建立 起 “sysvipc/shm” 等 节点 。 
初始 化 的 第 二 阶段 终于 接近 尾声 了 ， 下 面 是 最 后 的 冲刺 。 


[start_kernel{ )] 


597 

598 /* 

599 * We count on the initial thread going ok 

600 * Like idlers init is an unlocked kernel thread, which will 
601 * make syscalls (and thus be locked). 

602 */ 

603 smp init( ); 

604 kernel thread(init, NULL, CLONE FS | CLONE FILES | CLONE SIGNAL) ; 
605 unlock kernel( ); 

606 current—>need_resched = 1; 

607 cpu_idle( ); 

608  ] 


迄今 为 目的 初始 化 一 直 都 只 有 一 个 CPU 在 执行 (尽管 有 些 代 码 是 公 几 的 ) ,如 果 是 SMP 结构 的 系统 ， 
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就 一 直上 只 有 主 CPU 在 运行 ， 其 余 的 CPU 都 是 “次 CPU”， 都 要 受到 主 CPU 的 启动 才能 运行 。 现 在 ， 
系统 的 “经 济 基础 ”已 经 建立 ， 可 以 启动 这 些 次 CPU 的 运行 了 。 这 里 的 smp_init( ) 就 是 对 SMP 结构 的 
初始 化 ， 具 体 包括 启动 系统 中 的 各 个 次 CPU， 让 它们 完成 自身 的 初始 化 并 进入 各 自 的 空转 进程 。 读 者 
已 经 在 前 一 章 中 看 到 这 个 函数 的 代码 以 及 对 有 关 过 程 的 介绍 。 

从 smp_init( ) 返 回 到 start_kernel( ) 时 ，SMP 结构 的 初始 化 已 经 完成 ， 所 有 的 次 CPU 都 已 经 或 者 即 
将 经 由 start_secondary( ) 进 入 cpu_idle( )。 主 CPU 在 初始 化 的 第 二 阶段 还 有 一 件 事 要 做 ， 那 就 是 创建 内 
核 线程 init( )。 创 建 了 这 个 内 核 线程 以 后 ， 主 CPU 也 会 转 入 cpu idle( )。 可 见 ， 不 管 是 主 CPU 还 是 次 
CPU， 最 终 都 会 进入 cpu_idle( )。 当 系统 中 所 有 的 CPU 都 进入 cpu_idie( ) 中 时 ， 它 们 就 站 在 了 同一 个 起 
点 上 ， 开 始 公平 竞争 了 。 这 个 函数 的 代码 在 kernel/process.c 中 : 


[start kernel( ) > cpu. idle( )] 


117 /* 

118 * The idle thread. There's no useful work to be 
119 * done, so just try to conserve power and have a 
120 * low exit latency (ie sit in a loop waiting for 
121 * somebody to say that they'd like to reschedule) 
122 */ 

123 void cpu_idle (void) 

124  ( 

125 /* endless idle loop with no priority at all */ 
126 init idle( ); 

127 current-^nice = 20; 

128 current-?counter = -100; 

129 

130 while (1) { 

131 void (*idle) (void) = pm idle; 

132 if (lidle) 

133 idle = default idle; 

134 while (!current—>need_resched) 

135 idle( ); 

136 schedule( ) ; 

137 check pgt cache( ); 

138 ) 

139 } 


ISP PAE EARS COED, REAR MBER RE BHI ART. BEAR BRAT CPU 都 在 执行 这 个 
循环 ， 而 且 在 循环 中 也 并 不 引用 与 此 前 的 历史 有 关 的 变量 ， 也 就 分 不 出 什么 主 次 ， 所 以 从 此 以 后 系统 
中 所 有 的 CPU 就 部 互相 平等 了 。 当 “个 CPU 在 cpu_idle( ) 中 执行 时 ， 就 是 处 十 该 CPU 的 “空转 ” 进 
程 中 。 读 者 在 前 而 已 经 看 到 ， 空 转 进程 并 不 挂 入 系统 中 的 就 绪 队 列 ， 其 task_struct 结构 指针 保持 在 以 
CPU 编号 为 下 标的 数组 init_tasksf ] 中 。 由 于 空转 进程 不 挂 入 就 绪 队 列 ， 在 进程 调度 时 就 永远 不 会 以 空 
转 进 程 为 目标 。 相 有 反 ， 只 有 在 没有 进程 可 以 运行 时 才 会 同 到 空转 进程 中 来 。 

ARA, CPU 在 空转 进程 中 干 些 什么 昵 ? 简 言 之 就 是 循环 地 执行 一 个 空转 函数 ， 直 到 进程 的 
task struct. 结构 中 的 need resched OAK 1， 此 时 就 通过 schedule( ) 进 行 一 次 进程 调度 。CPU 一 进入 
. 718 . 
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schedule( )， 就 一 直 要 到 系统 中 再 无 就 绪 进 程 可 以 运行 时 才 会 返回 到 cpu idle( ) 中 ， 然 后 就 再 等 待 
current->need_resched 变 成 1。 一 般 情况 下 的 空转 函数 为 default idle( )， 其 代码 见 kemel/process.c ( 在 
引导 时 可 以 在 命令 行 中 通过 选择 项 “idle=poll” 将 pm idle 设置 成 指向 poll idle( )， 但 是 两 个 函数 并 无 
本 质 的 不 同 )。 


[cpu_idle( ) > default idle( )] 


80 static void default idle (void) 

8l i 

82 if (current cpu data. hlt_works ok && !hlt counter) { 
83 elit); 

84 if (!current—>need_resched) 

85 safe halt( ); 

86 else 

87 N ODE 


890 |] 


300 /* used in the idle loop; sti takes one instruction cycle to complete */ 
301 üdefine safe halt( ) = asm | volatile | (sti; hlt”: : :^memory^) 


“4CPUZEcpu_idle( ) 中 ， 放 task_stmct 结 构 中 的 need_resched 又 为 0 时 ， 就 是 实在 无 事 可 干 了 ， 所 以 
把 中 断 打 开 ， 并 通过 “hlt” 指 令 进入 “停机 ” 状态 ,或 者 说 硬件 睡眠 状态 。 外 于 这 个 状态 的 CPU 不 执 
行 任何 指令 ， 直 到 有 中 汤 请 求 到 来 时 才 会 恢复 运行 ， 那 时 就 好 像 刚 结束 hlt 指 令 的 执行 一 样 。 然 后 ， 当 
CpU 结 束 对 中 断 的 处 理 时 ， 就 会 加 到 hlt 指 令 的 后 继 指 令 ， 那 就 是 从 default_idle( ) 返 回 了 。 取决 于 具体 的 
中 断 ， 在 中 斯 服务 程序 中 有 订 能 会 使 当前 进程 的 need_resched 标 志 变 成 1， 那样 就 会 在 cpu_idle( ) 中 结束 
134 行 的 while 人 循环 而 调用 schedule( )， 和 否则 就 又 进入 default_idle( )。 

当 系 统 中 所 有 的 CPU 都 进入 cpu_idle( ) 中 时 ， 就 绪 队列 中 只 有 一 个 进程 ， 那 就 是 前 面 604 行 创建 的 
init( )。 所 以 ,实际 上 只 有 一 个 CPU 能 在 schedule( ) 中 调度 这 个 惟一 的 进程 运行 ， 因此 只 让 一 个 CPU 执行 
schedule( ) 就 行 了 。 让 谁 执行 schedule( ) 昵 ? “近水楼台 先 得 月 ”， 原先 的 主 CPU 在 放下 身份 与 次 CPU “FT 
成 一 片 "之 前 留 了 -一手 ,在 606 行 把 它 自己 的 need_resched 标 志 设 成 了 1, 从 而 成 了 最 先进 行 调度 的 CPU， 
当仁不让 地 取得 了 执行 init( ) 的 权利 。 而 其 他 的 CPU， 则 自 会 在 cpu_idie( ) 中 的 134 行 受 到 咀 挡 而 暂时 个 
RE BI RE 


10.4 系统 初始 化 (第 三 阶段 ) 


内 核 线程 init() 的 任务 仍然 还 是 初始 化 ， 当 然 是 进步 的 、 更 高 层次 上 的 初始 化 。 事 实 上 ， 从 虽 导 
结束 ，CPU 转 入 内 核 映 象 开始 ， 一 共有 三 个 阶段 的 初始 化 。 第 一 个 阶段 是 从 进入 startup_32( ) 开 始 到 进 
入 start_kernel( ) 或 者 start_secondary( )。 这 个 阶段 主要 是 对 CPU 自身 的 初始 化 , 主 CPU 和 次 CPU 都 要 
经 历 这 种 初始 化 ， 但 是 主 CPU 要 多 作 一 些 页 献 。 第 二 个 阶段 是 从 进入 start_kernel( ) 开 始 到 进入 
cpu_idle( )。 这 个 阶段 主要 是 对 系统 的 “经 济 基础 ” 即 各 种 资源 的 初始 化 ， 仅 由 主 CPU 进行 。 第 三 个 
阶段 则 是 init( ) 的 执行 ， 这 是 对 系统 的 “上 层 建 筑 ” 的 初始 化 。 表面 上 此 时 已 无 主 CPU 和 次 CPU 之 分 ， 
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由 谁 执行 init( ) 取 决 于 竞争 调度 的 结果 ， 但 是 由 于 主 CPU 预先 留 了 一 手 ， 实 际 上 总 是 由 它 执行 的 。 函 
数 init ) 的 代码 在 ini/main.c 中 ， 这 个 函数 本 身 并 不 长 ， 但 是 实际 进行 的 操作 雪 不 简单 ， 所 以 我 们 还 是 


要 分 段 阅 读 。 

761 static int init(void * unused) 

762  ( 

763 lock kernel( ); 

764 do basic setup( ): 

165 

766 /* 

767 * Ok, we have completed the initial bootup, and 
768 * we're essentially up and running. Get rid of the 
769 * initmem segments and start the user-mode stuff. 
770 */ 

771 free initmem( ); 

772 unlock kernel( ); 

773 


. 720 . 


这 里 在 对 内 核 加 锁 的 条 件 下 调用 了 do_basic_setup( YI free_initmem( ) 两 个 函数 。 表 面 上 此 时 系统 
中 只 有 … 个 进程 可 以 被 调度 运行 ,因而 只 有 一 个 CPU 能 够 运行 ， 似 乎 不 必 加 锁 。 但 是 ,下 面 就 会 看 到 ， 
在 执行 init( ) 的 过 程 中 还 会 创建 新 的 进程 。 另 一 方面 ， 如 果 发 生 中 断 ， 则 这 些 CPU 还 是 有 可 能 在 中 断 
服务 程序 中 造成 干扰 。 

先 看 do basic setup( )， 这 是 主要 的 ， 其 代码 在 iniymain,c 中 。 我 们 删 去 了 代码 中 一 些 条 件 编译 的 
片段 ， 另 一 些 条 件 编译 的 片段 因为 本 来 就 只 有 一 行 语句 而 没有 删 去 ， 但 是 我 们 在 这 里 基本 | 不 关心 这 
些 选择 项 ， 有 兴趣 或 需要 的 读者 可 自行 研读 。 这 些 ( 我 们 不 关心 的 ) 条 件 编 译 选择 项 有 : 


CONFIG_BLK_DEV_INITRD。 用 于 RAMDISK， 即 以 一 部 分 内 存 来 模拟 硬 得 。 
CONFIG_MTRR。 如 果 CPU 中 有 MTRR 寄存 器 ， 就 可 以 通过 这 个 寄存 器 按 区 间 来 管理 内 存 
的 高 速 缓冲 。 不 过 ， 也 可 以 不 用 MTRR， 而 按 页 而 米 管理 高 迷 缓 冲 。 
CONFIG_SYSCTL。 人 允许 在 运行 中 动态 地 改变 . 些 内 核 中 的 参数 。 
CONFIG_SBUS。SBUS 是 Sparc 工作 站 中 采用 的 总 线 。 

CONFIG, PPC. 3&H] T Power PC 处 理 器 。 

CONFIG_MCA。 用 于 PS/2 系统 结构 中 的 Micro Channel 外 设 总 线 。 
CONFIG_ARCH_ACORN。 适 用 于 ARM 处 理 器 。 

CONFIG ZORRO. 一 种 总 线 。 

CONFIG_DIO。 一 种 总 线 。 

CONFIG_NUBUS. Macintosh 计算 机 中 的 总 线 。 

CONFIG_ISAPNP。 用 十 ISA 总 线 上 支持 PoP (Plug and Play) 的 接口 卡 。 
CONFIG_TC。 用 于 一 种 称 为 Turbo Channel 的 总 线 。 

CONFIG_IRDA。 有 几 于 红外 线 通信 接口 。 

CONFIG_PCMCIA。 用 于 笔记 本 电脑 的 外 插 接 口 卡 。 


至 于 CONFIG_PCI, 则 虽然 也 是 选择 项 (笔记 本 电脑 中 没有 PCI 总 线 ), 但 是 实际 上 不 但 用 于 桌 上 型 
PC， 也 广泛 用 丁 联 入 式 系统 中 ， 读 者 已 经 在 “设备 驱动 ” 章 中 看 过 其 初始 化 函数 pci_init( ) 的 代码 。 
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[init( ) > do. basic. setup( )] 


641 
642 
643 
644 
645 
646 
647 
648 
649 
650 


652 
653 
654 
655 
656 
657 
658 
659 
660 
661 
662 
663 
664 
665 
666 
667 
668 
669 
670 
671 
672 
673 
674 
675 
676 
677 
678 
679 
680 
681 
682 
683 
684 
685 
686 


* Ok, the machine is now initialized. None of the devices 
* have been touched yet, but the CPU subsystem is up and 
* running, and memory and process management works. 
* 
* 


Now we can finally start doing some real work.. 
*/ 
static void init do_basic_setup (void) 
{ 
#ifdef CONFIG BLK DEV INITRD 


Hendif 


/* 
Tell the world that we're going to be the grim 
reaper of innocent orphaned children. 


We don't want people to have to make incorrect 
assumptions about where in the task array this 
can be found. 


Xx * * X* X 


*/ 


child reaper = current; 


#if defined (CONFTG MTRR) /* Do this after SMP initialization */ 
/* 

* We should probably create some architecture-dependent “fixup after 
* everything is up” style function where this would belong better 

* than in init/main.c.. 

*/ 

mtrr init( ) ; 
#endif 


#ifdef CONFIG SYSCTL 
sysctl init( ); 
#endif 


/* 
* Ok, at this point all CPU' s should be initialized, so 
* we can start looking into devices.. 
*/ 
#ifdef CONFIG PCI 
pci init( ) ; 
#endi f 
#ifdef CONFIG SBUS 
sbus_init( ); 
#endif 
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687 Sif defined (CONFIG PPC) 


688 ppe_init( ); 

689 #endif 

690 #ifdef CONFIG MCA 
691 mca init( ); 

692 &Rendif 

693 #ifdef CONFIG ARCH ACORN 
694 ecard init( ); 
695 #endif 

696 #ifdef CONFIG ZORRO 
697 zorro init( ); 
698 #endif 

699 #ifdef CONFIG DIO 
700 dio_init( ); 

701 Hendif 

702 #ifdef CONFIG NUBUS 
703 nubus_init( ); 
704 Rendif 

705 #ifdef CONFIG_ISAPNP 
706 isapnp init( ); 
107 #endif 

708 #ifdef CONFIG TC 

109 tc_init( ) ; 

710 fendif 

711 

712 /* Networking initialization needs a process context */ 
713 sock init( ); 
114 


715 #ifdef CONFIG BLK DEV INTTRD 


720 #endil 

721 

722 start_context_thread( ); 

723 do initcalls(); 

124 

725 /* .. filesystems .. */ 

726 filesystem setup( ); 

121 

128 #ifdef CONFIG TRDA 

129 irda device init( ); /* Must be done after protocol initialization */ 
730 #Hendif 

731 #ifdef CONFIG PCMCIA 

732 init_pemcia_ds( ) ; / Do this last */ 
733 Rendi £ 

734 

735 /* Mount the root filesystem. */ 

736 mount_root( ); 

737 
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738 mount devfs fs (); 
739 
740 ifdef CONFIG BLK DEV INITRD 


758 Hendif 
759 } 


跳 过 条 件 编译 部 分 ， 剩 下 也 就 不 多 了 。 我 们 把 sock_init( ) 的 代码 留 给 读者 结合 第 7 章 自己 疯 读 ， 
这 里 先 看 start_context_thread( ) 的 代码 ， 它 在 kernel/context.c P: 


[init( ) > do basic, setup( ) > start_context_thread( )] 


149 int start context thread (void) 





150 { 
151 kernel thread(context thread, NULL, 
CLONE FS | CLONE FILES | CLONE SIGHAND); 
152 return 0; 
153 } 


这 是 系统 中 创建 的 第 一 个 内 核 线程 ， 是 -一 个 所 谓 “ 守 护 神 ”(daemon)， 或 者 说 “代理 人 ”， 名 叫 
“keventd”。 其 代码 context thread( ) 也 在 kernel/context.c 中 : 


66 static int context thread (void *dummy) 


67 { 

68 struct task struct *curtask = current; 

69 DECLARE WAITQUEUE (wait, curtask) ; 

70 struct k sigaction sa; 

71 

72 daemonize( ); 

T3 strepy (curtask—>comm, “keventd”) ; 

74 keventd_running = 1; 

75 keventd task = curtask; 

76 

77 spin lock irq(&curtask-^sigmask lock); 

78 siginitsetinv(&curtask- blocked, sigmask(SIGCHLD)); 
79 recalc sigpending(curtask); 

80 spin unlock irq(&curtask-^sigmask lock); 

8l 

82 /* Install a handler so SIGCLD is delivered */ 

83 sa. sa. sa handler = SIG IGN; 

84 sa. sa. sa flags = 0; 

85 siginitset (&sa. sa. sa mask, sigmask (SIGCHLD) ) ; 

86 do sigaction(SIGCHLD, &sa, (struct k sigaction *)0); 
87 

88 /* 

89 * If one of the functions on a task queue re-adds itself 
90 * to the task queue we call schedule( ) in state TASK RUNNING 
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91 */ 

92 for (;;) { 

93 sei task state(curtask, TASK TNTERRUPTIBLE) ; 
94 add wait queue(&context task wq, &wait); 

95 if (TQ ACTIVE(tq context)) 

96 set task state(curtask, TASK RUNNING): 
97 schedule( ); 

98 remove wait queue(Kcontext task wq, &wait); 
99 run task queue (&tq_ context); 

100 wake up(&context task done); 

101 if (signal pending(curtask)) { 

102 while (waitpid(-1, (unsigned int *)0, __ WALL|WNOHANG) > 0) 
103 ; 

104 flush signals(curtask); 

105 recalc sigpending(curtask); 

106 ) 

107 } 

108} 


这 个 进程 的 主体 是 - -个 无 穷 for 循 坏 ， 平 时 在 一 个 队列 context task wq 中 睡眠 等 待 。 在 些 设 备 
驱动 程序 中 ， 有 一 些 函数 可 能 需要 在 一 个 进程 的 上 下 文中 执行 (而 不 是 在 中 断 处 理 的 上 下 文中 执行 )， 
keventd 就 为 这 种 消 数 充当 着 “代理 人 ”的 角色 。 需 要 把 一 个 函数 提交 给 keventd， 使 这 个 函数 得 以 在 
keventd 的 .上 下 文中 执行 时 ， 就 为 这 个 函数 准备 下 一 个 tq_struct 数据 结构 ， 然 后 通过 schedule, task( ) 把 
这 个 数据 结构 挂 入 队列 ta_context， 并 唤醒 在 队列 context, task. wq 中 睡眠 的 keventd。 当 keventd 被 调 
度 运 行 时 ， 就 会 以 它 的 名 义 、 在 它 的 上 下 文中 道 过 run task queue( ) 执 行 挂 在 tq. context 中 的 函数 。 函 
数 schedule, task( ) 的 代码 在 kernel/context.c 中 ， 读 者 可 与 context_thread( ) 的 代码 对 照 着 阅读 。 


44 /** 

45 * schedule task - schedule a function for subsequent execution in process context 
46 * (task: pointer to a &tq struct which defines the function to be scheduled. 
47 * 

48 * May be called from interrupt context.The scheduled function is run at some 
49 * time in the near future by the keventd kernel thread. If it can sleep, it 
50 * should be designed to do so for the minimum possible time, as it will be 
51 * stalling all other scheduled tasks. 

52 * 

53 * schedule task( ) returns non-zero if the task was successfully scheduled 
54 * Tf @task is already residing on a task queue then schedule task( ) fails 
55 * to schedule your task and returns zero. 

56 */ 

57 int schedule_task (struct tq struct *task) 

58 f 

59 int ret; 

60 need keventd( | FUNCTION  ); 

61 ret = queue task(task, &iqg context); 
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62 wake up(&context task wq); 
63 return ret; 
64  ] 


WA, 这 种 函数 与 第 3 章 中 的 bh 函数 有 什么 区 别 呢 ? 我 们 讲 过 , bh 函数 实质 上 是 中 断 服务 程序 的 
- .部 分 ， 是 在 中 断 服务 的 上 下 文中 执行 的 ， 因 而 受到 … 些 限制 ， 而 在 进程 上 下 文中 执行 的 函数 就 不 受 
这 些 限 制 。 例 如 ， 在 bh 函数 中 就 不 应 该 有 可 能 受阻 而 需 炎 睡眠 等 待 的 操作 ， 贤 在 进程 下 文中 执行 的 
函数 则 可 以 使 当前 进程 ， 即 keventd Ae Fe dE A HHK. 

从 context thread( ) 的 代码 中 还 可 以 看 出 ， AA AeA BE A Te Be daemonize( ) 才 能 变 成 
“守护 神 ” 这 个 函数 的 作用 其 实 只 是 释放 从 父 进程 继承 下 来 的 一 些 资源 ( 斩 断 尘缘 才能 成 神 )， 而 改换 
门庭 投 到 init task 的 门下 ， 共 享 它 的 资源 。 


[context_thread( ) > daemonize( )] 


1197 /水 

1198 * Put all the gunge required to become a kernel thread without 
1199 * attached user resources in one place where it belongs. 

1200 */ 

1201 

1202 void daemonize (void) 

1203 { 

1204 struct fs struct *fs; 

1205 

1206 

1207 /* 

1208 * Tf we were started as result of loading a module, close all of the 
1209 * user space pages. We don't need them, and if we didn’t close them 
1210 * they would be locked into memory 

1211 */ 

1212 exit mm(current); 

1213 

1214 current-?session = l; 

1215 current-?pgrp = 1; 

1216 

1217 /* Become as one with the init task */ 

1218 

1219 exit fs(current); /* current->fs->count--; */ 

1220 fs = init task. fs; 

1221 current->fs = fs; 

1222 atomic_ine (&fs—>count) ; 

1223 exit_files (current) ; 

1224 current-^files = init task. files; 

1225 atomic inc(&current-^files-^count): 

1226 d 


回 到 do. basic setup( )， 调 用 的 下 一 个 水 数 是 do, initealls( )， 其 代码 在 init/main.c P: 
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[init( ) > do. basic setup( ) > do_initcalls( )] 


627 static void | init do_initcalls (void) 


628 | 

629 initcall t *call; 

630 

631 call = & | initcall start; 

632 do { 

633 (call) (); 

634 call++; 

635 } while (call < & | initcall end); 
636 

637 /* Make sure there is no pending stuff from the initcall sequence */ 
638 flush scheduled tasks( ); 

639  ] 


这 个 函数 貌 不 惊人 ， 可 是 干 的 事情 却 非 同 小 可 ! 

大 家 都 知道 ， 内 核 映 象 也 跟 一 般 可 执行 程序 的 喘 象 ，. 样 有 代码 段 和 数据 段 。 但 是 这 只 是 一 般 而 言 ， 
事实 上 内 核 映 象 中 还 有 其 他 些 比较 小 的 段 和 子 段 。 内 核 源 代码 中 有 个 文件 arch/i386/vmlinux.lds 是 对 
连接 工具 GNU Id 的 连接 说 明 ， 文件 中 描述 了 内 核 映 象 中 所 有 的 段 和 子 段 , 读者 不 妨 看 - -下 。 我 们 在 这 
里 关心 的 起 其 中 的 两 个 ， 一 个 是 “,textinit”、 我们 称 之 为 “初始 化 代码 段 ?” 另 一 个 则 是 “.initcalLinit”、 
我 们 称 之 为 “初始 化 调用 段 >、， 有 关 的 定义 如 下 (linux/inith); 


43 /* 
44 * Used for initialization calls.. 
45 */ 


46 typedef int (*initcall_t) (void); 
47 typedef void (texitcall t) (void); 


48 

49 extern initcall t ^ initcall start, | initcall end; 

51 Sdefine __initcall (fn) \ 

52 static initcall t  initcall ffüfn | init call = fn 

76 Hdefine init . attribute — (( section . (”. text. init”))) 


$0009 095 9 ot n 


8l Hdefine ^ init callV 


. attribute ^ ((unused, section | (”. initeall. init”))) 


内 核 的 代码 中 ， 凡 是 只 在 系统 初始 化 时 调 州 一 次 ， 以 后 就 不 会 再 受到 调用 的 函数 就 在 前 面 加 上 - 
个 限定 词 __init， 例 如 上 面 的 do_initcalls( ) 本 身 就 是 这 样 的 一 个 函数 。 这 些 函 数 在 编译 、 连 接 以 后 就 全 
都 集中 在 一 起 ， 都 在 “初始 化 代码 段 ” 中。 之 所 以 要 这 样 ， 是 因为 这 些 函 数 所 占 的 内 存 空间 在 初始 化 
完成 以 后 就 可 以 另 作 他 用 ， 而 集中 在 一 起 就 可 以 成 片 地 回收 。 

“初始 化 代码 段 ” 中 的 函数 不 是 一 律 平 等 的 ， 其 中 有 些 函 数 是 某 一 方面 初始 化 的 “入 口 函 数 汪 所 
以 项 要 在 系统 初始 化 时 从 do_initcalls( ) 中 加 以 调用 ， 而 同 在 初始 化 代码 段 中 的 另 “: 些 函数 则 白 会 因此 
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关系 。 可 是 怎样 调用 呢 ? 当然 可 以 按 常 规 把 对 这 些 函 数 的 调用 全 都 列 出 在 do. initcalls( ) 中 。 但 是 这 样 
多 少 会 给 内 核 代码 的 编写 和 维护 带 来 一 些 不 便 ， 例 如 每 要 增加 或 减少 一 种 什么 功能 时 就 得 相应 地 修改 
do. initcalls( ) 的 代码 。 为 了 减少 这 种 不 便 ， 内 核 代码 的 作者 们 采用 了 一 个 巧妙 的 办 法 ， 那 就 是 为 这 些 需 
要 在 初始 化 时 加 以 调用 的 函数 都 准备 下 一 个 函数 指针 ， 并 把 这 些 函 数 指针 都 集中 在 一 起 形成 一 个 “ 初 
始 化 调用 段 ” 实际 上 就 是 - -个 函数 指针 数组 。 这 样 ， 就 可 以 通过 一 个 循环 来 调用 所 有 这 些 函 数 了 ， 这 
就 是 do. initcalls( ) 中 的 do-while 循环 的 来 历 , 代码 中 的 __initcall_start 和 __initcall_end 分 别 是 这 个 段 的 
起 点 和 终点 。 这 样 的 安排 为 编程 带 来 了 方便 。 例如， 假定 你 要 在 内 核 中 增加 一 个 功能 模块 xyz， 并 卫 需 
要 静态 地 连 入 内 核 映 象 中 (有 些 基本 的 功能 不 一 定 适 合 采用 动态 安装 模块 ), 而 所 有 的 程序 都 在 一 个 文件 
xyz.c 中 ， 初 始 化 入 口 为 xyz_init( )， 则 只 要 在 同文 件 中 加 上 一 行 “__initcall (xyz_init);” 就 可 以 了 ， 
并 不 需要 到 do. initcalls( ) 的 代码 中 去 作 什么 修改 。 

那么 ， 这 样 的 函数 指针 都 有 哪 一 些 呢 ? 我 们 存 这 里 只 能 略 举 数 例 。 一 个 是 mm/slab.c 中 定义 的 
mm, cpucache init( )， 这 是 SMP 结构 中 对 slab 缓冲 块 队列 的 一 些 优化 ， 需 要 作为 初始 化 程序 来 执行 
(mm/slab.c) « 


471  initcall(kmem cpucache init); 


经 过 gec 的 预 处 理 ， 就 会 在 初始 化 调用 段 中 生成 出 - :个 指向 kmem_cpucache_init( ) 的 函数 指针 


. initcall kmem cpucache init: 


static initcall t _ initcall, kmem cpucache init 
| attribute _ ((unused, section | (”. initcall.init”))) = kmem cpucache init; 


fj-llldrivers/pci/proc.cH Æ X.[lpci proc init( )， 这 是 对 特殊 文件 系统 /proc 中 子 上 日 录 /proc/pci 的 初始 
化 ， 用 十 PCI 总 线 的 管理 


437  initcall(pci proc init); 


经 过 gee 的 预 处 理 就 会 生成 -个 指向 pei proc init( ) 的 函数 指针 __initcall_pci_proc_init。 不 过 ， 这 
些 都 不 是 我 们 所 关心 的 。 我 们 在 这 里 关心 的 是 在 fs/partitions/check.c 中 的 - -个 函数 partition_setup( ): 


456 initcall(partition_setup) ; 


不 知道 代码 的 作者 为 什么 给 它 取 了 这 人 么 个 名 字 ， 其 实 这 个 函数 与 做 盘 的 分 区 毫 无 关系 ， 实 际 上 处 
埋 的 是 外 部 设备 的 初始 化 ， 这 大 系统 初始 化 的 一 个 重要 组 成 部 分 。 


[init( ) > do_basic_setup( ) > do, initcalls( ) > partition setup( )] 


442 int | init partition setup (void) 
443 { 

444 device init( ); 

445 

446 #ifdef CONFIG BLK DEV RAM 
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447 #ifdef CONFIG_BLK DEV_INITRD 


448 if (initrd start && mount initrd) initrd load( ); 
449 else 

450 #endif 

451 rd load( ); 

452 Hendif 

453 return 0; 

454 } 


函数 的 主体 (我 们 忽略 条 件 编译 部 分 ) 是 device_init( )， 其 代码 在 drivers/block/genhd.c 中 : 


[init( ) > do_basic_setup( ) > do_initcalls( ) > partition setup( ) > device. init( )] 


34 void | init device init(void) 
35 { 

36 Hifdef CONTTG PARPORT 

37 parport init( ); 

38 #endif 

39 chr. dev, init( ); 

40 blk dev init( ); 

41 Sti( ); 

42 #ifdef CONFIG I20 

43 i2o init( ) ; 

44 Sendif 

45 #ifdef CONFIG BLK DEV DAC960 
46 DAC960 Initialize( ); 
41 #endif 

48 #ifdef CONFIG FC4 SOC 

49 /* This has to be done before scsi dev init */ - 
50 soc probe( ); 

5I #endif 

52 #ifdef CONFIG IEEE1394 

53 ieeel394 init( ); 
54 #endif 

55 Hifdef CONFIG BLK CPQ DA 
56 cpqarray init( ); 

57 #endif 

58 #ifdef CONFTG NET 

59 net dev init( ); 

60 Hendif 

61 Hifdef CONFIG ATM 

62 (void) atmdev init( ); 
63 &endif 

64 #ifdef CONFIG VT 

65 console map init( ); 
66 endif 

67 ] 
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可 见 ， 这 是 所 有 外 部 设备 初始 化 的 总 入 凯 ， 里 面包 括 了 块 设备 的 初始 化 blk_dev_init( )、 一 般 字符 
设备 的 初始 化 chrdev_init( )， 还 有 一 些 特殊 设备 的 初始 化 ， 如 并 行 口 的 parport init )、 网 络 设备 的 
net dev init( ) 和 atmdev_init( ) 等 等 。 其 中 的 有 些 初始 化 程序 已 经 在 “设备 驱动 ”一 章 中 读 过 ， 有 些 (网 
络 设备 ) 不 在 本 书 内 容 的 范围 之 内 ， 有 些 则 虽 在 本 书 内 容 的 范围 之 内 但 尚未 读 过 。 但 是 ， 限 十 本 书 的 篇 
幅 ， 我 们 别 无 选择 ， 只 好 把 这 些 函 数 留 给 读者 了 。 特 别 地 ， 我 们 建议 读者 结合 “设备 驱动 ”一 章 读 一 
下 blk_dev_init( ) 中 调用 的 ide_init( )， 那 是 对 IDE 硬盘 的 初始 化 。 

事实 上 ， 所 有 静态 模块 的 初始 化 都 是 通过 _initcall( ) 说 明 的 ， 只 不 过 是 间接 的 ， 通 过 另 一 个 宏 定 
X. module, init( ) 转 了 个 弯 而 已 ( 见 include/linux/init.h): 


890 . #define module_init(x) __initeall (x); 

例如 ， 对 Ext2 文件 系统 的 支持 就 是 以 模块 的 形式 实现 的 ， 所 以 在 fslext2/super.c 中 就 有 这 人 么 一 行 : 
800 module init(init ext2 fs) 

所 以 函数 init_ext2_fs( ) 也 是 由 do, initcalls( ) 调 用 的 ， 实 际 上 其 代码 也 在 初 始 化 代码 段 中 : 


[init( ) > do_basic_setup( ) > do_initcalls( ) > init ext2 fs( )] 


788 static int . init init_ext2_fs (void) 


789 { 
790 return register filesystem(&ext2 fs type); 
791 } 


显然 ， 到 do initcalls( UTR, PA Ree hea OAT, AD hRS 
块 文 持 的 所 有 文件 系统 也 都 已 向 系统 登记 。 

加 到 do basic setup( ) 的 代码 中 ， 下 而 (726 行 ) 是 对 filesystem_setup( ) 的 调用 。 不 过 ， 这 里 所 谓 “ 文 
件 系统 ”只 是 指 几 个 特殊 文件 系统 ， 主 要 是 devfs。 基 他 还 有 作为 条 件 编 译 选择 项 的 “网 络 文件 系统 ” 
nfs 以 及 对 Unix96 PTY“ 擅 终端 ”的 支持 ， 这 些 特殊 文件 系统 的 安装 并 不 依赖 于 文件 系统 的 根 设备 。 
上 其 中 devis 的 安装 是 在 安装 根 设备 之 前 的 准备 上 作 , 如 果 系 统 支持 devfs, 则 devfs 的 初始 安装 对 于 企 引 
导 命 令 行 中 采用 root= "EPEAT HB BY. AN, 这 里 对 devfs 的 安装 只 是 “ 预 安装 风 就 是 通过 kern. mount( ) 
进行 的 安装 ， 以 后 还 要 通过 do_mount( ) 冉 “ 重 安装 ”一 次 。 


[init( ) > do_basic_setup( ) > filesystem, setup( )] 


28 void __init filesystem setup (void) 


29 { 

30 init devfs fs( ); /* Header file may make this empty */ 
3l 

32 #ifdef CONFIG NFS FS 

33 init nfs fs( ); 

34 Hendif 

35 


36 #ifdef CONFIG DEVPTS FS 
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37 init devpts fs( ); 
38 Hendif 
39 } 


现存 到 了 安装 文件 系统 根 设备 的 时 人 息 了 ， 根 设备 的 安装 不 同 于 此 后 其 他 设备 的 安装 。 AA 
件 系统 ) 的 安装 都 要 先 通 过 /dev 目录 找到 代表 着 待 安装 设备 的 节点 ， 从 而 取得 待 安 装 设备 的 设备 写 。 而 
安装 点 - 般 ( 除 些 特 殊 文 件 系 统 外 ) 也 是 在 已 安装 文件 系统 中 的 某 个 节点 。 安 装 根 设备 时 /dev 日 录 尚 不 
存在 ， 但 是 一 般 根 设备 就 是 引导 设备 ， 其 设备 号 已 经 在 参数 块 中 传递 了 过 来 ， 而 根 设备 的 安装 点 “/” 
本 来 就 不 在 已 经 安装 的 文件 系统 中 ， 不 需要 寻找 。 不 过 ， 如 果 丰 引导 命令 行 中 指定 了 以 另 个 设备 作 
为 根 设备 , 那 就 需要 一 些 起 码 的 根据 设备 名 找到 设备 号 的 能 力 , 这 就 是 在 此 之 前 先 预 安装 devfs 的 日 的 。 
此 外 还 有 一 点 不 同 之 处 ， 常 规 的 安装 都 事先 知道 设备 上 是 哪 一 种 文件 系统 ( 见 do_mount( BAH, if 
根 设 备 的 安装 却 开 不 事先 知道 文件 系统 的 类 型 ， 而 需要 在 安装 时 试 竣 。 所 以 ， 内 核 中 有 个 妆 数 
mount, root( ) 专 用 于 根 设备 的 安装 ， 其 代码 在 fs/super.c 中 。 这 个 哨 数 比较 长 ， 所 以 我 们 分 段 阅读 ， 同 
时 我 们 也 从 代码 中 删 去 了 一 些 条 件 编译 的 片段 。 


[init( ) > do basic, setup( ) > mount, root( )] 


1462 void | init mount root (void) 


1463  ( 

1464 struct file system type * fs type; 
1465 struct super block * sb; 

1466 struct vfsmount *vfsmnt; 

1467 struct block device *bdev = NULL; 
1468 mode_t mode; 

1469 int retval; 

1470 void *handle; 

1471 char path[64]; 

1472 int path start = -1; 

1473 


1474 #ifdef CONFTG ROOT NFS 
1507 Rendif 

1508 

1509 Hifdef CONFIG BLK DEV FD 


1529 Hendif 


1530 

1531 devfs make root (root device name); 

1532 handle - devfs find handle (NULL, ROOT DEVICE NAME, 

1533 MAJOR (ROOT DEV), MINOR (ROOT_DEY), 

1534 DEVFS SPECIAL BLK, 1); 

[535 if (handle) /* Sigh: bd*( ) functions only paper over the cracks */ 
1536 { 

1537 unsigned major, minor; 

1538 

1539 devfs get maj min (handle, &major, &minor); 
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1540 ROOT DEV = MKDEV (major, minor); 
1541 } 


代码 中 的 root. device name[ ] 是 个 全 局 量 ， 如 果 在 引导 命令 行 中 使 用 了 “root=” 选 择 项 ， 就 会 在 C 
个 初始 化 函数 root_dev_setup( ) 中 从 这 个 选择 项 中 将 设备 名 的 前 缀 “/aew” 去 掉 ， 然 后 复制 到 这 个 宁 
PHT. KZ devfs_make_root( ) 把 旧式 的 设备 名 如 “ide/hd/0” 等 等 转换 成 新 式 的 设备 名 ， 其 一 般 形 式 
为 “/hostO/bus1/target2/un3/part4”。 然 后 ， 便 通过 devfs find handle( ) 在 devfs 文件 系统 中 寻找 ， 这 里 
用 到 了 一 些 宏 操 作 定 义 或 常数 定义 ( 见 fs/super.c 及 include/linux/devfs fs. kernel.h): 


48 #ifdef CONFIG BLK DEV INITRD 

49 # define ROOT DEVICE NAME((real root dev ==ROOT_DEV) ? root device name:NULL) 
50 Helse 

51 &define ROOT DEVICE NAME root device name 

52 Hendif 


59 kdev t ROOT DEV; 


ROOT DEV 看 起 来 像 是 个 常数 ， 实 际 上 却 是 个 全 局 变量 。 这 个 变量 的 初 值 起 在 系统 初始 化 的 第 一 
阶段 在 setup arch( ) 中 设置 的 ， 实 际 上 来 自 引 导 辅 助 程序 和 BIOS. - 般 而 言 ， 从 什么 设备 上 引导 ， 那 
个 设备 就 是 根 设 备 ， 除 非 首 过 “root=” 选 择 项 另 加 指定 。 读 者 也 许 感到 困惑 ， 系 统 是 由 BIOS 引导 的 ， 
而 “设备 号 ”是 Unix/Linux 所 特有 的 ， 就 算 BIOS 从 IDE 接口 上 的 某 个 磁盘 或 疯 区 引导 ， 它 又 怎么 能 
知道 这 个 设备 在 Linux 中 的 设备 号 是 什么 呢 ? FES, BIOS (MA LILO) 只 是 从 引导 设备 上 读 入 了 引导 
扇 区 ， 并 且 把 引导 扇 区 在 内 存 中 的 映 象 当 作 可 执行 代码 而 跳 转 到 它 的 开头 处 ， 以 后 的 事 就 取决 于 引导 
RK A AAW setup 了 。 而 这 二 者 是 与 具体 的 系统 密切 相关 的 ， 实 际 上 就 是 系统 的 一 部 分 ， 而 
且 就 存放 在 具体 的 设备 上 ， 当 然 就 能 知道 这 设备 的 设备 号 是 什么 了 。 

所 以 ， 代 码 中 的 153171541 行 是 为 通过 “root=” 选 择 项 改变 根 设备 而 设 的 。 如 果 在 引导 命令 行 中 
没有 使 用 这 个 选择 项 ， 或 者 内 核 不 支持 devfs， 那 就 保持 ROOT_DEYV 的 初 值 不 变 。 


[init( ) > do basic, setup( ) > mount root( )] 


1542 

1543 /* 

1544 * Probably pure paranoia, but I’m less than happy about delving into 
1545 * devfs crap and checking it right now. Later. 

1546 */ 

1547 if (!ROOT DEV) 

1548 panic(^T have no root and I want to scream”); 

1549 

1550 bdev = bdget(kdev t to nr(ROOT DEV)); 

1551 if (!bdev) 

1552 panic( FUNCTION . ^: unable to allocate root device”); 

1553 bdev->bd op = devfs get ops (handle); 

1554 path start - devfs generate path (handle, path * 5, sizeof (path) - 5); 
1555 mode - FMODE READ; 
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1556 if (!(root mountflags & MS_RDONLY)) 

1557 mode |- FMODE WRITE; 

1558 retval = blkdev get(bdev, mode, 0, BDEV FS); 

1559 if (retval == EROFS) { 

1560 root mountflags |- MS RDONLY; 

1561 retval = blkdev get(bdev, FMODE READ, 0, BDEV FS); 
1562 } 

1563 if (retval) { 

1564 /* 

1565 * Allow the user to distinguish between failed open 
1566 * and bad superblock on root device 

1567 */ 

1568 printk (YFS: Cannot open root device \"%s\” or %s\n”, 
1569 root device name, kdevname (ROOT DEV)): 

1570 printk (“Please append a correct \“root=\” boot optionin/); 
1571 panic("VFS: Unable to mount root fs on %s”, 

1572 kdevname (ROOT. DEV) ) ; 

1573 } 

1574 

1575 check disk change (ROOT DEY) ; 

1576 sb = get super(ROOT DEY) ; 

1577 if (sb) { 

1578 fs type = sb-^s type; 

1579 goto mount it; 

1580 } 

1581 


知道 了 根 设备 的 设备 号 ， 下 面 的 操作 就 与 普通 的 安装 没有 多 大 不 同 了 上 ， 央 为 设备 驱动 层 已 经 在 此 
之 前 完成 了 初始 化 ,根据 设备 写 就 可 以 找到 有 关 的 数据 结构 。 例 如 ，1550 行 的 bdget( ) 根 据 设备 号 找到 
或 者 创建 给 定 设 备 的 block_device 数据 结构 ， 读 者 已 经 在 “设备 驱动 ”一 章 中 读 过 它 的 代码 。1553 行 
的 devfs get ops( ) 找 到 设备 的 block device operations 数据 结构 。 然 后 ，blkdev_get( ) 通 过 这 个 数据 结 
构 中 提供 的 open 操作 “打开 ”目标 设备 。 这 里 先 在 1558 行 试 着 按 可 写 模式 打开 ， 如 果 失 败 就 在 1561 
行 租 按 只 读 模 式 打 开 。 至 十 1576 行 的 get_super( )， 则 扫描 已 经 读 入 系统 中 的 超级 快 队列 。 如 果 在 这 个 
队列 由 找到 了 目标 设备 上 的 趋 级 块 ， 就 可 以 知道 该 设备 上 的 文件 系统 是 什么 类 型 的 (1578 行 )， 从 而 可 
以 进入 真正 的 “安装 ”操作 (1579 行 )。 当 然 ， 对 于 根 设 备 的 安装 ， 其 超级 块 还 不 在 超级 块 队 列 中 ， 央 
而 需要 从 设备 上 读 入 。 

我 们 接着 御 下 看 。 


[init( ) > do_basic_setup( ) > mount root( )] 


1582 read lock(&file systems lock); 

1583 for (fs type = file systems ; fs type ; fs type = fs_type->next) ( 
1584 if (!(fs type—^fs flags & FS REQUIRES DEV)) 

1585 continue; 

1586 if (!try inc mod count(fs type-^owner)) 

1587 continue; 
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1588 
1589 
1590 
1591 
1592 
1593 
1594 
1595 
1596 
1597 
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read unlock(&file systems lock); 
sb = read super(ROOT DEV, bdev, fs type, root mountflags, NULL, 1) ; 
if (sb) 
goto mount it; 
read lock(&file systems lock); 
put filesystem(fs type); 
} 
read unlock(&file systems lock); 
panic("VFS: Unable to mount root fs on *s^, kdevname (ROOT_DEV)) ; 


内 核 中 的 file systems 是 一 个 file system type 数据 结构 队列 ， 队 列 中 的 每 个 数据 结构 都 代表 着 一 


种 受到 内 核 支持 的 文件 系统 。 队 列 中 的 各 个 数据 结构 都 通过 函数 指针 提供 其 自己 的 read, super 操作 。 
这 里 依次 以 各 种 文件 系统 的 file system type 数据 结构 为 参数 调用 read. super( )， 实 际 上 就 是 让 各 种 文 
件 系统 都 来 试 试 ， 看 谁 能 从 设备 上 读 入 一 个 格式 相符 的 超级 块 。 读 者 已 经 在 “文件 系统 ”一 章 中 读 过 
read_super( ) 的 代码 。 

读 入 了 超级 块 ， 就 可 以 进入 安装 阶段 了 。 


[init( ) > do_basic_setup( ) > mount_root( )] 


1598 
1599 
1600 
1601 
1602 
1603 
1604 
1605 
1606 
1607 
1608 
1609 
1610 
1611 
1612 
1613 
1614 
1615 
1616 
1617 
1618 
1619 


mount it: 


) 


printk (“YFS: Mounted root (9s filesystem) %s. Mn", 

fs type-^name, 

(sb-^s flags & MS RDONLY) ? ^ readonly” : "^): 
if (path start >= 0) { 

devfs mk symlink (NULL, "root", DEVFS FL DEFAULT, 

path * 5 * path start, NULL, NULL); 

memcpy (path * path start, "/dev/^, 5); 

vfsmnt = add vfsmnt(NULL, sb-^s root, path + path start); 
} 
else 

vfsmnt = add_vfsmnt (NULL, sb-^s root, ”/dev/root”) ; 
/* FIXME: if something will try to umount us right now... */ 
if (vfsmnt) { 

set _fs_root(current->fs, vfsmnt, sb-^s root); 

set fs pwd(current— fs, vfsmnt, sb->s root); 

if (bdev) 

bdput(bdev); /* sb holds a reference */ 

return; 

} 


panic("VFS: add vfsmnt failed for root fs”); 


函数 add vfsmnt( ) 的 代码 已 经 在 “文件 系统 ”一 章 中 读 过 ， 这 里 就 不 多 说 了 。 函 数 set fs root( ) 


设置 当前 进程 的 fs struct 数据 结构 中 的 root 和 rootmnt 两 个 指针 ， 使 它们 分 别 指向 根 节点 的 dentry 数 
据 结构 , 就 是 这 里 的 sb->s_root, 以 及 安装 根 设 备 时 的 “连接 件 ”vfsmount 数据 结构 ,就 是 这 里 的 vfsmnt。 
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同时 ，set_fs_pwd( ) 将 当前 进程 的 “当前 工作 目录 ”， 即 pwd 和 pwdmnt 两 个 指针 也 设置 成 指出 这 两 个 
数据 结构 。 读 者 将 会 看 到 ， 现 在 的 这 个 当前 进程 就 是 系统 中 所 有 进程 的 始祖 ， 把 这 个 进程 的 这 些 指针 
设置 好 了 ， 以 后 由 它 fork( ) 出 来 的 进程 就 都 会 继承 这 些 指 针 ， 以 整个 文件 系统 的 根 为 本 进程 逻辑 意义 
上 的 “ 根 ” 并且 以 此 为 本 进程 的 当前 工作 日 录 。 

完成 了 根 设备 的 安装 以 后 ， 如 果 需 要 的 话 ， 就 可 以 进一步 完成 特殊 文件 系统 devfs 的 安装 。 在 安装 
根 设备 之 前 ， 已 经 通过 kern_mount( ) 将 devfs 预 安装 了 一 次 。 但 是 ， 我们 以 前 提 到 过 ， 有 些 文件 系统 需 
要 在 此 后 髓 “ 重 安装 ”~ 次, 这样 才能 与 其 体 文件 系统 中 的 某 个 具体 的 节点 挂 上 多 ,所 以 do. basic, setup() 
接着 就 调用 mount_devfs_fs( ) 米 做 这 件 事 (fs/devfs/base.c)。 


[init( ) > do, basic setup( ) > mount_devfs_fs( )] 


3363 void | init mount devfs fs (void) 


3364 { 

3365 int err; 

3366 

3367 if ( (boot options & OPTION NOMOUNT) ) return; 

3368 err = do mount ('none^, "/dev^, "devfs^, 0, ^"^); 

3369 if (err == 0) printk (“Mounted devfs on /devNn^) ; 

3370 else printk (“Warning: unable to mount devfs, err: %d\n”, err); 


3371 } /* End Function mount devfs fs */ 


WR, WR AAR devils, FARE, MAER ee dev 节点 上 。 

Æt, do_basic_setup( ) 的 执行 已 经 完成 。 回 到 init( ) 的 代码 中 ， 初 始 化 代码 段 中 的 函数 都 已 经 执行 
过 了 。 如 前 所 述 ， 这 些 函 数 都 只 需 机 在 系统 初始 化 时 执行 一 次 ， 现 在 既然 已 经 完成 ， 就 可 以 “过 河 折 
桥 ”， 回收 它们 所 占 的 空间 另 作 他 用 了 。 南 数 free, initmem( ) 的 作用 就 是 逐个 页 面 地 回收 整个 初始 化 代 
但 段 的 内 存 空 间 ， 其 代码 在 mm/init.c 中: 


[init( ) > free initmem( )] 


656 void free initmem(void) 


657 { 
658 unsigned long addr; 
659 
660 addr = (unsigned long) (& | init begin); 
661 for (; addr < (unsigned long) (& | init end); addr += PAGE STZE) [ 
662 ClearPageReserved(virt to page (addr) ) ; 
663 set page count(virt to page(addr), 1); 
664 free page (addr) ; 
665 totalram pagest*; 
666 ) 
667 printk (“Freeing unused kernel memory: %dk freed\n’, 
(& init end - & init begin) >> 10); 
668 } 


至 此 ， 内 核 的 初始 化 已 经 完成 ， 下 面 要 再 往 上 跑 一 层 ， 处 理应 用 层 的 初始 化 ， 为 应 用 程序 的 运行 ， 
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首先 是 系统 管理 作 好 准备 了 。 我 们 接 者 往 下 看 init( ) 的 代码 。 


[init( )] 


774 
775 
776 
777 
778 
779 
780 
781 
782 
783 
784 
785 
786 
787 
788 
789 
790 
791 
792 
793 
794 


if (open("/dev/console^, O_RDWR, 0) < 0) 
printk(“Warning: unable to open an initial console. m^); 


(void) dup(0); 
(void) dup(0); 


/* 

* We try each of these until one succeeds. 

* 

* The Bourne shell can be used instead of init if we are 
* trying to recover a really broken machine. 


*/ 


if {execute command) 
execve(execute command, argv_init, envp_init): 

execve ("/sbin/init^,argv init,envp inil); 

execve ("/etc/init',argv init, envp init); 

execve ("/bin/init^,argv init, envp init); 

execve ("/bin/sh^,argv init,envp init); 

panic(/No init found. Try passing init= option to kernel. ^); 


) 


这 里 的 dup( ) 和 execve( ) 玫 是 系统 调用 。 当 前 进程 mit( ) 是 个 运行 于 系统 空间 的 内 核 线程 ， 虽 然 也 


能 作 系 统 调用 ， 却 不 能 像 在 用 户 空间 那样 通过 普通 的 C 语言 库 函 数 进 行 ， 而 要 由 内 核 中 的 系统 调用 入 
OR, RIJA execve( ) 为 例 米 看 这 些 函 数 的 定义 (include/asm-i386/ unistd.h): 


273 
274 
215 
216 
277 
278 
279 
280 
281 
282 


233 
234 
235 
236 
237 
238 


üdefine _syscall3 (type, name, typel, argl, type2, arg2, type3, arg3) V 
type name(typel argl, type? arg2, type3 arg3) \ 
{ \ 
long __res; \ 
asm _ volatile (“int $0x80” \ 
: "za" (res) \ 
: ^0" (. NR ##name), "b^ ((long) (argl)), "c^. (Cong) (arg2)), \ 
^d" ((1ong) (arg3))) ; \ 
| syscall return(type, res); \ 


} 
#define __syscall_return(type, res) V 
do { \ 
if ((unsigned long) (res) >= (unsigned long) (-125)) { \ 
errno = -(res); V 
res = -1; \ 
E 
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239 return (type) (res); V 
240 | whiie (0) 


宏 操 作 _syscall3( ) 用 于 所 有 带 一 个 参数 的 系统 调用 ， 而 execve( ) 就 是 这 样 的 系统 调用 : 


342 static inline _syscall3 (int, execve, const char *, file, 
char **, argv, char **, envp) 


经 过 gcc RÜTRHADEEUIG. MER T ef Bk execve( ) 的 定义 ; 


int execve(const char * file, char **argv, char **cnvp) 


{ 
long res; 
__asm__ volatile (“int $0x80^ 
: “=a” (__res) 
"0" ( NR execve), "b" ((long) (file)), "c" (Gong) (argv)), 
"d^ ((long) (envp))) : 
do { 
if ((unsigned long) (res) >= (unsigned long) (-125)) { 
errno = -(res); 
res = -1; 
} 
return (int) (res); 
} while (0) 
} 


对 这 上段 代码 可能 需要 一 些 解 释 。 这 里 的 输入 部 说 明 把 参数 file 放 在 寄存 嚣 %ebx 中 ,把 参数 argv 放 
在 寄存 器 %ecx 中 ， 把 参数 envp 放 在 寄存 器 %edx 中 。 了 系统 调用 号 __NR_execve 则 放 在 操作 数 0 H, 
那 就 是 局 部 变量 res. Hi D res 是 局 部 量 ， 所 以 是 在 堆栈 中 ， 而 且 在 这 里 是 在 堆栈 顶部。 所 有 这 些 正好 
构成 了 执行 指令 “int 0x80” 进 入 系统 的 条 件 。 同 时 ， 输 入 部 又 说 明 res 既是 局 部 变量 ( 因 出 在 堆栈 中 )， 
LEERTE Oeax BA, AA RSA Wt Geax 返 冲 执行 的 结 昌 。 

需要 在 内 核 中 调用 的 其 他 系统 调用 ， 如 dup( )、open( ) 等 等 ， 都 是 按 同 样 的 方式 生成 的 。 内 核 中 相 
应 地 还 有 几 于 不 带 参数 、 带 1 个 参数 、 带 2 个 参数 等 等 的 宏 操作 _syscall0( )、_syscalll( )、_syscall2( ) 
等 等 。 

前 向 的 代码 中 先 打开 /dev/console， 由 丁 这 是 当前 进程 第 一 次 打开 文件 ， 其 打开 文件 号 必定 为 0。 
接着 调用 dup ) 把 由 打开 文件 号 0 所 代表 的 连接 复制 两 次 ， 就 使 打开 文件 号 0、1 和 2 都 成 为 同一 个 连 
接 的 代表 ， 这 就 是 通常 所 说 的 “标准 输入 ”、“ 标 准 输出 ”以 及 “标准 出 错 信息 ”三 个 通道 stdin、stdout 
以 及 stderr。 打开 了 这 三 个 标准 VO 通道 以 后 ， 就 可 以 像 普通 在 shell 下 启动 的 进程 那样 ， 道 过 系统 调 诈 
execve( ) 执 行 各 种 可 执行 程序 了 。 读 者 在 第 4 章 中 看 到 ，execvel ) 是 条 不 归 之 路 ,，“ :有 旦 执行 目标 程序 成 
功 ， 最 后 就 从 日 标 程 序 直接 exit( ) 了 。 但 是 ， 如 果 执 行 昌 标 程序 失败 ,例如 在 义 件 系统 中 找 不 到 上 且 标 程 
序 , MAA execve( ) 类 败 返 回 。 所 以 , 这 里 实际 上 是 依次 尝试 执行 /sbin/init、 /etc/init、 /bin/init、 /bin/sh。 

- 般 来 说 ， 至 少 /bin/sh 是 一 定 可 以 执行 成 功 的 ， 和 否则 系统 就 根本 无 法 这 行 了 。 

那么 ，/sbin/init 又 干 些 什么 呢 ? 主要 是 根据 文件 /etc/inittab 的 规定 分 叉 (创建 ) 出 一 些 进一步 初始 化 
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的 进程 ， 包 括 对 /etcfre.dire 的 执行 ， 不 过 那 已 经 不 属 十 内 核 的 范围 了 ， 读 者 可 以 通过 命令 “man 8 init” 
疯 读 对 这 个 程序 的 说 明 ， 或 阅读 有 关 Linux 系统 管理 的 资料 。 分 叉 出 来 的 进程 中 还 包括 若干 执行 
/sbin/getty 的 进程 ， 这 些 进程 后 来 就 伙 成 了 执行 /bin/login 或 /sbin/sulogin 的 进程 。 就 这 样 ， 这 个 以 系统 
初始 化 为 开始 的 进程 就 成 为 整个 系统 中 所 有 进程 共同 的 “祖宗 ”， 这 个 进程 以 后 一 直 留 在 系统 中 ， 就 是 
系统 的 1 号 进程 。 

总 之 ， 系 统 中 有 几 个 处 理 器 就 有 儿 个 0 号 进程 ， 那 就 是 各 个 处 理 器 的 空转 进程 ， 这 些 进 程 都 不 在 
进程 的 杂凑 队列 中 ， 也 不 在 就 绪 进 程 队 列 中 ， 不 参与 进程 调度 。 但 是 ，1 号 进程 却 只 有 一 个 ,这 是 系统 
中 所 有 进程 的 祖宗 ， 从 这 个 进程 开始 的 所 有 进程 都 参与 调度 。 


10.5 系统 的 关闭 和 重 引 于 


最 后 我 们 再 看 看 关闭 系统 的 过 程 。Linux 为 此 提供 了 一 个 系统 调用 reboot( )， 内 核 中 的 实现 为 
sys_reboot( )。 顾 名 思 义 ， 这 个 系统 调用 的 功能 应 该 是 “ 重 引导 ” 但 是 实际 上 这 是 个 多 功能 的 系统 调用 。 
根据 参数 cmd 的 值 ， 这 个 系统 调用 可 以 用 村 以 下 … 些 目的 : 

e “ 重 引 导 ”(LINUX_REBOOT_CMD_RESTART 或 LINUX_REBOOT_CMD_RESTART2)。 

e “停机 ”(LINUX_REBOOT_CMD_HALT)。 

e “关机 ”(LINUX_REBOOT_CMD_POWER_OFP)。 

此 外 ， 还 可 以 用 来 设置 键 组 C_A_D， 邮 Ctrl-Alter-Delete 三 键 同 按时 的 作用 。 在 DOS 和 Windows 
操作 系统 上 同时 按 这 三 个 键 表 示 重 引导 《在 Windows NT 上 则 又 不 是 )， 所 以 Linux 允许 用 户 选 择 用 或 
不 用 这 个 特殊 的 组 合 。 

在 为 重 引导 或 停机 而 调用 reboot( ) 之 前 , 应 用 进程 应 该 先 调用 另 一 个 系统 调用 sync( )， 以 保证 把 文 
件 系统 中 所 有 已 经 改变 了 的 缓冲 区 和 数据 结构 的 内 容 先 写 入 磁盘 。 

函数 sys_reboot( ) 的 代码 在 kernel/sys.c 中 : 


261 /* 

262 * Reboot system call: for obvious reasons only root may call it, 

263 * and even root needs to set up some magic numbers in the registers 

264 * so that some mistake won l make this reboot the whole machine. 

265 * You can also set the meaning of the ctrl-alt-del-key here. 

266 * 

267 * 

268 */ 

269 asmlinkage long sys reboot(int magicl, int magic2, unsigned int cmd, void * arg) 
2700 { 


reboot doesn't sync: do that yourself before calling this 


271 char buffer[256]; 

272 

273 /* We only trust the superuser with rebooting the system. */ 
274 if (!capable(CAP SYS BOOT) ) 

215 return -EPERM; 

216 

211 /* For safety, we require “magic” arguments. */ 

278 if (magicl != LINUX REBOOT MAGIC1 | | 
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279 (magic2 !- LINUX REBOOT MAGIC2 && magic2 != LINUX REBOOT MAGIC2A && 
280 magic2 !- LTNUX REBOOT MAGIC2B)) 

281 return -EINVAL; 

282 

283 lock kernel( ); 

284 switch (cmd) { 

285 case LINUX REBOOT CMD RESTART: 

286 notifier call chain(&reboot notifier list, SYS RESTART, NULL); 
281 printk(KERN EMERG “Restarting system. m^); 

288 machine, restart (NULL) ; 

289 break; 

290 

291 case LINUX REBOOT CMD CAD ON: 

292 CAD=1; 

293 break; 

294 

295 case LINUX REBOOT CMD CAD OFF: 

296 CAD-0; 

297 break; 

298 

299 case LINUX REBOOT CMD HALT: 

300 notifier call chain(&reboot notifier list, SYS HALT, NULL); 

301 printk(KERN EMERG "System halted. Wn"); 

302 machine halt( ); 

303 do_exit (0); 

304 break; 

305 

306 case LINUX REBOOT CMD POWER OFF: 

307 notifier call chain(&reboot notificr list, SYS POWER OFF, NULL): 
308 printk(KERN EMERG “Power down. Wn"); 

309 machine_power_off( ); 

310 do_exit (0) ; 

3ll break; 

312 

313 case LINUX REBOOT CMD RESTART2: 

314 if (strncpy from user(&buffer[0], (char *)arg, sizeof(buffer)-1) « 0) ( 
315 unlock kernel ( ); 

316 return —EFAULT; 

317 } 

318 buffer[sizeof (buffer) - 1] =’ \0’; 

319 

320 notifier call chain(&reboot notifier list, SYS RESTART, buffer); 
321 printk(KERN EMERG “Restarting system with command '%s’.\n”, buffer): 
322 machine restart (buffer); 

323 break; 

324 

325 default: 

326 unlock kernel( ); 
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14 
15 
16 
17 
18 
19 


149 
150 
151 
152 


} 
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return —EINVAL; 
} 
unlock kernel ( ) ; 
return 0; 


在 sys_reboot( ) 所 实现 的 这 些 功能 中 , 以 重 引导 最 为 复杂 ， 所 以 我 们 在 这 里 读 一 下 与 此 有 关 的 代码 ， 
其 余 的 就 留 给 读者 了 。 前 面 讲 过 ， 系 统 引 导 时 可 以 使 用 一 个 带 选 拌 项 的 命令 行 ， 也 可 以 不 使 用 命令 行 ， 
所 以 sys reboot( ) 也 为 重 引导 提供 了 两 个 不 同 的 命令 码 。 我 们 只 看 不 用 命令 行 的 情景 ， 就 是 代码 中 的 
286—289 fT. 
内 核 中 的 有 些 模块 (通常 是 外 部 设备 ) 可 能 要 求 在 关闭 系统 或 重 引导 之 前 执行 一 些 特殊 的 操作 ， 例 
如 有 些 老 的 硬盘 就 要 求 在 断 电 之 前 先 把 磁头 移 到 一 个 特定 的 “起 降 ” 磁 道上 。 所 以 ， 要 提供 一 种 手段 ， 
使 这 样 的 模块 在 关闭 系统 或 重 引 导 之 前 能 得 到 通知 ， 执 行 “ 个 预定 的 函数 。 这 就 是 代码 中 调用 
notifier_call_chain() 的 目的 。 如 果 -个 模块 要 求 在 关闭 系统 或 重 引导 之 前 执行 一 个 函数 ， 就 可 以 准备 好 
一 个 notifier_block 数 据 结构 ， 并 向 系统 登记 。 这 种 数据 结构 的 定义 在 include/linux/notifierh 中 : 


struct notifier block 


Ir 


int (*notifier call) (struct notifier block *self, unsigned long, void *); 
struct notifier block *next; 
int priority; 


结构 中 的 函数 指针 就 用 十 需要 在 关闭 系统 或 重 引导 之 前 执行 的 函数 。 淮 备 好 notifier, block 数据 结 
构 以 后 ， 就 可 以 通过 register_reboot_notifier( ) 疝 系统 登记 (kernelsys.c): 


int register reboot notifier (struct notifier block * nb) 


{ 
} 


return notifier chain register(&reboot notifier list, nb) ; 


在 sys. reboot( ) 中 ， 当 旨 关闭 系统 或 重 引导 系统 的 时 候 ， 就 通过 notifier_call_chain( 执行 已 经 登记 
的 函数 ， 调 用 的 参数 之 “是 一 个 表示 调用 原因 的 代 但 。 


[sys_reboot( ) > notifier call chain( )] 


105 
106 
107 
108 
109 
110 
111 
112 
113 


/池水 


* 
* 
* 
* 
* 
* 
* 
水 


notifier call chain - Call functions in a notifier chain 
Qn: Pointer to root pointer of notifier chain 
Qval: Value passed unmodified to notifier function 
Qv: Pointer passed unmodified to notifier function 
Calls each function in a notifier chain in turn. 


If the return value of the notifier can be and'd 
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114 * with *NOTIFY STOP MASK, then notifier call chain 


115 * will return immediately, with the return value of 
116 * the notifier function which halted execution. 
117 * Otherwise, the return value is the return value 
118 * of the last notifior function called. 

119 */ 

120 

121 int notifier call chain(struct notifier block **n, unsigned long val, void *v) 
122 i 

123 int ret-NOTIFY DONE; 

124 struct notifier block *nb = *n; 

125 

126 while(nb) 

127 { 

128 ret=nb->notifier_cal] (nb, val, v); 

129 if (ret&NOTIFY_STOP_MASK) 

130 { 

131 return ret; 

132 } 

133 nb=nb->next; 

134 } 

135 return ret; 

136 ] 


调用 了 已 经 登记 的 函数 以 后 ， 就 可 以 通过 machine restart( ) 重 引导 了 ， 这 个 函数 的 代码 在 
arch/i386/kernel/process.c "H: 


[sys_reboot( ) > machine_restart( )] 


346 void machine restart (char * ^ unused) 


347 { 

348 #if CONFIG SMP 

349 /* 

350 * Stop ali CPUs and turn off local APICs and the IO-APIC, so 
351 * other OSs see a clean IRQ state 

352 */ 

353 smp send stop( ); 

354 disable IO APIC( ); 

355 endi f 

356 

357 if(!reboot thru bios) { 

358 /* rebooting needs to touch the page at absolute addr 0 */ 
359 *((unsigned short *#)  va(0x472)) = reboot mode; 

360 for GJ- 

361 int i; 

362 for (i-0; i<100; i++) { 

363 kb_wait( ); 

364 udelay (50) ; 
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365 outb (Oxfe, 0x64) ; /* pulse reset low */ 
366 udelay (50) ; 

367 } 

368 /* That didn’t work - force a triple fault.. */ 
369 | asm __volatile__(“lidt %0”: :^m" (no_idt)); 
370 | asm | | volatile ("int3”); 

371 } 

372 } 

373 l 

374 machine real restart(jump to bios, sizeof(jump to bios)); 
375-. 4 


对 于 SMP 结构 的 系统 ， 先 要 通过 smp. send. stop( ) 向 系统 中 的 其 他 CPU 发 送 一 个 请 求 停机 的 处 理 
器 间 中 断 请 求 ， 并 关闭 本 CPU 的 “高 级 中 断 控制 器 ”APIC。 此 外 ， 执 行 sys_reboot( ) 的 CPU 还 负 有 关 
闭 全 局 的 外 部 APIC 的 责任 。 然 后 ， 就 要 进行 实际 的 “重启 动 >， 即 重 引导 了 。 

对 系统 的 重启 动 可 以 通过 两 种 不 同 的 方法 进行 ， 一 种 是 通过 BIOS 进行 ， 另 一 种 就 是 直接 在 系统 
中 制造 一 次 “总 清 ” (reseb。 有 具体 采用 哪 一 种 方式 取决 于 系统 引导 时 是 和 否 使 用 了 “root=” 选 择 项 。 如 果 
没有 使 用 这 个 选择 项 ， 那 么 全 局 量 reboot thru bios 为 0， 所 以 会 采用 所 谓 “ 硬 启动 ”制造 一 次 总 清 。 
具体 的 过 程 见 360—371 行 ,我 们 就 不 深入 到 这 些 细节 中 去 了 , 有 兴趣 或 需要 的 读者 可 以 结合 PC 和 i386 
的 有 关 技 术 资 料 自行 阅读 。 

如 果 在 引导 命令 行 中 使 用 了 “root=” 选 择 项 ， 则 系统 会 在 初始 化 的 过 程 中 执行 TIR 
reboot, setup( )， 根 据 选 择 项 的 内 容 设置 reboot thru. bios 和 reboot mode 两 个 全 局 量 的 值 ， 作 为 执行 
reboot( ) 系 统 调用 时 的 依据 。 


157 static int _init reboot_setup (char *str) 


158 { 

159 while(1) ( 

160 switch (*str) { 

161 case 'w': /* "warm" reboot (no memory testing etc) */ 

162 reboot mode - 0x1234; 

163 break; 

164 case 'c': /* "cold" reboot (with memory testing etc) */ 
165 reboot mode = 0x0; 

166 break; 

167 case 'b': /* "bios" reboot by jumping through the BIOS */ 
168 reboot thru bios = 1; 

169 break; 

170 case 'h': /* “hard” reboot by toggling RESET and/or crashing the CPU */ 
171 reboot thru bios = 0; 

172 break; 

173 } 

174 if((str = strchr(str,',')) != NULL) 

175 strt*; 

176 else 

177 break; 
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178 } 

179 return 1; 

180.) 

181 

182  setup('reboot-', reboot setup); 


如 果 在 命令 行 中 选择 了 通过 BIOS 重 引导 ， 则 又 有 “ 热 引 导 ” 和 “ 冷 引 导 ” 之 分 ， 二 者 都 通过 
machine_real_restart( ) 进 行 。 然 而 ， 不 管 是 “ 热 引 导 ” 还 是 “ 冷 引导 ” 总 之 都 要 进入 BIOS。 这 里 所 请 
进入 BIOS 并 不 是 指 像 “int 0x13” 那 样 的 BIOS 调用 ,而 是 要 进入 整个 BIOS 的 初始 入 口 ， 就 好 像 机 器 
刚 加 电 一 样 。 以 前 我 们 提 到 过 ，BIOS 的 入 口 是 0xffftft0， 读 者 可 能 觉得 这 很 容易 ， 只 要 执行 一 条 jmp 指 
令 跳 转 到 这 个 地 址 就 行 了 。 可 是 ， 事 情 并 个 是 这 么 简单 ，BIOS 是 为 16 位 实地 址 模式 设计 的 ， 而 CPU 
此 刻 运 行 于 32 位 保护 模式 ， 而 甘 采 用 页 式 地 址 映射 ， 这 中 间 有 着 不 小 的 差距 。 当 初 ， 次 CPU 在 受到 
启动 后 是 经 过 了 - 段 “ 跳 板 ” 程 序 才 从 实地 址 模式 进入 保护 模式 ， 而 主 CPU 则 先 执行 了 一 段 引 导 辅 助 
程序 ， 实 际 上 也 是 “跳板 ” 才 进 入 保护 模式 的 。 而 且 ， 二 者 在 进入 startup_32( ) 以 后 又 经 历 了 问 页 式 
映射 的 过 渡 。 现 在 要 回 到 BIOS 就 得 走 过 相 反 的 过 程 ， 上 人 台 靠 跳板 ， 下 台 要 有 台阶 。 而 
machine. real restart( ) 的 作用 正 是 让 当前 CPU 通过 台阶 下 台 。 这 个 函数 的 代码 在 kernel/process.c 中 : 


[sys_reboot( ) > machine restart( ) > machine real restart( )] 


254 — /* 

255 * Switch to real mode and then execute the code 

256 * specified by the code and length parameters. 

257 * We assume that length will aways be less that 100! 

258 */ 

259 void machine real restart (unsigned char *code, int length) 

260 { 

261 unsigned long flags; 

262 

263 cli( ); 

264 

265 /* Write zero to CMOS register number Ox0f, which the BIOS POST 

266 routine will recognize as telling it to do a proper reboot. (Well 
261 that's what this book in front of me says —- it may only apply to 
268 the Phoenix BIOS though, it's not clear). At the same time, 

269 disable NMIs by setting the top bit in the CMOS address register, 
270 as we're about to do peculiar things to the CPU. I’m not sure if 
271 “outb p' is needed instead of just ^ outb'. Use it to be on the 
272 safe side. (Yes, CMOS WRITE does outb p's. - Paul G.) 

273 */ 

274 

275 spin lock irqsave(&rtc lock, flags); 

276 CMOS_WRITE (0x00, Ox8f) ; 

277 spin unlock irqrestore(&rtc lock, flags); 

218 

219 /* Remap the kernel at virtual address zero, as well as offset zero 
280 from the kernel segment. This assumes the kernel segment starts at 
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282 
283 
284 
285 
286 
287 
288 
289 
290 
291 
292 
293 
294 
295 
296 
297 
298 
299 
300 
301 
302 
303 
304 
305 
306 
307 
308 
309 
310 
31 
312 
313 
314 
315 
316 
317 
318 
319 
320 
321 
322 
323 
324 
325 
326 
327 
328 
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virtual address PAGE OFFSET. */ 


memcpy (swapper pg dir, swapper pg dir + USER PGD PTRS, 
sizeof (swapper pg dir [0]) * KERNEL PGD PTRS):; 


/* Make sure the first page is mapped to the start of physical memory. 


It is normally not mapped, to trap kernel NULL pointer dereferences. */ 


pgO[O] = PAGE RW | PAGE PRESENT; 





/* 

* Use swapper_pg dir’ as our page directory 

*/ 

asm volatile(^mov] %0, %%cr3”: :"r" (  pa(swapper pg dir))); 


/* Write 0x1234 to absolute memory location 0x472. The BIOS reads 
this on booting to tell it to "Bypass memory test (also warm 
boot)". This seems like a fairly standard thing that gets set by 
REBOOT. COM programs, and the previous reset routine did this 
too. */ 


*((unsigned short *)0x472) = reboot mode; 


/* For the switch to real mode, copy some code to iow memory. It has 
to be in the first 64k because it is running in 16-bit mode, and it 
has to have the same physical and virtual address, because it turns 
off paging. Copy it near the end of the first page, out of the way 
of BIOS variables. */ 


memcpy ((void *) (0x1000 - sizeof (real mode switch) - 100), 
real mode switch, sizeof (real mode switch)); 
memcpy ((void *) (0x1000 - 100), code, length); 


/* Set up the IDT for real mode. */ 


. asm _ . volatile ("lidt %0” : : "m" (real mode idi)); 

/* Set up a GDT from which we can load segment descriptors for real 
mode. The GDT is not used in real mode; it is just needed here to 
prepare the descriptors. */ 

asm volatile (lgdt W0^ : : "m" (real mode gdt)); 


/* Load the data segment registers, and thus the descriptors ready for 
real mode. The base address of each segment is 0x100, 16 times the 
selector value being loaded here. This is so that the segment 
registers don't have to be reloaded after switching to real mode: 
the values are consistent for real mode operation already. */ 
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329 

330 . asm  . volatile (movl $0x0010, %%eax\n” 

331 ^Ntmovl %%eax, %%ds\n” 

332 "Ntmov] %%eax, %%es\n” 

333 ^Ntmovl %%eax, %%fs\n” 

334 "Ntmovl %%eax, %%gs\n” 

335 “\tmovl %%eax, %%ss” : : : “eax”); 

336 

337 /* Jump to the 16-bit code that we copied earlier. It disables paging 
338 and the cache, switches to real mode, and jumps to the BIOS reset 
339 entry point. */ 

340 

341 . asm volatile . ("limp $0x0008, %0” 

342 : 

343 : “i” ((void *) (0x1000 - sizeof (real mode switch) - 100))); 
344 } 


整个 过 渡 的 过 程 都 不 容许 中 断 ， 所 以 一 开始 先 关闭 中 断 。 然 后 向 CMOS 存储 器 中 地 址 为 0x8f 处 写 
AO. 注释 中 说 这 是 BIOS 所 要 求 的 ， 并 且 同 时 也 起 了 关闭 “不 可 屏蔽 中 断 ”NMI 的 作用 ， 我 们 就 不 加 
考证 了 。 


22 #define CMOS WRITE(val, addr) (( V 
23 outb p((addr), RTC PORT(0)) ; \ 

24 . outb_p((val), RTC_PORT(1)); \ 

.25 p 


以 前 ， 在 向 页 式 映射 的 过 渡 中 ， 有 一 个 时 期 需要 在 页 面 日 录 中 的 低 区 ， 即 从 虚 地 址 0 开始 的 区 间 
也 保持 部 分 空间 的 上 映射， 使 得 CPU 以 虚拟 地 址 和 物理 地 址 访问 内 存 时 可 以 被 映射 到 相同 的 物理 存储 单 
元 。 现 在 要 向 相反 方向 过 渡 也 得 要 有 这 么 一 个 时 期 ， 所 以 283 行 从 页 面 映射 目录 swapper_pg_dir 中 把 
对 应 于 系统 空间 的 256 个 目录 项 复制 到 低 区 ， 放 在 从 上 月 录 起 点 开始 的 地 方 。283 一 284 行 中 引用 的 常数 
分 别 定 义 于 include/asm-i386/pgtable-2level.h 和 include/asm-i386/pgtable.h 中 : 


8 #define PGDIR SHIFT 22 


123 #define USER PGD PTRS (PAGE OFFSET >> PGDIR SHIFT) 
124 #define KERNEL PGD PTRS (PTRS PER PGD-USER PGD PTRS) 


这 些 目录 项 是 从 页 面 映 射 日 录 的 高 区 原封 不 动 复制 下 来 的 , 可 是 系统 空间 的 第 一 个 页 面 、 即 pgo[0] 
fe IE ISAT PEKRAH, BTA il A BERD AL 289 行 )。 这 里 标志 位 _PAGE_RW 和 
_PAGE_PRESENT 的 作用 个 言 自明 ， 而 页 面 的 基地 址 则 为 0。 实际 上 ， 这 个 页 面 正 是 现在 要 用 的 。 

由 于 页 面 映射 日 录 已 经 改变 ，294 行 再 装 入 一 次 控制 寄存 器 %cr3。 当 然 ， 因 为 是 在 内 核 中 运行 ， 
原来 %cr3 也 是 指向 swapper_pg_dir， 装 入 前 后 这 个 地 址 并 无 改变 ,但 是 这 条 指令 的 执行 使 CPU 重新 装 
入 页 面 映射 目录 。 

如 前 所 述 ， 全 局 reboot, mode 的 值 症 (当初 ) 根 据 引导 命令 行 中 的 选择 项 设置 的 。 如 果 在 命令 行 中 
选择 了 “ 热 引 导 ” 那么 这 个 变量 的 值 就 是 0x1234〈 见 前 面 的 162 行 )， 和 否则 就 是 0。BIOS 在 执行 中 此 
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a 


测试 内 存单 元 0x472 的 内 容 ， 如 果 是 0 就 要 执行 对 内 存 等 的 自 检 ， 称 为 “ 热 引 导 ” MEA O 则 跳 过 自 
检 ， 称 为 “ 冷 引导 ” 所 以 ，302 行 把 reboot_mode 的 值 写 入 这 个 内 存单 元 ， 为 BIOS 的 运行 作 好 准备 。 
接 下 来 (310~312 行 )， 还 茧 把 两 段 小 程序 复制 到 物理 内 存 第 一 个 页 面 的 顶部 。 这 册 个 小 程序 就 起 
着 “台阶 ”的 作用 ， 一 个 是 real_mode_switch， 另 一 个 是 作为 参数 传 下 来 的 jump_to_bios。 等 - 下 读者 
就 会 看 到 这 两 个 台阶 是 如 何 起 作用 的 。 
准备 好 台阶 ， 就 可 以 下 了 。 首 先 (316 行 ) 是 把 中 断 描述 表 换 成 real_mode_idt， 实 际 上 是 把 所 有 的 中 
Wr TRES BETTE Ec: 


205 real mode idt = { Ox3ff, 0 }; 


全 局 段 描述 表 的 改变 就 是 关键 性 的 了 。322 行将 新 的 全 局 段 描述 表 real mode gdt 4A GDTR. X 
内 容 定义 于 arch/i386/kernel/process.c: 


184 /* The following code and data reboots the machine by switching to real 


185 mode and jumping to the BIOS reset entry point, as if the CPU has 

186 really been reset. The previous version asked the keyboard 

187 controller to pulse the CPU reset line, which is more thorough, but 
188 doesn't work with at least one type of 486 motherboard. It is easy 
189 to stop this code working; hence the copious comments. */ 

190 

191 static unsigned long long 

192 real mode gdt entries [3] = 

193 { 

194 0x0000000000000000ULL, /* Null descriptor */ 

195 0x00009a000000ffffULL, /* 16-bit real-mode 64k code at 0x00000000 */ 
196 0x000092000100ffffULL /* 16-bit real-mode 64k data at 0x00000100 */ 
197 }; 

198 

199 static struct 

200 { 

201 unsigned short size __attribute__ ((packed)); 

202 unsigned long long * base __attribute__ ( (packed) ) ; 


203} 
204 real mode gdt = { sizeof (real mode gdt entries) - 1, 
real mode gdt entries }, 


新 的 段 描述 项 在 数组 real. mode. gdt, entries[ ] 中 。 对 照 第 2 章 中 对 段 描述 项 格式 的 定义 ， 就 可 以 看 
出 ， 下 标 ( 即 自 选择 号 ) 为 1 的 段 描 述 项 对 应 于 代码 段 ， 其 基地 址 为 0; 而 下 标 为 2 的 段 描述 项 则 对 应 于 
数据 段 ， 其 基地 址 为 100; 两 个 段 的 大 小 都 是 64KB 。 接 着 (330 行 ) 把 除 CS 以 外 所 有 的 段 寄存 器 都 设置 
成 0x0010， 即 都 是 数据 段 。 最 后 (341~343 行 ) 是 一 条 长 程 转移 指令 jmp (HT “1” RAKE). BE 
转 的 月 标 怎样 确定 昵 ? 段 选择 项 是 0x0008， 对 应 于 real_mode_gdt_entries[ ] 中 的 第 二 项 (195 行 )， 即 代 
码 段 ， 所 以 段 的 基地 址 为 0， 而 位 移 量 则 是 (0x1000 一 sizeof (real_mode_switch) 一 100)。 显 然 ， 这 就 是 前 
面 复制 好 的 台阶 real mode switch 的 入 口 。 这 段 程序 以 及 jump to. bios 的 机 器 代码 以 数据 的 形式 定义 
于 arch/i386/kernel/process.c H: 
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226 static unsigned char real mode switch [ ] = 
227 { 
228 0x66, OxOf, 0x20, Oxc0, /* movl %cr0, %eax */ 
229 0x66, 0x83, Oxe0, Oxll, /* andi $0x00000011, %eax */ 
230 0x66, OxOd, 0x00, 0x00, 0x00, 0x60, /* orl | $0x60000000, %eax */ 
231 0x66, OxOf, 0x22, Oxc0, /* movl %eax, %cr0 */ 
232 0x66, OxOf, 0x22, Oxd8, /* movl %eax, %cr3 */ 
233 0x66, OxOf, 0x20, Oxc3, /* movl %cr0, %ebx */ 
234 0x66, Ox81, Oxe3, 0x00, 

0x00, 0x00, 0x60, /* andl $0x60000000, %ebx */ 
235 0x74, 0x02, /* jz f */ 
236 OxOf, 0x08, /* invd */ 
237 0x24, 0x10, /* f: andb $0x10, al */ 
238 0x66, OxOf, 0x22, OxcO /* movl %eax, %cr0 */ 
239. J> 
240 static unsigned char jump_to_bios [ ] = 
241 { 
242 Oxea, 0x00, 0x00, Oxff, Oxff /* limp $0xffff, $0x0000 */ 
243}; 


HEA 228 行 以 后 ， 由 于 jmp 指令 将 与 物理 地 址 等 同 的 线性 地 址 装 入 了 IP， 从 此 开始 取 指 令 的 地 址 
就 都 在 低 区 了 ， 这 束 是 为 什么 需要 在 页 面 映射 目 录 中 先 作 好 准备 的 版 因 。 接 着 ， 通 过 改变 控制 寄存 器 
%cr0 和 %cr3 的 内 容 将 页 面 映 射 关 闭 。 如 果 CPU 的 高 速 缓存 还 开 着 ， 则 还 要 执行 一 条 invd 指令 将 高 速 
缓存 中 的 内 容 作 废 。 然 后 ， 又 通过 改变 9%er0 的 内 容 同 到 实地 址 模式 。 执 行 完 238 行 的 mov 指令 ，CPU 
己 经 运行 于 实地 址 模式 了 。 程序 jump. to. bios 的 机 器 代码 就 紧 接 在 real_mode_switch[ ] 的 上 方 ， 所 以 执 
行 完 238 行 的 mov 指令 以 后 紧 接着 就 是 242 行 的 (长 程 jmp 指令 ， 目 标 是 段 地 址 为 0xfff， 位 移 为 0 的 
地 方 ， 即 0xffff0， 这 就 是 BIOS HAL. 
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